首页 > 天池大赛 > AI Word Cup - 2018世界杯新闻智能创作极限挑战赛
  • 状态 举办方 第 2 赛季截止日期 总奖池 参赛队

    AI Word Cup - 2018世界杯新闻智能创作极限挑战赛

    已结束 2018/07/16 ¥200000 337

    报名参赛

文件名称 (报名后可下载)

文件格式

WordCup_API_20180705.pdf

.pdf (191KB)

WordCup_code_20180705.py

.py (4KB)

WordCup_events_20180615.xlsx

.xlsx (24KB)

WordCup_images_20180615.xlsx

.xlsx (230KB)

WordCup_news_20180613.zip

.zip (28MB)

[new] WordCup_group_events_20180629.xlsx

.xlsx (681KB)

赛题
参赛选手可依据大赛提供相关数据,训练写作模型。并最终在复赛阶段实时获取新闻事件及图集数据,并在极短时间内产出新闻,并通过大赛提供的新闻上传API上传新闻。
1.      推荐使用python 3.6,C,C++,Java,Matlab等常用开发语言;
2.      每支参赛队最多提交3份作品及模板;
3.      每篇文章不低于500字,不超过700字;
4.      新闻文体,开放性赛题形式不限,不限于如下:
•    对应场次比赛的详情描述;
•    球队历史战况分析。需要有数据支撑;
•    比赛结果预测。分析球队各位置球员历史表现;
5.      世界杯数据API及新闻上传API使用方式及参数定义将在6月下旬公布;


数据
1.      新闻事件数据,各字段描述如下:

字段名称

描述

n_ActionID

行动ID

n_ActionCode

实际发生的事件Code

c_Action

行动事件,包括:伤停补时、开球、得分机会、更换队长、比赛结束、任意球、进球、射门命中目标、视频助理裁判、进球、换人、门将开球、黄牌、犯规、被门将扑救、越位、点球、点球罚失、球门线扑救、坠球、进球、红牌罚下(单场得到第二张黄牌)、射门封堵、角球、射门被封堵、射门偏出、击中横梁、击中门柱、乌龙球、直接红牌罚下

c_ActionInfo

有关行动的其他信息

c_ActionReason

行动原因

n_ActionSort

时间的排序ID

d_ActionDateUTC

行动时间(UTC时间)

n_ActionTime

发生的时间,毫秒级

c_ActionMinute

发生的时间,分钟

c_Period

比赛阶段

c_Team

发生时间的球队

n_PersonID

事件对应的人ID

c_Person

事件对应的人

n_SubPersonID

事件的关联人ID

c_SubPerson

事件的关联人

n_HomeOrAway

是主队还是客队

n_HomeGoals

主队即时的得分

n_AwayGoals

客队即时的比分

n_XCoordinateStart

球场x坐标

n_YCoordinateStart

球场y坐标

n_YCoordinateGoalLine

球门y坐标

n_ZCoordinateGoalLine

球门z坐标



2.      新闻图集数据,各字段描述数据如下:

字段

描述

ID

比赛场次ID

comment

图片描述

URL

图片下载地址

 

特殊说明:新闻事件及图集数据将于6月15日凌晨,世界杯第一场比赛结束后提供。

3. 历史足球比赛新闻原文数据。数量级:1万-10万;

字段

描述

title

新闻标题

content

新闻内容

publish新闻发布时间

entities

新闻中出现的实体信息(包括人物,组织,地域等)

img_url_list
新闻图片链接

keywords

从新闻中提取的关键词。多个关键词间使用逗号分隔

 

参赛者可以通过天池官网下载历史比赛新闻数据。解压压缩包后,参赛者可以看到一个txt文件,其内容类似于:


"You can you up" 细数球员与球迷口角冲突^001球迷是足球运动的心脏和灵魂,近日,在阿斯顿维拉1-1战平韦康比流浪者后,维拉队长理查兹在赛后与愤怒的球迷正面对质和交流,这样的“冲突”却在赛后收到了媒体和主教练的赞誉,维拉主帅加尔德表示,理查兹的行为是富有勇气、敢于承担责任的做法。\n其实在世界足坛,球员与球迷在球场上直面对话的事情不在少数,现在让我们来细数一番。\n1、2015年1月10日,女王公园巡游者不敌伯恩利,连续十个客场不赢球,赛后,在球员走向比赛通道时,收到了愤怒球迷的责骂,后文邓恩和希尔都驻足与球迷进行对质。\n2、2015年3月7日,卢顿镇FC在比赛中不敌莫克姆FC,赛后,一小撮愤怒的球迷对球员抱以辱骂声,随后,卢顿镇队长史蒂夫-麦克纳尔蒂邀请这些球迷前往球队的训练场与他们进行了交谈。\n3、2010年6月18日,在世界杯的赛场上,英格兰队0-0战平阿尔及利亚,赛后,英格兰球迷的嘘声对准了鲁尼,鲁尼则在进入更衣室前,愤怒的面对摄像镜头说:“能见到你们嘘我们真的太开心了,你们真是一群忠实的球迷。”\n4、2015年1月10日,当斯旺西在足总杯比赛中不敌低级别联赛球队牛津联的赛后,琼乔-谢尔威在赛后卷入到了与球迷的冲突中。\n5、2015年3月5日,多特蒙德不敌10人应战的奥格斯堡,赛后,队长胡梅尔斯主动走到南看台下与球迷进行交流。多特蒙德俱乐部与球迷之间的良好关系举世著名,但是在上赛季球队连续输球后,球员和球迷之间的口角也在所难免。\n6、2015年3月20日,罗马在欧联杯淘汰赛不敌佛罗伦萨提前出局,赛后,愤怒的罗马球迷要求球员与他们对话,罗马正副队长托蒂和德罗西只得上前来安抚球迷。\n7、2009年7月19日,尽管大卫-贝克汉姆在结盟洛杉矶银河后成为了这支球队的偶像,但是他却没有赢得所有人的喜爱,尤其是当他加盟银河后又租借加盟AC米兰。对于他这种“一心二用”,银河的球迷报以嘘声,并打出横幅写道:“回家吧,贝克汉姆。”有些生气的贝克汉姆则试图越过栏杆与球迷对质,好在工作人员平息了事态。\n作者:左路内切\n5U体育原文链接:返回搜狐,查看更多\n^001加尔德,女王公园巡游者,罗马,伯恩利,佛罗伦萨,多特蒙德,德罗西,斯旺西,洛杉矶银河,理查兹,邓恩,银河,阿尔及利亚,AC米兰,FC,卢顿,奥格斯堡,托蒂,搜狐^001["http://photocdn.sohu.com/20160114/mp54409519_1452736482422_2.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_3.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_4.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_5.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_6.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_7.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_8.jpeg","http://photocdn.sohu.com/20160114/mp54409519_1452736482422_9.jpeg"]^001球迷,愤怒的,理查兹,卢顿,维拉
.....



此txt文件中,每一行代表一条新闻数据。各字段会见使用”^001”分隔。正文中的换行信息使用”\n”表示。关键词使用逗号分隔。



评审标准

总体要求:参赛选手通过提供的输入信息,选择不同侧重点,生成文字描述,产出最终完整新闻报道。产出文体不限,可以通过预先写好的模板配置,可以通过算法生成。


初赛要求:
1.      产出作品通顺,无错别字、语病及文法错误;
2.      无涉黄、涉暴、涉恐内容,价值观积极向上;
3.      参赛选手提供的验收程序能够正确复现提交的新闻作品。
满足以上条件的作品即可进入复赛。


复赛要求:
1.      可在初赛作品上进行优化,微调整;
2.      可实时接收新闻数据,并在较短时间内产出新闻作品;
3.      选手提交验证程序。该验证程序可准确无误再现新闻作品;
4.      评分指标:
•    全网用户阅读pv统计,占比50%;
•    评委评分。维度包括:
1)新闻专业度,包括:新闻的准确性,时效性,描写是否生动,分析角度是否独特;
2)数据角度分析:对大赛提供数据的使用分析情况;
3)算法角度:通过算法生成的作品分数将高于模板配置;




提交程序格式规范
请各参赛队依照下属标准提交验证程序:
1.      各参赛队需要将测试数据,新闻生成程序打包,以zip压缩包形式发送至大赛组委会;
2.      压缩包内目录结构如下图所示,其中:
•    根目录名称以各队队名命名;
•    本示例中gen_news.py表示新闻生成程序。名称各队可自定义;
•    data子目录是大赛提供的测试数据目录。此目录下不必包括历史新闻数据;
•    news子目录下为运行gen_news.py后生成的新闻文本,以GBK编码的txt格式。txt中图片素材以图片链接表示即可;
•    code目录为程序源码,主要针对python 3.6, C,C++,Java及Matlab开发程序;

p.jpg