首页 > 天池大赛 > CIKM AnalytiCup 2018
  • 状态 举办方 第 2 赛季截止日期 总奖池 参赛队

    CIKM AnalytiCup 2018

    已结束 2018/08/01 €7500 1027

    报名参赛

文件名称 (报名后可下载)

文件格式

[update] cikm_submission_sample_20180525.txt

.txt (22B)

cikm_english_train_20180516.zip

.zip (1MB)

cikm_spanish_train_20180516.txt

.txt (307KB)

cikm_test_a_20180516.txt

.txt (532KB)

cikm_test_b_20180730.txt

.txt (1019KB)

cikm_unlabel_spanish_train_20180516.zip

.zip (2MB)

fast_text_vectors_wiki.en.vec.zip

.zip (2GB)

fast_text_vectors_wiki.es.vec.zip

.zip (843MB)

赛题描述
本次算法竞赛是以聊天机器人中最常见的文本匹配算法为目标,通过语言适应技术构建跨语言的短文本匹配模型。在本次竞赛中,源语言为英语,目标语言为西班牙语。参赛选手可以根据主办方提供的数据,设计模型结构判断两个问句语义是否相同。最终,我们将在目标语言上测试模型的性能。

我们希望参赛选手关注在短文本匹配和语言适应的问题上,所有的参赛选手都需要注意以下限制:
1)模型训练中只能使用我们提供的数据,包括有标注语料、无标注语料、翻译结果、词向量等。不得使用其它数据或预训练模型。
2)如果需要预训练词向量,只能使用fastText预训练的词向量模型。
3)如果需要使用翻译模型或翻译语料,只能使用我们提供的翻译结果。
4)理论上选手们可以用我们提供的平行语料训练出一个翻译模型,此类方法不禁止,但我们不推荐。



数据说明
在本次竞赛中,训练数据集包含两种语言。我们将提供20,000个标注好的英语问句对作为源数据,同时我们也将提供1,400个标注好的西班牙语问句对,以及55,669个未标注的西班牙语问句。所有的标注结果都由语言和领域专家人工标注。与此同时,我们也提供了每种语言的翻译结果。


数据字段
●   cikm_english_train:
英语问句对,匹配标注,及其西班牙语翻译。
     格式为
     英语问句1,西班牙语翻译1,英语问句2,西班牙语翻译2,匹配标注。

     标注为1表示两个问句语义相同,0表示不同。

●   cikm_spanish_train: 西班牙语问句对,匹配标注,及其英语翻译。
     格式为
     西班牙语问句1,英语翻译1,西班牙语问句2,英语翻译2,匹配标注。
     
     标注为1表示两个问句语义相同,0表示不同。


●   cikm_unlabel_spanish_train: 无标注西班牙语语料,及其英语翻译。

●   cikm_test_a:
测试集,需要预测的西班牙语问句对。

     
不同字段以”\t”符号分隔。



答案提交
对于测试集中的每一对语句,选手只需提交对应的预测分值,每行一个,分值越高表示语义越匹配。分值需在(0,1)区间内。
可参考附件中的格式。


评价指标
本次竞赛需要参赛选手预测问句对是否具有相同的语义,因此我们使用 $\log loss$ 来评估性能。
假设 $y_{i}$ 是标注答案,$p_{i}$ 是样本 $x_{i}$ 的预测概率,那么可以定义 $\log loss$ 为:
13_37_15__05_15_2018.jpg

参考文件 
fast_text_vectors_wiki.en.vec.zip”和“fast_text_vectors_wiki.es.vec.zip”是来自facebook在fastText项目的预训练词向量模型,提供目的是为了帮助参赛选手更快地建立起比赛的解决算法。但为了让参赛选手重点关注赛题的本质问题,所以将限制使用这两个词向量模型。