你拿到心仪的offer了吗?天池联合多家名企为大赛TOP100选手提供招聘绿色通道,马上加入,免初试、直达终面特权等你领取! 查看详情
首页 > 天池大赛 > 阿里大规模图像搜索大赛
  • 状态 举办方 第 2 赛季截止日期 总奖池 参赛队

    阿里大规模图像搜索大赛

    已结束 2015/12/16 ¥100000 843

    报名参赛

文件名称 (报名后可下载)

文件格式

train_image.zip(MD5= 90255fc0d60bb0a342e9c208aa0c9ae6)

download

train_label.zip(MD5=e304fcad3451f16977bbe1d434f04631)

download

eval_image.zip(MD5 = b714cb6ef5a2594c44d48b1bb779ac3a)

download

query_image.zip(MD5=AB63C99608BC76F719A19450235DB659)

download

eval_tags.zip(MD5 = 3f896dba3d2902d1499aa3935fdd2c53)

download

verified_query.txt(md5=32751348aa586473650f06c22801d381)

download

竞赛题目

本赛题的任务是:参赛者根据提供的训练数据,进行算法设计和模型训练;同时提供验证数据来验证算法初步效果;然后根据给定的Query,从候选评测数据中,检索中出最相似的20个图像结果。

数据说明

(决赛和踢馆赛数据登录后台可见)

1.    训练集图片及标签(train_image.zip 和 train_label.zip)

用于选手进行算法训练;主要包含两大部分:一是图片本身,二是其对应的标签信息(注:标签不保证百分百正确,但大部分正确,含有部分噪声或缺失)

标签有三大类,其格式为:

字段名

字段说明

备注

imgid

图像标识符,对应图片文件名(扩展名以外)

 

cid

大类目ID

类目信息有专门映射文件

subcid

小类目ID

类目信息有专门映射文件

pid:vid; pid:vid;…

属性名:属性值;属性名:属性值;

属性描述有专门映射文件

 

2.    评测集及特殊指定图片(eval_image.zip和verified_query.txt)

目标集作为用户进行检索的图片库;每张图片的文件名作为唯一标志符(imgid);

特殊指定图片是主办方指定的,需要选手在提交结果时,对这些指定的图进行特征提取以及计算相似度测试;其格式为:

Imgid_0,imgid_1,imgid_2,imgid_3…imgid_n

3.    验证Query及答案(query_image.zip以及eval_tags.zip中指定imgid)

选手在验证集上验证算法,根据答案计算算法指标。

验证集给出一批Query,以及它们每个的同款图像(答案),其格式为:

Query_i,imgid_0; imgid_1; imgid_2;imgid_3…imgid_19

4.    评测Query(query_image.zip以及eval_tags.zip中指定imgid)

用于评测的query图片,文件名即为其唯一标志。

5.    接口说明:

选手的代码需要实现主办方提供的基础类并实现四个接口:两个功能性的接口,一个初始化接口,一个结束释放接口:

A:特征抽取:extract;

具体格式为int extract(const int* img_file_buf, long file_size, int* feat_buf, long max_size); 

读入图片(二进制),输出整形(如原始为浮点,请归一到整形)格式特征。

B:两两匹配:match;

具体格式为float match(const char* feat_buf1, const char* feat_buf2, long buf_size);输入2个特征,输出特征间的距离。选手可以使用欧氏距离等来进行比较。

C: 初始化:init:

具体格式为:int init(const std::string& path);

其中param一般为各类依赖文件的路径;

D:release:

具体格式为:int release();

提交数据

参赛者每次返回结果时,需要上传一份结果文件,结果文件中包括:

1.    搜索结果:

与检索图片Query最相似的TOP20结果,文件格式为(单个空格分隔):

Query_i,imgid_0;imgid_1;imgid_2;imgid_3…imgid_19

2.    指定图片特征:

对指定图片提取的特征,其格式为每个图片返回一个整形数组:

imgid_i,val_0; val_1;val_2…val_n

3.    代码、模型及配置:提供完整的、可编译运行的代码,同时需要实现上述的两个接口(特征提取和匹配);训练好的模型,以及匹配的配置文件。

4.    依赖库:

除赛方提供的库以外的必要库,原则上所有的依赖都使用官方提供的。

以上3)和4)可以在前期提交时跳过(系统会使用官方的代替),但最终排名需要完整提交并验证通过。

上传地址见://alisc.aliyun.com  (选手后台系统帮助请点击//alisc.aliyun.com/about )

限制参赛选手在赛事进行期间能进行30次结果上传。

评测指标

我们希望能够获得不同算法进行图像搜索时的同款图片返回情况,以及根据返回的同款图片所在位置进行评分;我们使用两个指标来进行衡量:

一是速度,速度指标只有上限,也就是说,单图的特征抽取和两两的匹配时间,必须小于等于我们设定的上限(特征抽取1s,两两匹配100ms,选手本地可以使用GPU来获取TopN,但速度是基于CPU单线程的要求,参考配置:Intel(R) Xeon(R) CPU E5-2420 0 @ 1.90GHz 4G;(虚拟机,比物理机性能稍差))即可;如果超过1秒,则按如下计:假设时间为n(s,秒,精确到小数点后2位),成绩为M,则最终成绩为:M/(n)

二是效果,用MAP@20来决定:MAP是反映图像搜索系统在全部相关query上性能指标。系统检索出来的同款图越多,同时越靠前,MAP就越高。如果系统没有返回任何一个同款图,则准确率定义为0。

对应单个query,平均准确率AP(average precision)定义为(第1个同款/返回结果中的位置 + 第2个同款/返回结果中的位置+...) / 真实答案中有多少同款 (上限20)。

 

 

整体的平均准确率(MAP—mean average precision)是每个query的平均准确率的平均值。