首页 > 天池大赛 > CIKM AnalytiCup 2017
  • 状态 举办方 第 1 赛季截止日期 总奖池 参赛队

    CIKM AnalytiCup 2017

    已结束 2017/07/02 $11000 1395

    报名参赛

文件名称 (报名后可下载)

文件格式

Training Set

download

Testing Set (Phase1)

download

Submission Sample

download

Training Set (mirror link)

download

Testing Set (Phase1/mirror link)

download

Testing Set (Phase2)

download

进入PAI平台的选手,请使用“个人中心”->"我的RAM账号“中的账号登入数加平台。

PAI平台数据集的表名如下:
t_tianchi_cikm2017_train_feature
t_tianchi_cikm2017_testb_feature
读表之前,请务必在表名之前加上前缀odps_tc_257100_f673506e024。比如select count(*) from odps_tc_257100_f673506e024.t_tianchi_cikm2017_train_feature

选手提交的结果表,需要统一为如下表名
t_tianchi_cikm2017_testa_predict

本地和平台排行榜融合的逻辑如下:
以平台提交的结果优先,例如:队伍在PAI平台和本地天池提交入口都进行了提交,则排行榜取PAI平台的结果, 如果说在下一次评测之前,PAI平台结果没有任何的修改,则排行榜取本地天池提交入口的结果。
融合排行榜将于612日或13日开放,届时技术圈将有公告通知


天池

   CIKM AnalytiCup 2017

深圳气象局-阿里巴巴大赛: 短时定量降水预测

背景
短时汛情预报, 例如降水预报,在气象服务领域一直是非常重要的问题。准确的天气预报服务可以帮助计划户外活动,甚至可以提供洪水或交通事故的预警。为了预测短期降水量,我们通常利用雷达数据,周边降水和气象信息。在这个比赛中,我们目标是利用第一类数据--雷达数据,具体地说是多普勒雷达回波外推数据,来建立一个准确的降水预报模型。

多普勒雷达探测降水是气象中常用的方法。在雷达气象中,气象目标对雷达波后向散射能力的强弱通常称为气象目标的强度,常用的表示气象目标强度的参量有反射率和反射率因子。单位体积重云雨粒子后向散射截面的总和,称为气象目标的反射率。降水目标物单位体积中降水粒子直径6次方的总和称为雷达反射率因子,用Z表示,其常用单位为mm6 / m3。反射率因子Z值的大小,反映了气象目标内部降水粒子的尺度和数密度,常用来表示气象目标的强度。

在这个比赛中,我们提供气象局观测到的雷达图数据。每个雷达图覆盖一个目标地点及其周边地区,标记为m * m网格,其中每个网格点记录的是雷达反射率因子值z。这里Z值可以从非常小的数值到大的值,为方便起见,我们使用dBZ来测量这个值:

dBZ = 10logZ / Z0),其中Z0 = 1mm6 / m3

为了保密,所有原始dBZ值都经过了线性转换。

问题
在这个比赛中,我们提供了同一个目标站点和周边地区在不同的时间段和不同高度下的雷达图。我们的任务是预测这个目标站点未来1小时到2小时之间的地面总降水量。

短期降水预测任务是个非常有挑战的任务,通常涉及以下信息的分析:

        i)当前降水量与雷达折射率之间的关系;

        ii)雷达图包含当前目标站点及其周边地区的雷达反射率。需要考虑目标地点与周边地区之间的降水关系;

        iii)最后,我们有不同时间跨度的雷达地图。根据历史数据,可能会发现降水量演变的一些模式。

数据
数据集包含真实的雷达图和气象观测中心收集到的目标站点降水量。 数据集涵盖以下几个维度:
1.
每个雷达图包含一个目标站点(位于地图中心的);
2.
每个雷达图包含目标站点在未来1小时和2小时之间的降水总量。 请注意,我们不考虑在未来1小时内的降水量;
3.
不同的时间跨度下的雷达图,间隔为6分钟,共15个时间跨度;不同高度下的雷达图,间隔为1km,从距离0.5km3.5km,共4个高度;
4.
根据目标地点的纬度和经度,每个雷达图占地面积101 * 101平方公里。 该区域被标记为101×101格,目标位置位于中心,即(50,50)。

数据说明如下:

注意,我们的目标是预测时段1和时段2之间的降水量,即未来1小时到未来2小时。
每个雷达地图如下所示,中心的红点是目标站点。

总而言之,我们将提供以下数量的数据实例:
        
训练数据: 10,000
        
第一阶段测试数据: 2,000
        
第二阶段测试数据: 2,000

评测指标
我们的任务是预测确切的降水量,以减少预测误差。 我们使用均方根误差(RMSE)来评估性能。令X为预测向量,Y为观测值的向量,n为观测数据大小。 RMSE定义如下:

样例
请在提供的数据集中找到提交样本(submission sample) 提交结果必须严格按照Test1-Test2000的顺序进行,每行只有一个数字预测结果。详细格式在FAQ Q2中指定。

基本解决方案
这个任务的一个简单的解决方案是使用一个雷达图来预测图中目标站点的未来降水量。 我们可以将所有的雷达反射率值作为特征,将目标站点的未来降水量作为标注,可以训练线性模型,如线性回归(Linear Regression)。 PAI [1]直接使用Linear Regression模型后,学习率设置为0.01,得到的RMSE14.69 参赛者应该超过这个结果才能赢得奖品。 


[1] PAI: Platform of Artificial Intelligence https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.112.RybFmq