首页 > 天池大赛 > 阿里巴巴大数据智能云上编程大赛
  • 状态 举办方 第 1 赛季截止日期 总奖池 参赛队

    阿里巴巴大数据智能云上编程大赛

    进行中 2018/08/03 ¥300000 739

    报名参赛

一、问题描述

参赛队伍将得到气象业务人员在预报中所广泛参考的多种格点降水预报(集合预报)的结果,需要选手综合考虑各种预报的误差规律,将各个预报的结果融合分析,得到资料覆盖区域(东经118°~121°,北纬28.5°~31.5°,也即杭州及周边区域)的未来24小时降水预报结果。 


二、数据类型说明

本数据集共有557组数据,在比赛中的分配如下:

类型初赛复赛总决赛
训练100组300组
测试50组100组7组


1、输入数据
集合预报50个成员各自对未来24小时降水量的格点预报结果。每个成员的预测结果是由61*61矩阵构成。每24小时有50个61*61矩阵数据,每50个矩阵数据为一组。

2、输出数据

未来24小时的格点降水量,也是一个61*61的矩阵。

 

三、数据格式及文件命名规则说明

1、输入数据
输入数据分为训练输入数据和Label输入数据。训练输入数据和Label输入数据都在平台空间上访问。说明如下:

训练样本数据表名:odps_tc_257100_f673506e024.forecast_program_round1_train

列名说明
sample_id样本组编号,整型
member_id集合预报成员编号,整型,1-50
XX和Y构成了格点,共计61*61个格点,整型
Y
pre_value格点内的预报降水量,浮点类型


Label数据表名:odps_tc_257100_f673506e024.forecast_program_round1_label

列名说明
sample_id样本组编号,整型
XX和Y构成了格点,共计61*61个格点,整型
Y
label_value格点内的真实降水量,浮点类型

测试样本数据表名:odps_tc_257100_f673506e024.forecast_program_round1_test,结构同训练样本数据表名。
注:
1) 读取平台空间中表中示例:desc odps_tc_257100_f673506e024. forecast_program_round1_train ;
2) 初赛和复赛中Label数据样本组编号数量与样本数据中的组编号相同且数量一致;


2、输出数据
对测试样本进行预测后, 生成的表名为forecast_program_round1_submit,生成的结果表中必须包括如下几列:

列名说明
sample_id样本组编号,整型
XX和Y对应测试样本中的X和Y值,整型
Y
label_value 预测结果,浮点类型

注:在自己队伍的project中生成结果表即可。


四、评分标准

大赛将客观定量评价各选手的预测结果,评价方法基于公正预兆得分(equitable threat score,简称ETS),计算方法如下。

首先将24小时降雨量根据量级分成5级

雨量无雨小雨中雨大雨暴雨
范围(mm)0 (0, 9.9] (9.9, 24.9] (24.9, 49.9] (49.9, +∞)


遍历所有样本,为有雨/无雨的判断统计如下表格(逐格点统计数量)

table 1.png

同时为小雨、中雨、大雨、暴雨的判断统计如下表格

无标题0999_副本.png

2222_副本.png





基于降雨量越大越重要的原则。将有雨/无雨判别、小雨、中雨、大雨、暴雨的结果分别赋以权重0.1,0.1,0.2,0.25,0.35。根据以上权重将每天的有雨/无雨判别、小雨、中雨、大雨、暴雨的预报结果ETS评分进行加权平均,得到最终的评分结果,分数越高表示预报结果越好。