小T发福利,快来领GPU啦! 查看详情
首页 > 天池大赛 > 商场中精确定位用户所在店铺
  • 状态 举办方 第 2 赛季截止日期 总奖池 参赛队

    商场中精确定位用户所在店铺

    已结束 2017/12/11 ¥100000 2845

    报名参赛

文件名称 (报名后可下载)

文件格式

AB榜测试集-evaluation_public.csv

.csv (121MB)

训练数据-ccf_first_round_shop_info.csv

.csv (371KB)

训练数据-ccf_first_round_user_shop_behavior.csv

.csv (281MB)

1、数据

本赛题提供两种数据

1、商场内店铺的信息数据,这个对训练和评测都是统一的。

2、真实用户在这些商场内的一段时间的到店交易数据,训练和评测将采用不同的时间段。

注意:为了保护用户和商家的隐私,所有数据均作匿名处理,同时做了必要的有偏采样、过滤等脱敏措施。某些数据的某些字段可能为NULL,请自行处理。


2、评价方式

本赛题采用准确率进行评价。详细评分算法如下:

预测正确:您给出的shop_id和标准答案的shop_id相等。

准确率 = 预测正确样本总数/总样本数

 注意:如果某些row_id样本您没有给出结果,那么也会被当成错误识别。


3、字段表


Table 1、店铺和商场信息表(复赛的表名为:ant_tianchi_ccf_sl_shop_info


Field

Type

Description

Note

shop_id

String

店铺ID

已脱敏

category_id

String

店铺类型ID

共40种左右类型,已脱敏

longitude

Double

店铺位置-经度

已脱敏,但相对距离依然可信

latitude

Double

店铺位置-纬度

已脱敏,但相对距离依然可信

price

Bigint

人均消费指数

从人均消费额脱敏而来,越高表示本店的人均消费额越高

mall_id

String

店铺所在商场ID

已脱敏



Table 2、用户在店铺内交易表复赛的表名为:ant_tianchi_ccf_sl_user_shop_behavior


Field

Type

Description

Note

user_id

String

用户ID

已脱敏

shop_id

String

用户所在店铺ID

已脱敏。这里是用户当前所在的店铺,可以做训练的正样本。(此商场的所有其他店铺可以作为训练的负样本)

time_stamp

String

行为时间戳

粒度为10分钟级别。例如:2017-08-06 21:20

longitude

Double

行为发生时位置-经度

已脱敏,但相对距离依然可信

latitude

Double

行为发生时位置-纬度

已脱敏,但相对距离依然可信

wifi_infos

String

行为发生时Wifi环境,包括bssid(wifi唯一识别码),signal(强度),flag(是否连接)

例子:

b_6396480|-67|false;b_41124514|-86|false;b_28723327|-90|false;

解释:以分号隔开的WIFI列表。对每个WIFI数据包含三项:b_6396480是脱敏后的bssid,-67是signal强度,数值越大表示信号越强,false表示当前用户没有连接此WIFI(true表示连接)。


Table 3、评测集复赛的表名为:ant_tianchi_ccf_sl_test

测试数据A榜和B榜格式相同,只是选取的时间不同,A榜数据是9月份第一周数据,B榜数据是9月份第二周数据。

Field

Type

Description

Note

row_id

String

测试数据ID

 

user_id

String

用户ID

已脱敏,并和训练数据保持一致

mall_id

String

商场ID

已脱敏,并和训练数据保持一致

time_stamp

String

行为时间戳

粒度为10分钟级别。例如:2017-08-06 21:20

longitude

Double

行为发生时位置-经度

已脱敏,但相对距离依然可信

latitude

Double

行为发生时位置-纬度

已脱敏,但相对距离依然可信

wifi_infos

String

行为发生时Wifi环境,包括bssid(wifi唯一识别码),signal(强度),flag(是否连接)

格式和训练数据中wifi_infos格式相同



Table 4、选手需要提交的结果,统一命名为:result复赛结果表:ant_tianchi_ccf_sl_predict,需要参赛者自行创建该表并存放最终结果,格式见下文

注意:每次提交的结果集需要和评测集数据记录数保持一致,避免评测无结果。

Field

Type

Description

Note

row_id

String

测试数据ID

下载的测试文件中的row_id

shop_id

String

店铺ID

算法检测的结果


答案样本

row_id shop_id
1 xx
4 xx
7 xx
10 xx


注意:在数加平台读取表时,请在表名前加前缀odps_tc_257100_f673506e024,形如:desc odps_tc_257100_f673506e024.ant_tianchi_ccf_sl_shop_info