小T发福利,快来领GPU啦! 查看详情
首页 > 天池大赛 > 第三届阿里云安全算法挑战赛
  • 状态 举办方 第 2 赛季截止日期 总奖池 参赛队

    第三届阿里云安全算法挑战赛

    已结束 2018/09/22 ¥300000 622

    报名参赛

文件名称 (报名后可下载)

文件格式

3rd_security_md5.txt

.txt (145B)

3rd_security_submit_sample.csv

.csv (3MB)

3rd_security_test.zip

.zip (705MB)

3rd_security_train.zip

.zip (1GB)

赛题背景

恶意软件是一种被设计用来对目标计算机造成破坏或者占用目标计算机资源的软件,传统的恶意软件包括蠕虫、木马等,这些恶意软件严重侵犯用户合法权益,甚至将为用户及他人带来巨大的经济或其他形式的利益损失。近年来随着虚拟货币进入大众视野,挖矿类的恶意程序也开始大量涌现,黑客通过入侵恶意挖矿程序获取巨额收益。当前恶意软件的检测技术主要有特征码检测、行为检测和启发式检测等,配合使用机器学习可以在一定程度上提高泛化能力,提升恶意样本的识别率。
 

赛题说明

 
本题目提供的数据来自文件(windows 可执行程序)经过沙箱程序模拟运行后的API指令序列,全为windows二进制可执行程序,经过脱敏处理。
 
本题目提供的样本数据均来自于从互联网。其中恶意文件的类型有感染型病毒、木马程序、挖矿程序、DDOS木马、勒索病毒等,数据总计6亿条。
 

数据说明

 
1)训练数据(train.zip):调用记录4亿次,文件11万个(以文件编号汇总),字段描述如下
字段
类型
解释
file_id
bigint
文件编号
label
bigint
文件标签,0-正常/1-勒索病毒/2-挖矿程序/3-DDoS木马/4-蠕虫病毒/5-感染型病毒
api
string
文件调用的API名称
tid
bigint
调用API的线程编号
return_value
string
API返回值
index
string
线程中API调用的顺序编号
 
 
注1:一个文件调用的api数量有可能很多,对于一个tid中调用超过5000个api的文件,我们进行了截断,按照顺序保留了每个tid前5000个api的记录。
 
注2:不同线程tid之间没有顺序关系,同一个tid里的index由小到大代表调用的先后顺序关系。

注3:index是单个文件在沙箱执行时的全局顺序,由于沙箱执行时间有精度限制,所以会出现一个index上出现同线程或者不同线程都在执行多次api的情况,可以保证同tid内部的顺序,但不保证连续。
 
2)测试数据(test.zip):调用记录近2亿次,文件5万多个。
说明:格式除了没有label字段,其他数据规格与训练数据一致。
 

测评指标

1.比赛采用AB榜排名方式,测试集会切分成A,B两部分分别打分(AB的切分是固定的),比赛前期公布A榜排名和分数帮助选手调整模型,最后两天公开B榜排名和分数,最终成绩以B榜最优成绩为准。
 
2.选手的结果文件包含7个字段:file_id(bigint)、和六个分类的预测概率prob0, prob1, prob2, prob3, prob4, prob5(类型double,范围在[0,1]之间,精度保留小数点后5位,prob<=0.0我们会替换为1e-6,prob>=1.0我们会替换为1.0-1e-6)。选手必须保证每一行的|prob0+prob1+prob2+prob3+prob4+prob5-1.0|<1e-6,且将列名按如下顺序写入提交结果文件的第一行,作为表头:file_id,prob0,prob1,prob2,prob3,prob4,prob5。
 
3.分数采用logloss计算公式如下:
 1532273659477-37b0e690-eb56-45b6-a64c-88e4c85bb489.png

M代表分类数,N代表测试集样本数,yij代表第i个样本是否为类别j(是~1,否~0),Pij代表选手提交的第i个样本被预测为类别j的概率(prob),最终公布的logloss保留小数点后6位。