Dataset news

2022/09/21 天池数据集全新改版

天池数据集平台全新改版，欢迎体验！

2022/09/14 WAIC'22因果学习和决策优化数据集在天池平台开放

WAIC'22因果学习和决策优化数据集来自天池大赛，旨在推动因果推断和决策优化方向的研究，由北京九章云极科技有限公司提供。

2022/09/07 阿里云基础设施供应链库存管理决策数据集在天池平台开放

阿里云基础设施供应链库存管理决策数据集旨在促进互联网和云计算的场景下供应链精益管理方向的研究，由阿里云提供。

2022/08/30 自动驾驶路面图像分类数据集RSCD在天池平台开放

自动驾驶路面图像分类数据集RSCD 是业界首个用于自动驾驶路面感知的大规模真实场景图像分类数据集，由清华大学提供。

2022/08/24 阿里云安全恶意程序检测数据集在天池平台开放

阿里云安全恶意程序检测数据集来自天池大赛，旨在云计算安全领域技术的发展，由阿里云提供。

2022/08/17 中文多领域段落检索评测基准Multi-CPR在天池平台开放

Multi-CPR评测基准是用于段落检索的多领域中文数据集。该数据集包括电商、娱乐视频和医疗3个领域，每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。数据集由阿里巴巴智能引擎事业部提供，旨在推动中文跨领域段落检索技术的发展。

2022/08/09 大规模开放数字商业知识图谱评测基准OpenBG在天池平台开放

OpenBG评测基准是一个大规模开放数字商业知识图谱评测基准，包含多个子数据集和子任务。数据集以开放的数字商业知识图谱OpenBG为基础构建。由浙江大学、阿里巴巴藏经阁团队联合提供，目标是利用开放的商业知识发现社会经济的价值，促进数字商务数字经济等领域的交叉学科研究，服务数字经济健康发展的国家战略需求。

2022/07/27 FashionAI服饰数据集在天池平台开放

FashionAI服饰数据集包括两个子数据集：服饰关键点定位数据集和服饰属性标签识别数据集。是由阿里巴巴“图像和美”团队联合香港理工大学纺织与制衣系推出的业界首个同时符合服饰专业性和机器学习要求的大规模高质量时尚数据集，目标是推动AI技术与服饰时尚的结合。

2022/07/18 多样式网络图像文字检测与识别数据集MTWI在天池平台开放

多样式网络图像文字检测与识别数据集MTWI 旨在推动图片管控、搜索、信息录入等OCR技术的发展。由阿里巴巴和华南理工大学联合提供。

2022/07/09 CCKS2022学术评测任务“金融领域FEW-SHOT事件抽取数据集”在天池平台开放

金融领域FEW-SHOT事件抽取数据集旨在推动促进金融领域小样本事件抽取技术的研究。由蚂蚁集团和中科院自动化所联合提供。

2022/06/30 电商海报图片文字擦除数据集在天池平台开放

电商海报图片文字擦除数据集旨在推动电商海报图片文字擦出领域的研究，由阿里妈妈事业部提供。

2022/06/21 SRDS2022论文“生产系统内存故障”数据集在天地平台开放

生产系统内存故障数据集旨在推动内存故障预测方向的研究，由阿里云智能基础设施事业部提供。

2022/06/10 大规模段落检索多领域中文数据集Multi-CPR在天池平台开放

大规模段落检索多领域中文数据集Multi-CPR ( a Multi-Domain Chinese Dataset for Passage Retrieval Dataset) 旨在推动中文跨领域段落检索方向的技术研究，由阿里巴巴搜索事业部和阿里巴巴达摩院联合提供。

2022/06/02 CCL2022学术评测任务中文语法纠错数据集MuCGEC在天池平台开放

多参考多来源汉语学习者文本纠错数据集MuCGEC (A Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction) 旨在推动中文语法纠错领域技术的研究，由苏州大学和阿巴巴达摩院NLP团队联合提供。

2022/05/23 CHIP2022学术评测任务“医疗清单发票OCR要素提取”数据集在天池平台开放

医疗清单发票OCR要素提取旨在推动医疗OCR领域技术的研究。

2022/05/15 CHIP2022学术评测任务“医疗因果实体关系抽取”数据集在天池平台开放

医疗因果实体关系抽取数据集旨在推动因果关系推理技术在医疗领域的研究，由阿里夸克医疗事业部和天池平台联合提供。

2022/05/07 CHIP2022学术评测任务“医疗因果实体关系抽取”数据集在天池平台开放

医疗因果实体关系抽取数据集旨在推动因果关系推理技术在医疗领域的研究，由阿里夸克医疗事业部和天池平台联合提供。

2022/04/26 KDD2022论文数据集“服饰搭配CTR预估”在天池平台开放

服饰搭配CTR预估数据集，旨在推动电商服饰搭配技术方向的研究，由淘系技术部提供。

2022/04/17 饿了么推荐数据集在天池平台开放

饿了么推荐数据集开放了1.4亿的在线用户点击日志数据，旨在推动推荐领域时空建模技术方向的研究，由阿里本地生活事业部提供。

2022/04/09 NVMe SSD数据集在天池平台开放

NVMe SSD数据集为业界首个公开的大规模NVMe SSD硬盘日志数据集，旨在推动NVMe SSD硬盘可靠性方向的研究，由阿里云存储事业部提供。

2022/04/01 亚太眼科学会跨国家眼科数据评测基准APTOS在天池平台开放

APTOS （APTOS Cross-Country Dataset）由亚太眼科学会过往和未来的大数据竞赛数据集组成，为推动AI技术在眼科方向的应用落地提供了来评测基准，数据集由亚太眼科学会（APTOS: Asia Pacific Tele-Ophthalmology Society）及其会员单位提供。

2022/03/18 电子商务知识图谱评测基准OpenBG在天池平台开放

OpenBG 是由阿里巴巴和浙江大学联合开放的电子商务知识图谱评测基准，包含常见的知识图谱任务，旨在促进知识图谱领域社区技术的发展。

2022/03/07 “中文医学信息处理评测基准CBLUE”论文被ACL2022录用！

CBLUE是国内首个中文医学NLP方向的评测基准，由中国中文信息学会医疗健康与生物信息处理专业委员会发起，阿里云天池平台承办，旨在推进社区领域技术的研究发展。

2022/03/01 ACL2022论文数据集SSD在天池平台开放

SSD (Sub-slot Dialog)数据集可用于基于子槽的任务型对话（sub-slot based task-oriented dialogue task）研究，由阿里巴巴达摩院小蜜团队提供。

2022/02/23 中文医疗信息处理评测基准CBLUE2.0在天池平台开放

CBLUE是国内首个中文医学NLP方向的评测基准，由中国中文信息学会医疗健康与生物信息处理专业委员会发起，阿里云天池平台承办，旨在推进社区领域技术的研究发展。相比1.0，CBLUE2.0任务类型在自然语言理解（NLU）的基础上扩充了自然语言理解生成（NLG）任务，任务数从8个扩充到15个，更综合的考察了医学自然语言处理能力。

2022/02/14 商品标识检测数据集Open Brands数据集在天池平台开放

该数据集来源天池大赛，可用于计算机视觉小目标检测，长尾类别检测方向的研究。数据集由阿里巴巴安全部提供。

2022/02/07 电商推荐“抱大腿”攻击识别数据集在天池平台开放

该数据集来源天池大赛，可帮助研发人员开展推荐系统中恶意流量攻击识别方向的研究。数据集由阿里云、阿里巴巴人工智能治理与可持续发展实验室(AAIG)联合提供。

2022/01/28 阿里云磐久智维算法大赛数据集在天池平台开放

该数据集来源天池大赛，通过提供大规模的服务器运行日志，可帮助研发人员开展大规模日志故障诊断和智能化运维方向的研究。数据集由阿里云基础设施部提供。

2022/01/14 开放的数字商业知识图谱AliOpenKG数据集在天池平台开放

AliOpenKG是由阿里巴巴开放的首个大规模开放数字商业知识图谱，目前开放的版本包含了超过18亿的三元组，多达67万的核心概念，2681类关系。

2021/01/05 多视图3D重构数据集在天池平台开放

多视图3D重构数据集是业界首个来自真实场景的多视图3D重构方向的数据集，数据集由阿里巴巴达摩院XR实验室提供。

2021/12/25 跨语言商品信息检索数据集CLPR-9M在天池平台开放

CLPR-9M （Cross-Lingual Product Retrieval dataset）是业界首个跨语言商品检索数据集，包含了3种语言的900多万条（检索词，商品）数据，旨在推动跨语言商品检索技术的发展，数据集由阿里巴巴达摩院翻译团队提供。

2021/12/19 中文语音NER数据集AISHELL-NER 在天池平台开放

AISHELL-NER数据集是建立在被广泛使用的 AISHELL-1 上的中文语音命名实体识别数据集，旨在推动中文语音命名实体识别技术的发展，数据集由阿里巴巴达摩院NLP团队提供。

2021/12/09 UbiComp2022论文数据集P2Loc在天池平台开放

P2Loc数据集的提出旨在推动IoT方向研究，数据集由阿里巴巴本地生活事业部提供。

2021/12/01 CVPR2021论文数据集“MUSES”在天池平台开放

MUSES（MUlti-Shot EventS）数据集的提出旨在推动多镜头事件时间定位的研究，数据集由阿里巴巴优酷提供。

2022/11/23 糖尿病性视网膜病变的检测数据集在天池平台开放

该数据集来源亚太眼科学会大数据竞赛，可用于糖尿病性视网膜病变检测方向的研究。由亚太眼科学会（ATPOS）提供。

2022/11/12 抗VEGF治疗结果预测数据集在天池平台开放

该数据集来源天池大赛，可用于预测糖尿病黄斑病变 (DM) 患者的抗 VEGF 治疗结果。由亚太眼科学会（ATPOS）提供。

2021/11/01 AAAI2022论文数据集“飞猪推荐数据集”在天池平台开放

该数据集是来源于真实工业场景的推荐系统数据集，目标是从用户和用户群体的行为数据中建模学习当前用户的兴趣表征，为用户提供个性化、优质、专业的产品推荐方案，数据集由阿里巴巴飞猪提供。

2021/10/23 国际首个黑盒优化算法评测基准RABBO在天池平台开放

RABBO（Real-Application Black-Box Optimization benchmark）榜单由达摩院决策智能实验室推出，通过提供具有实际应用背景的黑盒优化测试问题及评测方案，旨在帮助算法研发者打磨求解真实场景问题的黑盒优化算法，为算法使用者提供各类算法特点与适用场景分析以及使用参考，是国际上首个黑盒优化算法评测benchmark。

2021/10/16 CCKS金融领域篇章级事件抽取学术评测数据集在天池上线

该数据集来自CCKS历年金融领域事件抽取技术学术评测任务，包括：CCKS2021事件元素抽取、CCKS2021事件因果关系抽取、CCKS2020事件主题抽取、CCKS2020事件要素抽取、CCKS2019事件主体抽取，可用于研究金融领域篇章级事件要素抽取和因果关系抽取，由蚂蚁金服和中科院自动化所联合提供。

2021/10/09 CCKS中文地址技术学术评测数据集在天池上线

该数据集来自CCKS2021学术评测任务，由地址要素解析数据集和中文地址相关性数据集两个数据集组成，是国内首个地址分析技术领域的科研数据集，由阿里巴巴达摩院提供。

2021/09/16 CCKS运营商知识图谱推理问答学术评测数据集在天池上线

该数据集来自CCKS2021学术评测任务，是国内首个运营商知识图谱推理问答方向的科研数据集，可用于KBQA方向的研究，由阿里小蜜团队提供。

2021/09/01 CCKS保险领域低资源文档信息抽取学术评测数据集在天池上线

该数据集来自CCKS2021学术评测任务，是国内首个保险领域的文档信息抽取科研数据集，可用于低资源文档级别信息抽取的研究工作，由阿里小蜜团队提供。

2021/08/16 CHIP医患对话临床发现阴阳性判别学术评测数据集在天池上线

该数据集来自CHIP2021的学术评测任务，可用于医疗对话理解方向的研究，由阿里夸克医疗团队提供。
推荐：医学文本信息处理评测基准CBLUE 。

2021/08/02 中文多模态基准评测MUGE在天池上线

MUGE是国内首个大规模中文多模态评测基准，拥有当前最大规模的中文多模态评测数据集，覆盖多种类型的任务，包括图文描述、基于文本的图像生成、跨模态检索等，旨在推进中文多模态领域社区技术的进步。由阿里巴巴达摩院智能计算实验室提供。

2021/07/17 ICCV2021论文数据集“WTW”在天池上线

WTW(Wired Table in the Wild)是业界首个面向自然场景有线表格结构识别任务的数据集。目前学术界表格数据集基本都是排列整齐、结构简单、背景干净的表格，比如pdf、电子图片等。相比之下WTW提供了自然场景复杂结构表格，希望以此推动表格结构识别算法的发展。由阿里巴巴达摩院读光OCR团队提供。

2021/07/02 天池数据集“DiaKG”论文被CCKS2021会议接收

DiaKG数据集是国内首个糖尿病图谱领域的数据集，论文被第十五届全国知识图谱与语义计算会议（CCKS2021）“Resource Track”接收。

2021/06/17 历史气候观测和模拟数据集在天池上线

该数据集来源天池大赛，可用于厄尔尼诺（ENSO）现象预测的研究。由气候与应用前沿研究院ICAR提供。

2021/06/01 工业质检数据集在天池上线

数据集来源于天池大赛，包括了布匹瑕疵检测、酒瓶瑕疵检测和瓷砖表面裂纹检测三个数据集，可用于使用计算机视觉（CV）技术来开展工业质检的研究方向。

2021/05/18 EMNLP2020论文数据集“EBM-Net”在天池上线

该数据集是一个用于评价临床试验结果预测任务的数据集，可用于使用深度学习技术开展临床试验结果预测方向的研究。由清华大学医学院和阿里巴巴达摩院联合提供。

2021/05/05 ACL2021论文数据集“Few-NERD”和“OntoEvent”在天池上线

Few-NERD是业界首个few-shot领域的NER数据集，也是最大的人工标注NER数据集。由清华大学和阿里巴巴达摩院联合提供。
OntoEvent可用于低资源场景下(low resource)事件抽取的研究，相比已有公开数据集，OntoEvent增加了事件间的关系的标注，由浙江大学和阿里巴巴达摩院联合提供。

2021/04/16 UbiComp21论文数据集“RL-Dispatch”在天池上线

该数据集是业界首个研究众包订单派送调度方向的数据集，由阿里巴巴本地生活提供。

2021/04/01 中文医疗信息处理评测基准CBLUE在天池上线

CBLUE是国内首个中文医学NLP方向的评测基准，由中国中文信息学会医疗健康与生物信息处理专业委员会发起，阿里云天池平台承办，旨在推进社区领域技术的研究发展。