精品数据集_天池数据集-阿里云天池

电商

行业介绍

淘系技术部隶属于阿里巴巴新零售技术事业群，支撑淘宝、天猫核心电商以及闲鱼、躺平等创新业务，服务9亿用户，赋能各行业1000万商家。淘系技术打造了全球领先的线上新零售技术平台，并作为核心技术团队保障了11次双十一购物狂欢节的成功。通过不断探索和衍生颠覆型互联网新技术，打造了业内领先的淘宝直播、智能营销等技术体系，并且通过技术驱动商业，在家装家居赛道中成功开创了躺平新业务，以更加智能、友好、普惠的科技深度重塑产业和用户体验。同时，淘系技术积极参与开源社区的建设，为进一步推动产学研的共同进步，开源了多个零售业领域的数据集，如Watch and Buy (直播行业)、3D FUTURE&3DFRONT（家居行业）、FashionAI（服饰行业）等10多个来源于真实场景的脱敏数据集，与全球学者/科研人员共享技术成果。

Watch and Buy: “边看边买”淘宝直播商品检索数据集

直播带货是淘宝连接商品和消费者的重要方式，通过对直播视频中商品进行实时识别和推荐，可实现消费者边看边买的消费体验, 可有效提高商品购买的转化。通常情况下直播对应的数百款商品之间相似程度高，且直播画面中存在大量的背景信息、灯光变化、商品遮挡和形变等，给直播画面中商品的匹配识别带来很大的技术挑战。为提升直播中商品匹配识别的效果，依托淘宝直播海量数据，我们构建了业界最大规模的多模态视频商品检索数据集: Watch and Buy，数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对, 具有规模大、标注全、模态多、功能广的特点。可用于物体检测的算法、商品重识别算法、主播意图识别和多模态检索等多种前沿技术的研究。

Fashion Collection Dataset: 淘宝服装搭配数据集

穿衣搭配是服饰鞋包导购中非常重要的课题，它所延伸出的技术、算法能广泛应用到电商场景中，如搜索、推荐和营销服务。淘宝开放的穿衣搭配数据集提供了搭配专家和淘宝达人生成的搭配组合数据，包括了百万级别的淘宝商品的文本和图像数据，同时还提供了脱敏过的用户购买行为数据。该数据集开放的目的是为研究者们进行个性化、专业的穿衣搭配方案研究提供真实的练兵场景。

3D-FUTURE: 阿里巴巴3D家居数据集(一)

在过去十多年里，科学家们在3D视觉及几何的研究投入巨大的努力，但是3D人工智能技术的工业落地任然困难重重，尤其是在家居家装行业。阿里淘系技术开源了3D-FURURE和3D-FRONT两个工业数据集（3D-FUTURE包括了专业设计师所设计的5,000个场景中渲染产生了20,240幅图像，涉及16,563个饱含细节的高质量三维家具模型。3D-FUTURE数据集主要服务于研究三维几何模型相关科学问题和实际应用的科研与企业人员。例如基于图像的三维模型检索与推荐，单目图像三维模型几何和纹理重建，基于图像的模型实例分割、三维几何模型自动纹理贴图等问题。

3D-FRONT: 阿里巴巴3D家居数据集(二)

3D-FRONT数据集提供了超过20,000个高清室内场景专业设计渲染图，布局信息为房间内各个模型的位置与朝向，以及各个房间的位置），填补了目前学界在大规模高质量3D场景布局、3D模型重建等领域数据集上空白的现状，对加快研究人员对场景布局预测与生成等研究课题具有重大意义。数据集共有6813个房屋，总房间数达51708个，其中19775个包含高质量三维模型，房间种类多达28种数据集自上线以来，已收到233家国内外知名大学和企业的使用请求，并已提供完整数据集。3D-FRONT荣获了ChinaGraph 2020（中国计算机图形学大会）首个“图形开源数据集奖”，该奖项的设置是为了表彰推动领域新技术的发展，并为提升计算机图形学领域影响力做出重要贡献的开源数据集；此外，已有相关学者使用本数据集发表论文至人工智能顶会NeurIPS 2020上。

Product Description Generation：淘宝达人文案生成数据集

阿里平台有很多达人、商家等撰写的文案，这些文案提供了除商品图片和标题外丰富的货品信息，有助于提升货品的销量。为了更好的帮助研究者们对于文本生成方面进行研究。我们将其中部分真实商品的文案进行加工整理进行开放，数据集共包含2,129,187条人工检查过的高质量训练数据。

Real-Scenario Multimodal Dataset from Taobao：淘宝多模态检索数据集

随着全球零售电子商务销售额的快速增长，电商平台越来越重视多模态内容的语义理解，针对检索场景来说，Query-商品图片的语义匹配检索更符合用户体验。我们开放了来自最大电子商务平台之一 —— 手机淘宝的真实场景多模态数据，由淘宝搜索查询和产品图像特征组成，目标是促进跨模态检索领域的技术研究。

文娱

行业介绍

得益于5G技术的迅猛发展，视频成为了新一代信息互动传播方式。阿里集团在视频领域投入了重点研发，刚刚过去的东京奥运会上，阿里云作为底层的技术支持方完美支持了多场奥运高清赛事直播活动，阿里巴巴优酷集团在视频增强与超分、视频裁剪、高精度视频分割等领域做出了重要贡献。

Youku-VESR：优酷视频增强和超分数据集

视频增强和超分是计算机视觉领域的核心算法之一，目的是恢复降质视频的内容，以提高视频的清晰度。该技术在工业界有着重要的实用意义，如近年来，《开国大典》、《我的祖国》等高清修复内容多次刷屏全网，使老电影焕发新生机。 Youku-VESR数据集是优酷集团推出的业界最大、最具广泛性的数据集，涵盖了10000+段高清标注视频。

H2V-142K：优酷视频剪裁数据集

视频智能剪裁领域的相关技术发展缓慢，部分原因可以归于缺乏相应完整、丰富的可用数据。针对显著主体选择这个问题，数据集要求具备丰富的场景、画面中有明显物体或人物以及显著主体的标注等要求。H2V-142K数据集采集于优酷视频分享网站，包含9,499张图片，125段视频，是目前业界规模最大的视频裁剪数据集，该数据集有效覆盖多人复杂场景的主体定位问题，相关成果发表于计算机视觉领域顶级会议ICCV。

Youku-TED: 优酷视频时序事件检测数据集

视频时序事件检测(temporal event detection)目标是在视频中识别特定的事件并定位相应的时间段，如“打电话”、“跑步健身”等。时序事件检测作为视频理解的基础技术之一，具有广泛的应用前景，包括智能生产、视频智能剪辑、安全生产监控、视频内容检索等。本数据集提供一个业界大规模视频时序事件监测数据集，共包含55,000段视频，合计2,986小时，标注了含53类事件类别共299,000段视频事件, 目的是推进最前沿的时序检测算法研究，解决在实际问题中的应用难题，促进工业界和学术界的深度合作，相关成果发表于计算机视觉顶级会议CVPR。

Youku NER Dataset：文娱NER数据集

命名体识别(NER)是一项重要的自然语言处理任务，本数据集提供了文娱领域的NER开放数据集，包括了3大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。

本地生活

行业介绍

阿里本地生活服务公司有饿了么和口碑两大业务组成，此前两大业务围绕餐饮，分别聚焦外卖、到店两个业务场景，服务676个城市的350万商家。在社会商业走向新零售、新金融、新技术、新能源和新制造全面结合的数字经济时代，本地生活公司的目标将承担更大的使命——重新定义城市生活，让生活更美好、更便利。与此同时，我们积极推动产学研的共同进步，开源了多个本地生活领域的数据集，如aBeacon（室内定位）、ALWAES（POI校准）、RL-Dispatch（物流调度）等多个来源于真实场景的脱敏数据集，与全球学者/科研人员共享技术成果。

aBeacon：实体Beacon数据集

外卖已经进入千千万万的家庭。饿了么的每一个订单都会及时向用户通知这一单现在所处的状态。实时状态的更新，对于顾客和整个平台的骑手调度和时间预估都有着重要意义。而在所有的节点中，“骑手到店”和“骑手取餐”两个节点对于整个平台的价值就更为重要。考虑到本地生活的场景，要获得准确的骑手到店时间，面临着以下几方面的挑战：（1）GPS在室内的漂移；（2）商户在不同楼层的垂直分布；（3）商户环境的动态性和骑手手机的多样性；（4）基于Wi-Fi的方法的局限性。为了解决这个难题，本地生活设计并部署了aBeacon系统（如图1所示），并且开放了aBeacon数据集供研究人员使用，包含了3万骑手在上海2千商户处一个月的手动上报和蓝牙Beacon数据，相关成果被计算机网络系统领域的顶级会议NSDI’21收录。

RL-Dispatch：订单众包调度数据集

在外卖业务中，现有的基于电动车的众包派送系统有一些缺陷，例如长距离配送较慢，骑手危险驾驶等。我们提出一种基于公共交通（如地铁）的众包派送系统，通过历史的地铁数据对各个地铁站之间的通行时间进行预估，结合历史的订单数据建立仿真器，然后通过强化学习建立调度模型，根据骑手（或着由普通乘客作为众包配送员）的乘车线路将合适的订单派送给相应的骑手，同时借助于在地铁站内部署的取餐柜，使得一个订单可以由多个骑手接力配送，提高配送效率。本次开放的数据集包含深圳地区1个月的部分订单数据，供科研人员使用，相关成果已经被UbiComp 21大会收录。

ALWAES: POI校准数据集

对于在线即时配送平台来说，准确商户物理位置至关重要，保证了订单在承诺时间内完成。商户位置由商家自行注册，故并非都是准确位置。错误位置记录可能由于人工错误或商户位置更新导致，但有部分是由于故意操纵造成(如商家故意将注册地点写成人流量较大的购物中心以吸引顾客)。本地生活团队探索了三种不同基础设施五种订单状态数据时空收集策略的性能和成本权衡，包括(1)骑手通过智能手机手动上传订单状态; (2)专用物理签到设备自动报告订单状态; (3)用商户手机作为虚拟签到设备自动报告订单状态。基于机器学习技术，从这三个基础设施收集的订单状态我们构建了行程距离估计模型，并构建了骑手相关移动特征处理骑手移动行为的不确定性来识别潜在的错误商家位置，来保证平台消费者的安全消费。该数据集包含2万骑手在上海3千商户之前的移动统计数据。

VALID：虚拟Beacon数据集

包含了5万骑手在十个城市一个月的手动上报和蓝牙Beacon数据，以及骑手针对到店提醒的反馈数据。运营实体Beacon的过程中，我们发现一些实体Beacon系统问题，包括硬件成本较高，使用寿命较短等。本地生活探索使用商户的APP作为虚拟Beacon来发送蓝牙广播，设计了VALID系统，对骑手到店进行识别。如图，与实体Beacon系统相似，由商户手机进行加密的蓝牙广播，同时骑手的手机进行蓝牙扫描，由云服务器根据绑定关系来确定骑手的到店情况。我们还根据虚拟Beacon的识别结果推出了针对的骑手的自动到店和到店提醒功能，若骑手在商户范围外尝试点击到店，我们会在APP上提醒骑手。虚拟Beacon已覆盖全国300多个城市的1百万余商户。阿里本地生活LAB的论文“Nationwide Deployment and Operation of a Virtual Arrival Detection System in the Wild” 被计算机网络系统领域的顶级会议SIGCOMM’21收录。

医疗

行业介绍

阿里集团于2016年就开始布局医疗健康产业，在公共卫生、保险健康、互联网医疗、新药研发等领域均做了有意义的探索，特别是新冠疫情爆发后，先后推出了“健康码”、“新冠肺炎CT影像自动诊断”等系统，有效地支持了国家抗疫。同时在安全、隐私保护的原则下开放出一批有临床科研价值的数据集，助力国家“健康2030”战略实施。

糖尿病知识图谱数据集DiaKG

中国是世界上糖尿病（diabetes）患者最多的国家，国务院颁布的《“健康中国2030”规划纲要》将糖尿病列为重点预防和监控的慢性病之一。基于此背景下天池团队联合上海瑞金医院宁光院士团队，从历年40多篇糖尿病专家指南权威文献中，标注出涵盖22,050个医学实体和6,890对实体关系的糖尿病知识图谱，是业界首个慢病领域的开放知识图谱。

Spinal Disease Dataset: 脊柱疾病核磁影像数据集

脊柱退化性疾病，如腰椎间盘突出等症状正呈现出年轻化的趋势，困扰着老年人群体和办公族，正确的预防和干预能够有效防止疾病的恶化。核磁（MRI）作为非侵入式检查手段，适合对普通人群的常规检查，是预防脊柱退化性疾病的可靠检查手段。天池联合湘雅医院、万里云等单位开放了业界首个脊柱MRI数据集，目标是促进研究者们关注人工智能算法在脊柱退化性疾病的研究。

中文医疗信息处理评测基准CBLUE

中文医疗信息处理评测基准CBLUE 是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办医疗自然语言处理评测基准，旨在推动中文医学NLP技术和社区的发展。评测基准包括来源于真实医疗场景的任务数据集，包括：医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜，目标是一起来推动医疗行业标准化数据集的发展，并进一步助力行业发展。

临床试验结果预测数据集（EBM-Net）

临床试验是循证医学的一个重要组成部分，主要目的是验证某种干预手段（手术、化疗、放疗或药物）是否有效。临床试验首先需要召集很多志愿者或患者，然后做对照试验，最后统计得出结果，整个试验过程比较漫长。设计有缺陷或者难以成功的临床试验占用了宝贵的病人资源及珍贵的时间，可能会使亟待实施的临床试验因招募不到足够的患者或时间的紧缺而被迫终止。所以，研究者如果在临床试验方案设计阶段就就预测出临床试验的结果，并优先进行成功概率较高的临床试验是非常有意义的工作。举个例子，瑞德西韦曾被科学家们认为是对抗新冠病毒最有希望的药物，这是因为MERS、SARS和新冠病毒同属冠状病毒科且在埃博拉（另一种冠状病毒）感染患者的紧急治疗中也积累了有效的临床结果，这为新冠疫情筛选新药提供了方向。科学家的这种思考是根据既往的研究经验和医学知识得出的，这使得在临床试验开展前评估临床试验所研究问题的可行性成为可能。EBM-Net数据集就是在此背景下提出的，可广泛应用于临床试验设计、药品研发等应用方向。

中医文献问题生成数据集

疫情催化下，人工智能正在持续助力中医药传承创新加速发展，其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展，问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中有落地，通过机器主动提问可以用来高效构建或者补充知识库，扩大数据集规模。问题生成技术已经应用到诸多实际应用场景中，如在医药领域，可以应用到自动问诊、辅助诊疗等场景。

中药说明书实体识别数据集

本数据集来源于中药药品说明书，通过挖掘中药说明书构建中药合理用药的知识图谱，将为中医规范诊疗奠定较好基础。抽取中药药品说明书中的关键信息可以帮助扩充中医药药品知识库。

新冠疫情相似句对判定数据集

面对疫情抗击，疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类仍然是一个有价值的问题。如识别患者相似问题，有利于理解患者真正诉求，帮助快速匹配准确答案，提升患者获得感；归纳医生相似答案，有助于分析答案规范性，保证疫情期间问诊规范性，避免误诊。本数据集整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对，助力疫情智能问答应用技术精准度提升，探索下一代医疗智能问答技术，具有广泛的技术和公益价值。

医疗对话临床发现阴阳性判别数据集

随着新冠疫情的发展，互联网在线医疗已成为一种新型的问诊方法。临床发现(Clinical Finding)是临床医学下，病人状态描述的概念集合，每一个临床发现的概念都具有明确的涵义（比如腹泻，呕吐，高温，物理降温，降温药物治疗）。医学临床报告是病人状态的汇总性的描述，为了尽可能全面和精准的对病人的状态进行客观描述，需要利用严谨的临床发现的概念对病人状态进行表达，其中最基本的状态就是阴性和阳性，也就是病人是否存在或者发生某一种明确的临床发现（Clinical Finding）。目前互联网医疗患者会对自己的症状进行一些口语化的描述，一般称之为主诉，同时医生也为针对性的进行一些问诊，来进行一些主诉的细化和补充。针对互联网医疗对话场景，本数据集主要用作对互联网在线问诊记录中的临床发现的部分进行阴阳性的分类判别。

交通

行业介绍

交通出行是和我们生活息息相关的生活场景，如何实现智慧交通？大家习以为常的“地址”能发挥出什么大价值？阿里巴巴开放的交通行业数据集，目标是助力人工智能行业在交通领域有更大的应用价值。

智慧交通预测数据集

移动互联网时代的开启使得每个出行者都成为了交通信息的贡献者，超大规模的数据在云端进行处理和融合生成城市全时段，无盲区的交通信息。本数据集是由132条贵州省交通运输厅提供的关键路段（link）的属性信息，路段间网络拓扑结构以及每条路段在历史各时间段内的通行时间，供参赛者建立和测试算法模型，精准预测各关键路段在某个时段的通行时间，实现对交通状态波动起伏的预判，助力社会智慧出行和城市交通智能管控。

Traffic Flow Data：交通流量数据集

公路收费站是交通网络中众所周知的瓶颈，在高峰时段，在收费站排长队会使交通管理部门不堪重负，其对策包括加快收费过程和简化未来的交通流量。收费的远征可以简单地分配临时收费员以开辟更多车道。可以通过自适应调整上游交叉路口的交通信号来简化未来的交通流量。只有当交通管理当局收到对未来交通流量的可靠预测时，先发制人的对策才会起作用。例如，如果预计下一小时交通拥堵，那么交通监管机构可以立即部署额外的收费站和/或在上游交叉路口分流交通。交通流量模式因不同的随机因素而有所不同，例如天气条件、假期、一天中的时间等。未来交通流量和 ETA（预计到达时间）的预测是一个已知的挑战。来自 Waze（美国）或 Amap（中国）等移动应用程序的前所未有的大量流量数据可以帮助我们应对这一挑战。本数据集旨在为未来的交通流量和 ETA 预测设计可靠的方法，使得交通管理部门能够利用大数据和算法来减少收费站的拥堵。

地址结构化解析数据集

地址结构化解析服务能为企业、政府机关以及开发者提供地址数据清洗，并通过地址解析、地址补全、地址匹配等服务更好的服务于应急管理、智能交通、物流等业务领域。地址标准化数据集数据来源于公开的黄页信息，开放的目的是为了促进地址标准化技术的研究。

工业

行业介绍

制造业是国民经济的主体，随着人口红利的消失，加强设备自动化改造，提高生产自动化程度，减小劳动强度，改善作业环境，已经成为制造业的普遍共识。天池大赛开放出一批在实际生产过程中积累的数据集，涵盖纺织、食品饮料、非金属制品等行业。

布匹瑕疵质检数据集

纺织行业一直是我们国民经济中占据举足轻重的地位，2016年我国布匹产量超过700亿米，且产量一直处于上升趋势。布匹疵点检测是纺织行业生产和质量管理的重要环节，但一直以来布匹疵点检测都是由人眼完成的。人工检测速度慢、劳动强度大，受主观因素影响，缺乏一致性，这种方法严重降低了纺织生产流程的自动化程度。将人工智能和计算机视觉技术应用于纺织行业，对纺织行业的价值无疑会是巨大的。天池联合广东省政府开放布匹疵点数据，进一步提升布匹疵点检验的准确度，降低对大量人工的依赖，提升布样疵点质检的效果和效率。

白酒质检数据集

瓶装酒的生产过程中，受到原材料质量（酒瓶）以及加工工艺（灌装）等因素的影响，产品中可能存在各类瑕疵影响产品质量。一条产线一般有三到五个质检环节分别检测不同类型的瑕疵。由于瑕疵种类多样、有的瑕疵体积小不易察觉，瓶装酒厂家往往需要投入大量人力成本用于产品质检。高效、可靠的自动化质检能够降低大量人工成本，创造经济效益。天池联合重庆市大数据应用发展管理局和重庆市江津区人民政府提供白酒疵品数据，帮助瓶装酒生产企业提高质检效率以及效果、降低质检成本。

瓷砖质检数据集

瓷砖生产环节一般（不同类型砖工艺不一样，这里以抛釉砖为例）经过原材料混合研磨、脱水、压胚、喷墨印花、淋釉、烧制、抛光，最后进行质量检测和包装。得益于产业自动化的发展，目前生产环节已基本实现无人化。而质量检测环节仍大量依赖人工完成。一般来说，一条产线需要配2～6名质检工，长时间在高光下观察瓷砖表面寻找瑕疵。这样导致质检效率低下、质检质量层次不齐且成本居高不下。瓷砖表检是瓷砖行业生产和质量管理的重要环节，也是困扰行业多年的技术瓶颈。天池与佛山政府联合推出瓷砖数据集，目的是提升瓷砖表面瑕疵质检的效果和效率，降低对大量人工的依赖。

自然科学

行业介绍

在广袤的银河系中，真的存在“流浪行星”吗？面对自然危害，人类能够提前准确预测厄尔尼诺气候现象吗？我们对生存的地球有多少了解？为了促进人类更好的探索宇宙、更好的了解我们的家园地球，阿里巴巴联合诸多机构一起通过大数据竞赛的形式举办了多次自然科学大数据竞赛，取得了非常好的社会反响，也带动了更多AI从业人员将技术应用到自然科学领域，共建美好家园。与此同时，经过合作机构的授权，我们面向社会开放了十多个高价值的自然科学数据集，包括高分遥感图像，气候预测等，希望进一步推动人工智能技术在自然科学领域发挥更大的价值。

高分遥感多光谱影像地物要素分类数据集

涵盖了4万+张遥感影像及对应地物分类标记（十大类），影像数据为覆盖0.8m-2m高清分辨率的多光谱影像。数据覆盖地貌包括：山地、丘陵地区、河湖（水库）、平原、城镇等；地物分类标记参照地理国情监测、“三调”等既有地物分类标准，，包括：林地、草地、耕地、水域、道路、城镇建设用地、农村建设用地，工业用地、构筑物、裸地。该数据集可用于开展遥感影像智能解译算法模型训练，从而利用智能解译技术识别提取土地覆盖和利用类型，实现生态资产盘点、土地利用动态监测、水环境监测与评估、耕地数量与监测等应用。

Historical Climate Observation and Stimulation Dataset: 历史气候观测模拟数据集

聚焦全球大气海洋研究前沿方向，将人工智能技术应用到天气气候预测领域中，提高极端灾害性天气的预报水平，已成为整个行业研究的热点方向。这其中发生在热带太平洋上的厄尔尼诺-南方涛动(ENSO)现象是地球上最强、最显著的年际气候信号，经常会引发洪涝、干旱、高温、雪灾等极端事件，2020年底我国冬季极寒也与ENSO息息相关。达摩院AI Earth团队开放的历史气候观测和模拟数据集,数据集包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量：海表温度异常(SST)，热含量异常(T300)，纬向风异常（Ua），经向风异常（Va），数据维度为（year,month,lat,lon）。基于历史气候观测和模拟数据，利用T时刻过去12个月(包含T时刻)的时空序列（气象因子），可以构建预测ENSO的深度学习模型，预测未来1-24个月的Nino3.4指数，这对极端天气与气候事件的预测具有重要意义。

短时标稀有天体光变事件测数据集检

现代时域天文巡天大数据，借助于先进的计算机数据智能技术，用一种称为微引力透镜的天文理论，使得更多更准确地发现这类稀有小概率天文事件成为了可能。中国科学院国家天文台的地基光学广角相机阵（GWAC，Ground-based Wide Angle Camera）设备能每15秒钟得到一个采样观测数据，并得益于其大视场覆盖能力，至今已获得具有15秒采样分辨率的数百万条光变样本。这为发现时标为小时量级的类地球质量的“流浪地球”目标提供了可能的数据基础。本次开放的GWAC采集的时域天文大数据共有经过相对流量定标的光变曲线766576条，观测时间跨度为6个月，光变曲线连续部分的时间采样率为15秒1个数据点，观测天区共26个，可以帮助研究人员发现微引力透镜候选体和恒星耀发候选体这两种短时标稀有天体光变事件。

气象降水量数据集

短时汛情预报, 例如降水预报，在气象服务领域一直是非常重要的问题。准确的天气预报服务可以帮助计划户外活动，甚至可以提供洪水或交通事故的预警。为了预测短期降水量，我们通常利用雷达数据，周边降水和气象信息。我们可以利用数据集中的雷达数据，具体地说是多普勒雷达回波外推数据，来建立一个准确的降水预报模型。

天体光谱分类数据集

在天文学中，光谱描述了天体的辐射特性，以不同波长处辐射强度的分布来表示。每条观测得到的光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的特征谱线（吸收线、发射线）以及噪声组成。通常天文学家依据光谱的特征谱线和物理参数等来判定天体的类型。在目前的LAMOST巡天数据发布中，光谱主要被分为恒星、星系、类星体和未知天体四大类。 LAMOST数据集中的每一条光谱提供了3690-9100埃的波长范围内的一系列辐射强度值。光谱自动分类就是要从上千维的光谱数据中选择和提取对分类识别最有效的特征来构建特征空间，例如选择特定波长或波段上的光谱流量值等作为特征，并运用算法对各种天体进行区分。

农业

行业介绍

农作物的资产盘点与精准产量预测是实现农业精细化管理的核心环节。当前，我国正处于传统农业向现代农业的加速转型期，伴随着农业的转型升级，政府宏观决策、社会各界对农业数据的需求不断增加，现有农业统计信息的时效性与质量，已不足以为市场各主体的有效决策提供科学依据。在农作物资产盘点方面，传统的人工实地调查的方式速度慢、劳动强度大，数据采集质量受主观因素影响大，统计数据有较大的滞后性，亟待探索研究更高效准确度更高的农业调查统计技术。在产量预测方面，及时准确地获取区域作物单产及其空间分布信息，对作物进行精准的产能预测，对于农业生产安全预警、农产品贸易流通，以及农业产业结构优化具有重要意义。使用对地观测卫星遥感数据获取大尺度农作物数据的基础上，无人机遥感测量技术作为空间信息技术的重要组成部分，既能作为星载遥感影像的重要补充，又能有效替代人工实地调查，凭借着降低地面人工调查强度和调查成本、快速获取实时高分辨数据的优势，成为农业统计调查工作中的一大创新点，同时也是精准农业的重要方向之一。应用于无人机遥感影像分析技术和产能预测模型构建，具有非常大的现实意义和应用价值。

Barley Remote Sensing：大麦遥感检测数据集

本数据集选择了具有独特的地理环境、气候条件以及人文特色的贵州省兴仁市作为研究区域，聚焦当地的特色优势产业和支柱产业——薏仁米产业，以薏仁米作物识别以及产量预测为目标，提供给研究人员做开发算法模型，通过无人机航拍的地面影像，探索作物分类的精准算法，识别薏仁米、玉米、烤烟、人造建筑四大类型，提升作物识别的准确度，降低对人工实地勘察的依赖，提升农业资产盘点效率，并结合产量标注数据预测当年的薏仁米产量，提升农业精准管理能力。

安全

行业介绍

随着流量识别、动作识别、假货识别、假图识别等应用场景的出现，AI与安全结合的成果愈加丰硕，但AI面临的安全问题也逐渐浮出水面。为了抵御未来AI面临的安全风险，阿里安全联合清华大学，以对抗样本为核心，提供场景、技术、数据、算力等支持，召集“挑战者”以防守者的身份共同打磨AI模型安全；为广大安全爱好者提供数字基建安全的试炼场，在高难度的真实环境中提升技术，培养真正有安全实战能力的安全基建人才。安全AI挑战者计划主打高难度、高创新、高趣味、高回报的题目任务和运营玩法。既满足年轻技术爱好者猎奇求新的偏好，又激发了选手剑走偏锋的奇思妙想，将思路方法持续的沉淀到技术社区，将互联网大企业、优秀科研院校的私有经验公有化，实现超预期的累加技术成就。

安全模型白盒对抗攻击Benchmark

如今，大多数机器学习模型都容易受到对抗样本的攻击，成为近年来被广泛研究的新兴话题。目前很多对抗防御方法被提出以减轻对抗样本的威胁。但是，其中一些防御可以被更强大或更具针对性的攻击攻破，这使得很难判断和评估当前防御和未来防御的有效性。如果不能对防御模型进行全面而正确的鲁棒性评估，那么此领域的进展将受到限制。为了加快对当前防御模型在图像分类中的对抗性鲁棒性进行可靠评估的研究，我们组织本次挑战赛，目的是为了产生新颖的攻击算法来更加有效，可靠地评估对抗鲁棒性。我们鼓励参与者开发强大的白盒攻击算法，以发现各种模型的最坏情况下的鲁棒性。

数据集投稿指南

1、

联系投稿：
tianchi_open_dataset@alibabacloud.com

2、

数据合规事项：
合法合规、来源可靠、内容正确、合适的开放许可

3、

数据集文档内容包括：
数据集标题：
数据集名称
简要描述：
一句话概要、数据集所有人和开放许可类型
具体描述：
包括但不限于概要、数据描述、baseline（可选）、评估指标（可选）、开源代码（可选）等
许可：
详见https://tianchi.aliyun.com/specials/promotion/license
引用：
列出使用该数据集需要规范引用的工作（如：论文/书籍等）

4、

数据集格式上传：
文件支持格式：
zip, tar, csv, xls, txt, md, tif, png, jpeg, mp4, avi, acc, mp3, wmv, pdf, html, json等。

天池数据集

行业介绍

Watch and Buy: “边看边买”淘宝直播商品检索数据集

Fashion Collection Dataset: 淘宝服装搭配数据集

3D-FUTURE: 阿里巴巴3D家居数据集(一)

3D-FRONT: 阿里巴巴3D家居数据集(二)

Product Description Generation：淘宝达人文案生成数据集

Real-Scenario Multimodal Dataset from Taobao：淘宝多模态检索数据集

行业介绍

Youku-VESR：优酷视频增强和超分数据集

H2V­-142K：优酷视频剪裁数据集

Youku-TED: 优酷视频时序事件检测数据集

Youku NER Dataset：文娱NER数据集

行业介绍

aBeacon：实体Beacon数据集

RL-Dispatch：订单众包调度数据集

ALWAES: POI校准数据集

VALID：虚拟Beacon数据集

行业介绍

糖尿病知识图谱数据集DiaKG

Spinal Disease Dataset: 脊柱疾病核磁影像数据集

中文医疗信息处理评测基准CBLUE

临床试验结果预测数据集（EBM-Net）

中医文献问题生成数据集

中药说明书实体识别数据集

新冠疫情相似句对判定数据集

医疗对话临床发现阴阳性判别数据集

行业介绍

智慧交通预测数据集

Traffic Flow Data：交通流量数据集

地址结构化解析数据集

行业介绍

布匹瑕疵质检数据集

白酒质检数据集

瓷砖质检数据集

行业介绍

高分遥感多光谱影像地物要素分类数据集

Historical Climate Observation and Stimulation Dataset: 历史气候观测模拟数据集

短时标稀有天体光变事件测数据集检

气象降水量数据集

天体光谱分类数据集

行业介绍

Barley Remote Sensing：大麦遥感检测数据集

行业介绍

安全模型白盒对抗攻击Benchmark

H2V-142K：优酷视频剪裁数据集