随着测序技术的发展,全世界产出的DNA数据正在激增,研究者们正面临着越来越普遍的海量数据的存储、传输等问题,而生物信息学的研究需要所有的压缩解压都必须是无损的,这样才能得到更加可靠准确的分析结果,由此我们希望能有更加优秀的数据压缩方案。基因组学的技术和知识已经慢慢渗透进寻常百姓的生活中,数据越来越多,我们能由此得到的信息越来越多,但是全基因组数据分析的速度却不能满足大家的需要。

本次华大基因“风云挑战赛”旨在汇聚BT和IT的行业精英,共同解决基因组学数据大规模存储,计算和知识积累等方面的问题,并发掘和表彰行业精英优秀人才。此次活动面向全社会开展的生命科学和计算机领域竞赛。比赛将邀请相关领域的资深专家、学者担任评委,恪守专业、严谨、公平、公正的原则,选出优秀的作品和开发者。

赛题一

数据存储问题:FASTQ数据的高倍数压缩

随着测序技术的进步,全世界测序产出的DNA数据正在激增中,如何有效降低DNA数据的存储空间已经成为了一个急需解决的难题。目前一般的压缩格式(gz,bz2等)只能将DNA的测序数据(FASTQ格式,或称fq格式)压缩至原来的30%左右。但fq数据有着自己固定的格式形式,DNA测序数据也只有4种碱基,由A,C,G,T这四个字母表示,是能够针对其数据上的特点实现更高倍数的压缩的。

赛题给定一个FASTQ格式的DNA测序数据文件,非压缩状态下该文件的大小约为150GB,现要求将其至少无损压缩至原来的1/15。

赛题二

计算问题:高效的人类全基因数据分析

人的基因组为3G,用于全基因组测序数据分析时,需要测序深度为50x或者更高,使用常见的生物信息分析工具和方法(bwa+picard+GATK),时间基本需要10个-20个小时,这对于日益增长的人类基因组数据来说是远远不能满足数据解读的速度需求的。当前基因组数据分析的最大瓶颈是,数据的解读速度远不及数据的产出速度,全基因组数据分析是人类基因组数据解读中最基本的一个步骤。

赛题希望参数队伍能在30分钟完成50x-60x人类全基因组数据标准分析(从fq数据到变异数据的产出),本题提供的数据约覆盖人类基因组55x。

  • 报名&提交结果

    即日起-10月15日期间,
    两道赛题均可开放报名和提交结果

  • 评测

    9月15日、10月15日
    分别进行两次评测,评测结果以最后一次为准

  • 颁奖典礼

    11月4日-6日

  • FASTQ数据的

    高倍数压缩

  • 高效的人类

    全基因数据分析

测试数据为一条NA12878全基因组测序数据(FASTQ格式)。

NA12878数据来源于瓶中基因组联盟,该样品来自于具有犹他州CEPH血统的一位妇女,该样品进行了多种测序技术的重测序,在仔细权衡和分析之后,数据的可变性和误差均降为最低。

瓶中基因组联盟联盟旨在建立参考标准帮助人们评估测序仪器、试剂和算法的性能,推动人类基因组测序的临床应用。

赛题一

  • 冠军

    1名 奖金20000元

  • 亚军

    2名 奖金10000元

  • 季军

    3名 奖金5000元

  • 优秀奖(冠亚季军除外)

    10名 华大直通面试机会及纪念品

赛题一

  • 冠军

    1名 奖金20000元

  • 亚军

    2名 奖金10000元

  • 季军

    3名 奖金5000元

  • 优秀奖(冠亚季军除外)

    10名 华大直通面试机会及纪念品

  • 报名方式

    1. 用淘宝或阿里云账号登录天池,完成个人信息注册,即可报名参赛。

    2. 大赛官方交流群——旺旺群:1487992374。

    3. 关注公众号可了解更多比赛动态: GCTA社区

  • 报名要求

    1. 本次大赛面向全社会开放,高等院校、科研单位、互联网企业、创客团队等人员均可报名参赛。以个人形式参赛。

    2. 保证参赛队员报名信息准确有效,否则将被取消参赛资格及奖励。

    3. 提交的参赛作品必须是原创作品,不得抄袭,不得违反任何相关的法律法规,否则将取消参赛资格。

  • 参赛说明

    1. 大赛所提供的数据集仅限于此次大赛使用,不得用于其他任何目的。若因违反此规定而给数据提供方或平台提供方造成损失的,参赛队伍所在单位和选手须承担全部责任。

    2. 比赛不提供计算平台,由参数队伍下载数据,并在本地调试,提交结果。可多次提交结果,新版本将覆盖旧版本。

    3. 最终结果的前三名需进行实名认证审核、提交总结说明,如需答辩另行通知。其中第一名选手需前往华大基因完成线上部署,方可获得奖金。

    4. 如发现任何作弊行为,参赛资格将被取消,解释权归赛题方和天池。

主办单位

承办单位: