E-MapReduce极客挑战赛

赛题说明
复赛
在初赛的基础上,复赛需要处理的数据量更大,同时升级了 EMR 集群配置,并为每个 Worker 节点配置了 PMEM持久内存,选手可以通过 App Direct 模式使用持久内存。复赛测评环境的 EMR 集群配置参考“复赛测评环境软硬件配置”。
初赛
EMR 团队提供用于比赛的Spark 3.1.2代码分支,选手进行 Spark 代码优化和参数调优以提升SparkSQL执行效率,同时组委会提供性能测评工具供选手自行测试(单机环境或EMR集群环境)。在比赛阶段,选手将最终优化后的Spark代码和调优参数打包,通过天池平台提交,天池平台会使用相同的性能测评工具,进行评测和排名。初赛测评环境的 EMR 集群配置参考“初赛测评环境软硬件配置”。
复赛
在初赛的基础上,复赛需要处理的数据量更大,同时升级了 EMR 集群配置,并为每个 Worker 节点配置了 PMEM持久内存,选手可以通过 App Direct 模式使用持久内存。复赛测评环境的 EMR 集群配置参考“复赛测评环境软硬件配置”。
初赛
EMR 团队提供用于比赛的Spark 3.1.2代码分支,选手进行 Spark 代码优化和参数调优以提升SparkSQL执行效率,同时组委会提供性能测评工具供选手自行测试(单机环境或EMR集群环境)。在比赛阶段,选手将最终优化后的Spark代码和调优参数打包,通过天池平台提交,天池平台会使用相同的性能测评工具,进行评测和排名。初赛测评环境的 EMR 集群配置参考“初赛测评环境软硬件配置”。