介绍
长尾分布是指常见的不均衡数据分布,该问题大大降低了机器学习模型的鲁棒性,并且需要利用高昂的成本去采集罕见数据才能解决。传统的解决方案不仅依赖提前预知未来数据的分布,而且也容易对罕见数据过拟合。该工作利用因果分析技术,首次实现不需要提前预知数据分布情况下适用的长尾分布去偏见算法。并且该方法不增加任何额外的训练负担,可以轻易适用于各种场景,如我们在图片分类,物体检测,实例分割任务上都取得了显著提升。解决长尾分布问题,不仅能提升城市大脑各个系统在数据不均衡场景下的稳定性,更可以适用于诸如淘宝推荐系统等应用中,用于解决推荐系统过于集中推荐少数商品类型的问题。