Multi-CPR (A Multi-Domain Chinese Dataset for Passage Retrieval) 是用于段落检索的多领域中文数据集。 该数据集包括电商、娱乐视频和医疗3个领域,每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。数据集由阿里巴巴智能引擎事业部提供,旨在推动中文跨领域段落检索技术的发展。 Multi-CPR (A Multi-Domain Chinese Dataset for Passage Retrieval) 是用于段落检索的多领域中文数据集。 该数据集包括电商、娱乐视频和医疗3个领域,每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。数据集由阿里巴巴智能引擎事业部提供,旨在推动中文跨领域段落检索技术的发展。