阿里巴巴自研开源搜索引擎 — Havenask
Havenask是是阿里巴巴内部广泛使用的大规模分布式检索系统,支持了包括淘宝、天猫、菜鸟、高德、饿了么、全球化在内整个阿里巴巴集团的搜索业务,为用户提供高性能、低成本、易用的搜索服务。同时具有灵活的定制和开发能力,支持算法快速迭代,帮助客户和开发者量身定做适合自身业务的智能搜索服务,助力业务增长。
Github
产品文档
【Github地址】 https://github.com/alibaba/havenask
核心能力与优势
产品简介
整体架构
天池活动
联系我们
极致的工程性能
支持千亿级数据实时检索,百万QPS查询,百万TPS写入,毫秒级查询延迟与秒级数据更新。
C++的底层构建
对性能、内存、稳定性有更高保障。
SQL查询支持
支持SQL语法便捷查询,查询体验更友好。
丰富的插件机制
支持各类业务插件,拓展性强。
支持图化开发
实现算法分钟级快速迭代,定制能力丰富,在新一代智能检索场景下的支持效果优秀。
支持向量检索
可通过与插件配合实现多模态搜索,满足更多场景的搜索服务搭建需求。
极致的工程性能
C++的底层构建
SQL查询支持
丰富的插件机制
支持图化开发
支持向量检索
我们的优势
Havenask 是阿里巴巴自主研发的大规模分布式搜索引擎,其核心能力广泛应用于阿里巴巴和蚂蚁集团内众多业务,如淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等。
内置功能完备、性能优异的向量检索能力
个位数毫秒级查询性能,同时有更高的稳定性保障
支持单应用实例千亿+级别数据,大数据检索场景有较大优势
百万+TPS高时效性写入保障,单元化容灾
演进历程
Havenask在阿里集团内部有着10多年的发展历史,通过性能和稳定性的成绩在集团内遍地开花,丰富的定制化能力,支撑了集团内所有核心的搜索业务场景,累积了很多针对搜索场景的功能及性能优化经验。 1、1999年~2008年起源于雅虎搜索技术(YST、Vespa)的单机版搜索引擎,支持淘宝、B2B等子公司搜索业务。 2、2009年~2011年完成自研搜索引擎HA3(Havenask)研发,开启自研大规模分布式高性能搜索引擎时代。 3、2013年Havenask支持阿里巴巴集团几乎所有搜索业务,统一代码分支,以产品化方式规模化支持集团大量搜索业务。 4、2018年深度学习技术广泛应用,Havenask继续演进,除了提供传统的倒排索引能力外,还提供KV、KKV、向量索引,支持深度模型和在线预测,提供插件定制、自研CAVA语言支持业务扩展等能力,成为阿里搜推广场景的核心AI智能引擎。
整体架构
一个较为完整的搜索服务由:在线部分、离线部分、管控部分、插件部分 构成,其中包括了查询流、数据流、控制流。
在线部分
Qrs:接收用户查询、查询分发、收集整合结果 Searcher:搜索查询的执行者,倒排索引召回、统计、条件过滤、文档打分、排序、摘要生成等
离线部分
索引数据生成的过程 文档处理与索引构建服务Build Service 索引构建分为三个步骤,对数据分别进行分词改写、产出索引、合并索引文件的处理
管控部分
强大的运维管控能力
插件部分
提供插件机制,离线和在线流程各环节中,用均可以通过开发插件,对原始文档、查询Query、召回、算分、排序、摘要进行灵活修改
数据集
中文多领域段落检索评测基准Multi-CPR
Multi-CPR是用于段落检索的多领域中文数据集。 该数据集包括电商、娱乐视频和医疗3个领域,每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。数据集由阿里巴巴智能引擎事业部提供,旨在推动中文跨领域段落检索技术的发展。
查看数据集
云起实验室
基于Havenask的商业化产品搭建搜索业务
OpenSearch召回引擎版(曾用名:问天引擎)是基于开源检索系统Havenask实现的行业AI搜索产品。在云起实验室中,我们为开发者提供一个配置了OpenSearch召回引擎版实例的环境。通过本教程的操作,开发者可以在实例中完成电商搜索系统的搭建。
开始实验
联系我们
Havenask研发团队将保持开放的态度 欢迎每一位开发者的参与和贡献 希望更多优秀的同行参与进来 提出宝贵的建议,贡献优质代码 与我们共同建设Havenask社区! Github地址:https://github.com/alibaba/havenask