智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景，在金融、保险、司法、电商等多个领域均有应用案例。

立即开通开发文档

目前免费版本仅支持小量的调用，具体限制调用量请见各服务介绍页面，如果您需要的调用量较大，请邮件跟我们进行商务沟通： nls_support@service.aliyun.com 。请尽量在邮件中提供公司名称，业务场景，希望调用哪些服务接口，预估调用量等信息，以便对应的商务同学与您联系。

{"moduleinfo":{"rule_count":[{"count_phone":6,"count":6}]},"rule":[{"weibo_url":"//m.aliyun.com/product/ecs","weixin_title":"什么是云服务器？","weixin_url":"//m.aliyun.com/product/ecs","color":"1eb5cf","url":"https://m.aliyun.com/product/ecs","pathname":"/product/ecs","weibo_title":"云服务器是一种简单高效、处理能力可弹性伸缩的计算服务，帮助您快速构建更稳定、安全的应用，提升运维效率，降低 IT 成本，使您更专注于核心业务创新。@阿里云云栖社区","spm":"aaaa","weixin_content":"帮助您快速构建更稳定、安全的应用，提升运维效率，降低 IT 成本，使您更专注于核心业务创新。","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"},{"weibo_url":"//m.aliyun.com/product/slb","weixin_title":"有一种“能抗”叫：负载均衡（Server Load Balancer）","weixin_url":"//m.aliyun.com/product/slb","url":"https://m.aliyun.com/product/slb","pathname":"/product/slb","weibo_title":"负载均衡（Server Load Balancer）是对多台云服务器进行流量分发的负载均衡服务，可以通过流量分发扩展应用系统对外的服务能力，通过消除单点故障提升应用系统的可用性。详细了解：","spm":"bbbb","weixin_content":"负载均衡可以实现对多台云服务器自动进行流量分发，从而可让您获得更高水平的容错性能。同时，您可以根据业务需求实时添加或删减云服务器，从而实现无缝的业务伸缩。","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"},{"weibo_url":"//m.aliyun.com/product/ocs","weixin_title":"云数据库 Memcache 版如何使用看这里","weixin_url":"//m.aliyun.com/product/ocs","url":"https://m.aliyun.com/product/ocs","pathname":"/product/ocs","weibo_title":"云数据库 Memcache 版（ ApsaraDB for Memcache ）是一种高性能、高可靠、可平滑扩容的分布式内存数据库服务。基于淘宝分布式系统Tair和纯内存的高性能存储","spm":"cccc","weixin_content":"支持Key-Value的数据结构，兼容Memcached协议的客户端都可使用云数据库 Memcache 服务。","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"},{"weibo_url":"//m.aliyun.com/product/rds","weixin_title":"云数据库RDS，支持哪四种数据库引擎？","weixin_url":"//m.aliyun.com/product/rds","url":"https://m.aliyun.com/product/rds","pathname":"/product/rds","weibo_title":"云数据库RDS（ApsaraDB for RDS，简称RDS）是一种稳定可靠、可弹性伸缩的在线数据库服务。基于飞天分布式系统和全SSD盘高性能存储，支持MySQL、SQL Server、PostgreSQL和PPAS（高度兼容Oracle)引擎","spm":"dddd","weixin_content":"云数据库RDS支持MySQL、SQL Server、PostgreSQL和PPAS（高度兼容Oracle)引擎，默认部署主备架构且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"},{"weibo_url":"//m.aliyun.com/product/cdn","weixin_title":"阿里云CDN产品介绍","weixin_url":"//m.aliyun.com/product/cdn","url":"https://m.aliyun.com/product/cdn","pathname":"/product/cdn","weibo_title":"内容分发网络（Cloud Delivery Network，简称 CDN）将源站内容分发至全国所有的节点，缩短用户查看对象的延迟，提高用户访问网站的响应速度与网站的可用性，解决网络带宽小、用户访问量大、网点分布不均等问题","spm":"eeee","weixin_content":"阿里云 CDN 是阿里云飞天生态系统基于阿里巴巴优质网络基础设施向用户提供的互联网内容投递服务，提供低成本、高性能、可扩展的 CDN 服务，将海量内容高效投递给互联网终端消费用户。","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"},{"weibo_url":"//m.aliyun.com/product/oss","weixin_title":"如何快速上手OSS？","weixin_url":"//m.aliyun.com/product/oss","url":"//m.aliyun.com/product/oss","pathname":"/product/oss","weibo_title":"对象存储（Object Storage Service，简称OSS），是阿里云对外提供的海量、安全和高可靠的云存储服务。RESTFul API的平台无关性，容量和处理能力的弹性扩展，按实际容量付费真正使您专注于核心业务。","spm":"ffff","weixin_content":"对象存储 OSS，可以理解为一个即开即用，无限大空间的存储集群。相比传统自建服务器存储，它有着诸多优势","weixin_img":"//gw.alicdn.com/tps/TB1xBReNXXXXXXXapXXXXXXXXXX-110-110.jpg","rule_link":"https://promotion.aliyun.com/ntms/sharelotterynew.html","host":"www.aliyun.com","style":"black","rule_text":"分享有礼！手机、豪华键盘，还有专属优惠券等，100%有奖！>>"}],"countinfo":{"rule":{"length_pc":0,"length":0}},"$tmsId":"tce/486631"}

[{"code":"ecs","case":[{"code":"jinyanA","html":"新用户大礼包，200元代金券免费送！ <a href=\"https://promotion.aliyun.com/ntms/act/search20160815.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d0000et\">立即领取>></a>"},{"code":"case5A","html":"【专享权益】安全专享特惠，最高可省￥10900/年！<a href=\"https://promotion.aliyun.com/ntms/act/ddosv1.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d00002\">查看详情>></a>"},{"code":"case5B","html":"【专享权益】安全专享特惠，最高可省￥17440/年！<a href=\"https://promotion.aliyun.com/ntms/act/ddosv2.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d000003\">查看详情>></a>"},{"code":"case5C","html":"【专享权益】安全专享特惠，最高可省￥21800/年！<a href=\"https://promotion.aliyun.com/ntms/act/ddosv3.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d000004\">查看详情>></a>"},{"code":"case5D","html":"【专享权益】安全专享特惠，最高可省￥32700/年！<a href=\"https://promotion.aliyun.com/ntms/act/ddosv4.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d000005\">查看详情>></a>"},{"code":"case5E","html":"【ECS续费就送礼】1000元续费权益等您来领取！<a href=\"https://promotion.aliyun.com/ntms/act/xufeiquanyi.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d000006\">立即领取>></a>"},{"code":"case5F","html":"【ECS续费就送礼】1000元续费权益等您来领取！<a href=\"https://promotion.aliyun.com/ntms/act/xufeiquanyi2.html\" target=\"_blank\" data-spm-click=\"gostr=/aliyun;locaid=d000006\">立即领取>></a>"}]}]

产品简介

录音文件识别

语音识别，提供的是将语音转写成文字的服务，目前能够支持中文普通话的语音识别（包括河南话、四川话、东北话等重口音的普通话），也能够支持粤语、英语的语音识别。该项技术包括以下三种类型服务：

录音文件识别

该项服务能对整个录音文件进行语音转写。可用于对实时性要求不高的客服通话转写，也可用于会议或访谈录音的离线转写。

自定义热词

该项服务有助于增强语音识别的准确率，通过添加某些需要特殊出来的词汇，能够帮助用户快速地自主优化语音识别效果，如人名、产品名、业务特殊用语等词汇类型

实时音频流识别

该项服务能对音频流做实时转写，达到“边说边出文字”的效果。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景

场景丰富

实时语音转写服务适用场景如实时会议记录、视频直播实时字幕等，应用场景丰富；

支持格式

支持PCM和非压缩 WAV 格式的语音数据

一句话识别

该项服务能对时长较短（一分钟以内）的语音进行转写。主要用于一句话的交互模式，如语音搜索、语音指令、语音短消息等场景，一般应用于各类App中，适用于对话聊天，控制口令等较短的语音识别场景。

支持多语言

汉语普通话，东北、河南、四川等方言，粤语，英语

自定义热词

支持用户自定义热词功能，输入特定的行业、领域词汇；

支持多种模式

“流式”和“普通”两种模式。提供Java、Android、iOS、C++ 等平台的SDK。支持音频格式：PCM/WAV/SPEEX/OPUS。

语音合成	语音合成语音合成服务（TTS），就是将文本转成语音的服务。阿里云语音服务为用户提供语音合成的基础服务，服务器将需要进行合成的文本传送到服务器端，服务器进行语音合成后，以语音数据流的形式返回给SDK，用户可直接进行语音数据的播放或存储。

语音交互

智能语音交互，主要包括语音识别、语音合成、语音对话理解平台、语音模型自学习平台、声纹识别、语音关键字检测等多个子产品，子产品可以单独输出，也可以通过子产品之间的组合，应用于多种实际业务场景下，赋予机器“能听、会说、懂你“式的语音交互体验。

智能对话

基于特定场景，任务驱动的多轮对话。可以根据对话上下文准确理解用户的意图，抽取关键实体，再调用意图对应的内容服务，返回答案给用户。比如查询天气、听音乐、地图导航、设定闹钟等生活领域。我们已经有几十个常用领域的对话，方便客户快捷地配置语音交互对话需求。

智能问答

可以精确理解用户以自然语言形式的提问，通过检索知识库（客户提供）寻找语义匹配的问题描述，返回知识库中该问题对应的答案给用户。

语音模型文本自学习训练平台

ASR服务已经提供了针对不同领域优化过的模型，如果希望在一些更特殊，更专业的领域获得更好的识别效果，可以使用定制化语言识别服务。定制化语音识别服务允许用户上传某个领域的训练数据并训练定制模型，训练出的定制模型可以在相应的领域上获得更高的识别准确率；

应用场景

适用于客服质检模型训练，包括8k采样率的训练，以及社交聊天等更多应用场景；

定制管理

提供丰富的模型管理API和语料管理API，支持迅训练、查询、例举模型和语聊；

支持的接口

目前支持的定制模型服务包括一句话识别、录音文件识别和实时语音识别。

典型场景

以下为智能语音交互的部分应用场景

法庭庭审转写
智能问答
智能客服质检
实时直播字幕及监控
业务电话内容监控

简介：智能语音识别技术能够将法庭庭审过程中的法官、被告、原告、辩护律师、证人等角色所说的每一句话实时转写成文字并进行存储，依靠人工智能技术替代了原本法庭庭审的书记员角色。阿里云智能法庭方案，在司法届引起了强烈反响。目前已经在多家法庭使用，反馈良好。

业务痛点及需求
为案件判决需要，法院庭审过程中需要对法官、被告、原告、辩护律师、证人等各方的陈述进行记录，之前主要通过书记员手工打字方式进行记录，记录下来的文字也不是原原本本的逐字记录，而会带有书记员的一些理解和归纳。为推进法院信息化建设且缓解书记员工作量，我们利用智能语音识别技术，将庭审各方在庭审过程中的语音直接转变为文字，供各方在庭审页面上查看，书记员简单或不用调整即可作为庭审笔录使用。

优势
(1）积累了大量司法方面数据，转写效果佳
(2）全国首次在庭审中使用语音识别进行笔录，正确率超过97%
(3）法庭庭审转写支持专有云部署
(4）对于庭审中出现的特殊关键词，如人名、公司名，可以分庭做词表导入，以优化识别准确率
简介：该方案为企业级客户提供包括语音转写、智能客服、电话质检、电话预警等功能在内的各类语音技术支撑，帮助传统客服向智能客服转型。双十一当天，蚂蚁金服客户中心整体服务量超过500万人次，94%以上都是通过人工智能技术驱动的自助服务解决。本方案主要介绍智能问答服务。

业务痛点
目前多数企业、政府等机构在为自己的受众提供业务售前售后、事项说明等咨询服务时，往往都是由人工客服完成。人工客服的劣势是：
1、当流量在特殊时期（如促销活动、新政策发布）忽然上涨时，人工客服压力骤增甚至可能无法承受住；
2、用户所咨询的问题多数具有重复性，人工客服回答这类具有重复性的问题时，往往是重复劳动。

智能问答服务能够帮助业务方解决以上问题。具体解决流程：
业务方将带有重复性的问题导入智能问答引擎后，能够由机器人替代人工客服，将问题的答案推回给客户，而且当用户询问的问题还需要进一步了解信息才能给出答复时，机器人可以一步步引导用户补充更多信息并最终将答案推回。机器人回复后，如果仍然无法解决用户问题，再进入人工客服环节。机器人的前置拦截，能够将多数用户所咨询的重复问题快速解决掉，很大程度上缓解了人工客服的压力。

优势
1、支持自主配置知识库，支持单轮问答和多轮问答
2、拥有二十几个不同领域的对话模型，方便用户快捷使用
3、经过与阿里集团内部的长期合作，问答引擎有大量积累
简介：传统质检一般是通过质检人员对客服电话录音以人工听的方式对服务规范、业务类回复准确性、舆情风险等方面进行检查，存在效率问题以及人员瓶颈。智能质检能够对所有服务过程进行全量的实时质检，帮助企业的服务部门摆脱人的限制，全面把控服务质量。

使用流程
将电话（先通过语音识别转写成文本）或工单生成待检数据，待检数据在质检引擎中经过质检人员预先设置的规则校验，产生质检结果，对于命中违规的电话或工单不合规服务触发通知和反馈机制到实际处理人，同时基于检测结果生成效果统计数据。同时，质检人可以在管控台上定位查看到每条工单或电话命中的规则点、以边听边看的方式对结果进行校验。

优势
（1）全量自动化——能实现全量客服通话、工单的自动化质检
（2）实时性——能做到电话一挂立即进行语音转文本和智能质检，实时看到最新质检结果
（3）规则灵活性——通过多种底层算子和对算子之间配置复杂逻辑关系的支持，规则配置可以超灵活，覆盖到各类复杂的业务场景
简介：现场演讲场景、直播场景下，将视频中的音频实时转写成字幕。在直播场景下，还可以进一步对内容进行监控。

业务痛点及需求
（1）在开大会做演讲时，现场环境如果比较嘈杂，座位靠后或远程做直播时，可能会听不清演讲内容
（2）一个直播APP，每天产生的视频数量多达数十万小时。严肃直播有字幕需求，娱乐直播有监控需求

优势
（1）在阿里云栖大会现场做了演讲的转写，在正确率上击败国际速记比赛亚军，目前已经成为云栖大会的标配产品
（2）实时转写速度极快，几乎与直播同步
简介：通过语音识别服务，帮助平台中介类公司规避逃单行为，避免经济损失。

业务痛点及需求
目前国内的O2O领域有很多中介平台性质的公司，如房屋中介、医疗中介等。这类公司通过平台，建立起类似于房东和房客、医生和患者之间的联系，同时，对达成交易的业务，收取中介费用。但是，由于这类业务容易出现平台的双边客户建立联系后抛弃平台的事情，如房东经常诱导访客进行线下交易，从而导致中介公司经济损失等，这类行为往往发生在双方沟通的电话中，而这类电话，通过人工监听的方式效率低且效果差。
而通过阿里云语音识别服务，可以帮助用户及时的发现上述问题，从而及时阻止逃单行为，避免了平台的经济损失。

使用流程
将电话实时传给阿里云的语音转文本接口，阿里云将及时返回数据，客户可使用阿里云的质检系统或者自建分析系统对返回的文字做分析，从而及时发现问题。

优势
（1）无需人工介入，减少人力成本。
（2）及时性：对每一个电话进行监控分析。

[{"result":"caseweb","user_cat_name_level1":[{"旅游":"false","网站":"true","o2o":"false","金融":"false","通讯社交":"false","教育":"false","音视频":"false","移动APP":"false","其它":"false","游戏":"false","IT与软件开发":"false","能源/交通运输/生产制造":"false","政府/事业单位":"false","医疗健康":"false","电子商务":"false","物联网":"false"}]},{"result":"caseapp","user_cat_name_level1":[{"旅游":"false","网站":"false","o2o":"false","金融":"false","通讯社交":"false","教育":"false","音视频":"false","移动APP":"true","其它":"false","游戏":"false","IT与软件开发":"false","能源/交通运输/生产制造":"false","政府/事业单位":"false","医疗健康":"false","电子商务":"false","物联网":"false"}]},{"result":"casedianshang","user_cat_name_level1":[{"旅游":"false","网站":"false","o2o":"false","金融":"false","通讯社交":"false","教育":"false","音视频":"false","移动APP":"false","其它":"false","游戏":"false","IT与软件开发":"false","能源/交通运输/生产制造":"false","政府/事业单位":"false","医疗健康":"false","电子商务":"true","物联网":"false"}]},{"result":"casegame","user_cat_name_level1":[{"旅游":"false","网站":"false","o2o":"false","金融":"false","通讯社交":"false","教育":"false","音视频":"false","移动APP":"false","游戏":"true","其它":"false","IT与软件开发":"false","能源/交通运输/生产制造":"false","政府/事业单位":"false","医疗健康":"false","电子商务":"false","物联网":"false"}]},{"result":"casemedia","user_cat_name_level1":[{"旅游":"false","网站":"false","o2o":"false","金融":"false","通讯社交":"false","教育":"false","音视频":"true","移动APP":"false","其它":"false","游戏":"false","IT与软件开发":"false","能源/交通运输/生产制造":"false","政府/事业单位":"false","医疗健康":"false","电子商务":"false","物联网":"false"}]},{"result":"caseothers","user_cat_name_level1":[{"旅游":"true","网站":"false","o2o":"true","金融":"true","通讯社交":"true","教育":"true","音视频":"false","移动APP":"false","游戏":"false","其它":"true","IT与软件开发":"true","能源/交通运输/生产制造":"true","政府/事业单位":"true","医疗健康":"true","电子商务":"false","物联网":"true"}]}]