智能语音交互

智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。
  • 目前免费版本仅支持小量的调用,具体限制调用量请见各服务介绍页面,如果您需要的调用量较大,请邮件跟我们进行商务沟通: nls_support@service.aliyun.com 。请尽量在邮件中提供公司名称,业务场景,希望调用哪些服务接口,预估调用量等信息,以便对应的商务同学与您联系。


产品简介

录音文件识别

语音识别,提供的是将语音转写成文字的服务,目前能够支持中文普通话的语音识别(包括河南话、四川话、东北话等重口音的普通话),也能够支持粤语、英语的语音识别。该项技术包括以下三种类型服务:

录音文件识别

该项服务能对整个录音文件进行语音转写。可用于对实时性要求不高的客服通话转写,也可用于会议或访谈录音的离线转写。

自定义热词

该项服务有助于增强语音识别的准确率,通过添加某些需要特殊出来的词汇,能够帮助用户快速地自主优化语音识别效果,如人名、产品名、业务特殊用语等词汇类型

实时音频流识别

该项服务能对音频流做实时转写,达到“边说边出文字”的效果。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景

场景丰富

实时语音转写服务适用场景如实时会议记录、视频直播实时字幕等,应用场景丰富;

支持格式

支持PCM和非压缩 WAV 格式的语音数据

一句话识别

该项服务能对时长较短(一分钟以内)的语音进行转写。主要用于一句话的交互模式,如语音搜索、语音指令、语音短消息等场景,一般应用于各类App中,适用于对话聊天,控制口令等较短的语音识别场景。

支持多语言

汉语普通话,东北、河南、四川等方言,粤语,英语

自定义热词

支持用户自定义热词功能,输入特定的行业、领域词汇;

支持多种模式

“流式”和“普通”两种模式。提供Java、Android、iOS、C++ 等平台的SDK。支持音频格式:PCM/WAV/SPEEX/OPUS。

语音合成

语音合成

语音合成服务(TTS),就是将文本转成语音的服务。阿里云语音服务为用户提供语音合成的基础服务,服务器将需要进行合成的文本传送到服务器端,服务器进行语音合成后,以语音数据流的形式返回给SDK,用户可直接进行语音数据的播放或存储。

语音交互

智能语音交互,主要包括语音识别、语音合成、语音对话理解平台、语音模型自学习平台、声纹识别、语音关键字检测等多个子产品,子产品可以单独输出,也可以通过子产品之间的组合,应用于多种实际业务场景下,赋予机器“能听、会说、懂你“式的语音交互体验。

智能对话

基于特定场景,任务驱动的多轮对话。可以根据对话上下文准确理解用户的意图,抽取关键实体,再调用意图对应的内容服务,返回答案给用户。比如查询天气、听音乐、地图导航、设定闹钟等生活领域。我们已经有几十个常用领域的对话,方便客户快捷地配置语音交互对话需求。

智能问答

可以精确理解用户以自然语言形式的提问,通过检索知识库(客户提供)寻找语义匹配的问题描述,返回知识库中该问题对应的答案给用户。

语音模型文本自学习训练平台

ASR服务已经提供了针对不同领域优化过的模型,如果希望在一些更特殊,更专业的领域获得更好的识 别效果,可以使用定制化语言识别服务。定制化语音识别服务允许用户上传某个领域的训练数据并训练定制模型,训练出的定制模型可以在相应的领域上获得更高的识别准确率;

应用场景

适用于客服质检模型训练,包括8k采样率的训练,以及社交聊天等更多应用场景;

定制管理

提供丰富的模型管理API和语料管理API,支持迅训练、查询、例举模型和语聊;

支持的接口

目前支持的定制模型服务包括一句话识别、录音文件识别和实时语音识别。

典型场景

以下为智能语音交互的部分应用场景

  • 法庭庭审转写
  • 智能问答
  • 智能客服质检
  • 实时直播字幕及监控
  • 业务电话内容监控
  • 简介:智能语音识别技术能够将法庭庭审过程中的法官、被告、原告、辩护律师、证人等角色所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了原本法庭庭审的书记员角色。阿里云智能法庭方案,在司法届引起了强烈反响。目前已经在多家法庭使用,反馈良好。


    业务痛点及需求
    为案件判决需要,法院庭审过程中需要对法官、被告、原告、辩护律师、证人等各方的陈述进行记录,之前主要通过书记员手工打字方式进行记录,记录下来的文字也不是原原本本的逐字记录,而会带有书记员的一些理解和归纳。为推进法院信息化建设且缓解书记员工作量,我们利用智能语音识别技术,将庭审各方在庭审过程中的语音直接转变为文字,供各方在庭审页面上查看,书记员简单或不用调整即可作为庭审笔录使用。


    优势
    (1)积累了大量司法方面数据,转写效果佳
    (2)全国首次在庭审中使用语音识别进行笔录,正确率超过97%
    (3)法庭庭审转写支持专有云部署
    (4)对于庭审中出现的特殊关键词,如人名、公司名,可以分庭做词表导入,以优化识别准确率

开发文档

  • 接入介绍

  • 语音识别-录音文件识别

  • 语音识别-实时语音识别

  • 语音识别-一句话识别

  • 语音识别-自定义热词