新疆广电网络股份有限公司 新疆乌鲁木齐 834000
摘要:人工智能语音技术建立了一种新的人与机器之间的人机交互模式,极大地便利了用户体验。通过整合三套智能语音系统,实现近场、远场语音支持,同时整合百度、腾讯等互联网语音分析引擎,构建一套集成的人工智能语音平台。
关键词:人工智能;语音平台;架构设计;终端实现
1平台架构设计
综合人工智能语音平台设计为云本地两级结构。云平台主要实现直播、回看、视频点播等统一服务,本地平台主要实现空中主教室、影院线等个性化服务。该平台的总体架构设计如图1所示。
图1 融合人工智能语音平台总体架构
综合人工智能语音平台的具体功能模块包括四个模块:终端设备终端语音采集模块、云服务模块、业务应用模块和开放共享模块。终端语音采集主要进行高质量的音频采集和即时传输,这是人工智能服务判断用户意图的基础。云服务平台是集成人工智能语音平台的核心模块。依托强大的云计算能力和丰富的互联网资源,增加近场和远场人工智能处理能力,摆脱完全依赖百度语音引擎的限制,引入腾讯、阿里等互联网语音分析引擎。业务应用模块主要是与用户交互的业务功能,为用户提供特定的人工智能服务。开放共享模块用于与其他第三方应用和服务进行对接和集成,形成更丰富、更完整的AI业务。
AI语音平台覆盖的终端包括tvOS智能机顶盒、tvOS单引擎机顶盒、智能音箱、电视一体机等串行终端。融合人工智能语音业务流程定义为用户通过语音遥控、智能音箱等拣音设备向人工智能语音平台发起语音识别请求,人工智能语音平台找到相应的业务并进行应答,终端收到应答后,发起业务访问、终端控制等操作。融合人工智能语音平台与周边系统关系设计如图2所示。
图2 融合人工智能语音平台与周边系统关系
2多套语音系统融合接入
2.1支持“有线精灵”腾讯语音云
“有线精灵”AI智能音箱机顶盒采用TVOS软件和腾讯语音云。改造后的语音客户端采集远场语音数据,首先通过腾讯语音云平台作为ASR引擎进行语音识别,然后将ASR语音识别结果以Json格式发送至语音程序UI端,语音程序UI端接着将其发送至融合人工智能语音平台进行语音解析和意图识别,最后再将结果返回至语音程序UI端,由语音程序UI端对结果进行解析、UI展示和意图执行。
集成AI语音平台接管“有线向导”智能音箱机顶盒后,可为“有线向导”智能音箱机顶盒用户提供统一的远场语音功能服务,如直播、点播、应用启动、机顶盒控制等。
2.2支持“全省通”酷开语音云
机顶盒使用库凯软件和百度语音云。改造后的融合人工智能语音平台对接酷开智能语音平台,在终端侧调用酷开语音客户端能力实现语音采集、视频截图和机顶盒信息获取,在平台侧通过媒资管理子模块和酷开内容资源平台对接,实现酷开系统特有媒资内容的搜索,在语音能力侧实现百度云语音的统一调用。融合人工智能语音平台融合“全省通”。
3系列化语音终端研发
3.1机顶盒伴侣智能音箱语音方案设计
机顶盒与拾音模块的连接方式分为集成模式和分离模式。在集成模式下,机顶盒标配语音遥控器或内置麦克风阵列;分离的模式下,机顶盒本身没有能力通过蓝牙,USB,或云匹配配件或智能和声音扬声器连接方式,智能演讲者通过远场语音识别技术,结合演讲技巧入云控制命令,控制命令通过USB,蓝牙,或者wi-fi到机顶盒,实现对机顶盒的语音控制。
机顶盒通过USB、蓝牙音频数据驱动获取语音数据,通过系统原始服务接口AudioRecorder将语音数据传递给智能语音应用,智能语音应用负责与语音云服务交互,通过MediaCodec播放音乐或应答音频。语音配件通过麦克风阵列采集的多通道语音数据和Audio ADC采集的回声参考经过AIDriver后发送给ALSA音频通道,语音增强唤醒从ALSA获取用户输入语音及回声参考,经过语音增强处理后,发送给音频数据驱动,Audio Player播放音频数据驱动接收到的音频数据。
3.2 TVOS单引擎机顶盒语音方案设计
TVOS单引擎机顶盒不具备安装APK的硬件能力,需要在30M内存之内封装语音SDK,通过Websocket方式将语音SDK与语音消息通信服务建立连接,将从语音业务服务中得到的信息结果发送到Web前端页面。语音SDK在机顶盒端通过Websocket对接语音消息通信服务,封装消息通信,提供统一的连接、监听、注销等方法,供机顶盒端Web页面调用。Web页面服务通过引入语音SDK组件建立消息服务连接,监听当前用户的语音指令服务。当收到语音指令服务时,根据收到的信息在页面进行业务呈现、完成对应的页面控制或请求ISMP系统完成相应的服务请求。
3.3 TVOS智能机顶盒语音方案设计
TVOS智能机顶盒可以安装语音APK。智能机顶盒通过麦克风阵列或蓝牙语音遥控器采集用户语音输入信息,将语音数据上传至云端,分别进行语音识别处理和自然语言处理。云端识别出用户控制智能机顶盒的意图后,将用户输入的流式文字形式发送至处于内网的语音业务服务器,通过融合人工智能语音管理平台对文本信号进行翻译,再送到接口管理服务器。接口管理服务器接收到语音指令服务之后,根据绑定身份信息等参数,将实际需要操作的用户信息与动作发送到消息系统的语音业务功能服务器。
4落地成果介绍
4.1系列化人工智能语音产品
在融合人工智能语音平台落地过程中,根据不同硬件规格,分别制定不同的人工智能语音终端解决方案。目前,江苏有线已研制出支持远场语音的“有线精灵”AI智能音箱机顶盒、支持近场语音的4K超高清智能机顶盒、4K超高清简易型机顶盒、TVOS单引擎高清机顶盒、智能电视一体机以及家庭音箱机顶盒伴侣等系列化语音产品。
4.2人工智能语音业务功能
人工智能语音业务主要有七大功能,分别是直播频道切换、点播节目检索、机顶盒控制、应用与页面控制、一般信息检索、智能图像识别、智能家居控制。针对广电行业视频内容丰富,融合人工智能语音创新开发人脸识别功能。当用户在观看直播或点播视频时,人工智能可以快速识别视频中的一名或多名明星,找到人物的相应信息,并对人物做出相关推荐。
结束语:
有线融合人工智能语音平台整合了百度、腾讯等多家互联网语音分析引擎,创新开发了新一代融合媒体语音业务,实现了“一套平台、全省通用、全网覆盖”。通过平台与终端的解耦设计,在业内率先实现低配置TVOS-H高清机顶盒的集成适配。新推出的智能音箱产品开启了融合智能家居的大门,极大提升了用户的智能互动体验。
参考文献:
[1]黎政,付瑞,王东飞.人工智能与智能电视[J].现代电视技术,2017(12):99-101.
[2]何新.广电智能机顶盒语音平台的建设与应用[J].广播与电视技术,2020,47(9):63-66.
[3]王娇.广电智能语音识别系统建设实施方案[J].中国有线电视,2020(3):292-294.