数字人语音交互:开启智能交互新时代
数字人语音交互正逐渐成为科技领域的热门话题。从各种数字人项目和技术的发展来看,它有着巨大的潜力和广泛的应用前景。
先说说数字人语音交互系统的技术实现。像一些项目采用了端到端语音方案(GLM - 4 - Voice - THG)和级联方案(ASR - LLM - TTS - THG)。以开源数字人实时对话Demo为例,它采用多模块级联的技术方案。首先,语音识别(ASR)模块把用户输入的语音转化为文本,这里有的项目选用FunASR工具包,它功能丰富,能提供高精度、高效率的语音识别服务。然后,大语言模型(LLM)模块生成回复内容,像有的项目选用通义千问,还可以根据不同场景选用不同规模的模型。接着,文本转语音(TTS)模块把回复内容转化为自然语音,例如GPT - SoVITS在实时对话场景就比较合适,当然也有其他选择如edge - tts等。Zui后通过说话人生成(THG)模块得到唇形同步的数字人说话视频,实现语音输入、数字人视频输出的对话效果。
再看数字人语音交互系统的功能特点。许多数字人支持语音输入和实时对话,形象和音色可自定义,甚至能进行音色克隆。例如VideoChat这个开源的实时数字人对话系统,用户无需训练就可进行音色克隆,首包延迟低至3秒,适用于多种场景。而且不少数字人在说话时嘴唇动作能与声音同步,增加真实感。
数字人语音交互系统的应用场景非常广泛。在营销方面,云图智能数字人的智能营销平台采用智能语音交互技术,让机器坐席辅助或替代人工坐席进行外呼人机结合语音交互。在客服领域,云图智能数字人的智能客服平台依托智能语音交互技术建立知识库,提升电话服务效率。智能大屏数字人利用语音交互等技术提供可视化语言智能交互服务,智能同屏数字人依托微信小程序构建实时服务平台。还有像直播行业,很多直播间采用数字人直播,涵盖带货、娱乐、游戏等多行业主播。另外,在文旅、政务、教育等行业也有广泛应用,如科大讯飞的星火超拟人数字人可应用于旅游购物场景,二六三的数字人“云小朵”可实现多模态实时对话交互。
在语音交互开发方面,也有不少进展。FACEGOOD将语音驱动表情的算法技术开源,降低了AI数字人的开发门槛。讯飞星火多模态交互大模型上线,实现从语音交互拓展到音视频流实时多模交互,支持一键调用语音、视觉、数字人交互。
数字人语音交互及其相关系统和开发正蓬勃发展,未来有望在更多领域发挥更大的作用,给人们的生活和工作带来更多的便利和创新。