数字人语音交互_数字人语音交互系统

数字人语音交互_数字人语音交互系统_语音交互开发

数字人语音交互：开启智能交互新时代

数字人语音交互正逐渐成为科技领域的热门话题。从各种数字人项目和技术的发展来看，它有着巨大的潜力和广泛的应用前景。

先说说数字人语音交互系统的技术实现。像一些项目采用了端到端语音方案(GLM - 4 - Voice - THG)和级联方案(ASR - LLM - TTS - THG)。以开源数字人实时对话Demo为例，它采用多模块级联的技术方案。首先，语音识别(ASR)模块把用户输入的语音转化为文本，这里有的项目选用FunASR工具包，它功能丰富，能提供高精度、高效率的语音识别服务。然后，大语言模型(LLM)模块生成回复内容，像有的项目选用通义千问，还可以根据不同场景选用不同规模的模型。接着，文本转语音(TTS)模块把回复内容转化为自然语音，例如GPT - SoVITS在实时对话场景就比较合适，当然也有其他选择如edge - tts等。Zui后通过说话人生成(THG)模块得到唇形同步的数字人说话视频，实现语音输入、数字人视频输出的对话效果。

再看数字人语音交互系统的功能特点。许多数字人支持语音输入和实时对话，形象和音色可自定义，甚至能进行音色克隆。例如VideoChat这个开源的实时数字人对话系统，用户无需训练就可进行音色克隆，首包延迟低至3秒，适用于多种场景。而且不少数字人在说话时嘴唇动作能与声音同步，增加真实感。

数字人语音交互系统的应用场景非常广泛。在营销方面，云图智能数字人的智能营销平台采用智能语音交互技术，让机器坐席辅助或替代人工坐席进行外呼人机结合语音交互。在客服领域，云图智能数字人的智能客服平台依托智能语音交互技术建立知识库，提升电话服务效率。智能大屏数字人利用语音交互等技术提供可视化语言智能交互服务，智能同屏数字人依托微信小程序构建实时服务平台。还有像直播行业，很多直播间采用数字人直播，涵盖带货、娱乐、游戏等多行业主播。另外，在文旅、政务、教育等行业也有广泛应用，如科大讯飞的星火超拟人数字人可应用于旅游购物场景，二六三的数字人“云小朵”可实现多模态实时对话交互。

在语音交互开发方面，也有不少进展。FACEGOOD将语音驱动表情的算法技术开源，降低了AI数字人的开发门槛。讯飞星火多模态交互大模型上线，实现从语音交互拓展到音视频流实时多模交互，支持一键调用语音、视觉、数字人交互。

数字人语音交互及其相关系统和开发正蓬勃发展，未来有望在更多领域发挥更大的作用，给人们的生活和工作带来更多的便利和创新。

展开全文

相关产品