Alexa语音识别与TTS新技术

张开发

• 2026/5/5 5:48:55 • 15 分钟阅读

分享文章

Alexa推出新的语音识别与文本转语音技术利用大语言模型将使与Alexa的交互更加自然和引人入胜。作者Staff writer2023年9月20日7分钟阅读今天在弗吉尼亚州阿灵顿某机构新HQ2总部某机构高级副总裁Dave Limp主持了一场活动设备与服务组织在此推出了新产品和服务系列。在演示环节Limp与某机构高级副总裁兼通用人工智能首席科学家Rohit Prasad一同登台Prasad预览了Alexa团队的多项创新。Prasad的主要发布是推出新的Alexa大语言模型LLM这是一个更大、更通用的模型并已针对语音应用进行了优化。该模型可以就任何话题与用户对话经过微调可可靠地调用正确的API从而打开正确的灯光、调节合适房间的温度能够进行主动、基于推理的个性化根据用户的 grocery 购买记录突出显示日历事件、最近播放的音乐甚至食谱推荐具有多种知识锚定机制使其事实断言更可靠并设有保护用户隐私的护栏。在演示中Prasad讨论了Alexa对话AI模型的其他几项升级旨在使与Alexa的交互更加自然。其中之一是新的调用方式用户只需看向带摄像头的Alexa设备屏幕无需每轮都说唤醒词——设备端视觉处理与声学模型结合判断用户是在与Alexa对话还是与他人交谈。Alexa的自动语音识别系统也已全面升级——包括机器学习模型、算法和硬件——并正在迁移到基于LLM架构的新的大型文本转语音模型该模型在数千小时的多说话人、多语言、多口音、多说话风格音频数据上训练。最后Prasad展示了Alexa新的语音到语音模型这是一个基于LLM的模型直接从输入语音产生输出语音。通过该模型Alexa将表现出人类般的对话属性如笑声并且不仅能根据自身话语内容调整韵律还能适应说话人的韵律——例如对说话人的兴奋情绪以兴奋语调回应。ASR更新将于今年晚些时候上线LTTS和语音到语音模型都将在明年部署。语音识别新的Alexa ASR模型是一个数十亿参数的模型在短篇目标导向型对话和长篇对话混合数据上训练。训练需要精心交替数据类型和训练目标以确保在两种交互类型上都达到最佳性能。为了适配更大的ASR模型Alexa正在从基于CPU的语音处理转向硬件加速处理。ASR模型的输入是数据帧即语音信号频谱的30毫秒快照。在CPU上帧通常逐帧处理。但这在GPU上效率低下因为GPU有多个并行运行的处理核心需要足够的数据才能让所有核心保持忙碌。新的Alexa ASR引擎累积输入语音帧直到有足够的数据确保GPU所有核心有充分工作。为最小化延迟它还会跟踪语音信号中的停顿如果停顿持续时间足够长可能表示语音结束则立即发送所有累积的帧。GPU处理所需的语音数据批处理还支持一种新的语音识别算法该算法使用动态前瞻来提高ASR准确率。通常当流式ASR应用程序解释输入帧时它会使用前面的帧作为上下文有关过去帧的信息可以以有用的方式约束对当前帧的假设。然而使用批处理数据ASR模型不仅可以使用前面的帧还可以使用后面的帧作为上下文产生更准确的假设。语音结束的最终判断由ASR引擎的端点检测器做出。最早的端点检测器都依赖停顿长度。自从端到端语音识别出现以来ASR模型已经在音频-文本对上进行训练这些文本在每个话语末尾包含一个特殊的语音结束标记。然后模型学习输出该标记作为其ASR假设的一部分指示语音结束。Alexa的ASR引擎已更新为新的双通道端点检测器可以更好地处理扩展对话交流中常见的句中停顿类型。第二通道由端点仲裁器执行其输入是ASR模型对当前语音信号的转录及其信号编码。虽然编码捕获了语音识别所需的特征但也包含有助于识别声学和韵律线索的信息这些线索指示用户是否已完成说话。端点仲裁器是一个单独训练的深度学习模型输出关于其输入的最后一帧是否真正代表语音结束的决策。由于它同时考虑语义和声学数据其判断比优先考虑其中之一的模型更准确。并且因为它以ASR编码为输入可以利用ASR模型不断增长的规模持续提高准确率。一旦新的ASR模型生成了一组关于输入语音对应文本的假设这些假设将传递给一个经过微调以重新排序的LLM从而产生更准确的结果。如果新的、改进的端点检测器过早切断语音Alexa仍然可以恢复这得益于一个帮助修复截断语音的模型。应用科学家Marco Damonte和前实习生Angus Addlesee在某机构科学博客上描述了该模型。该模型生成输入文本中单词之间语义关系的图表示。从该图中下游模型通常可以推断缺失的信息当无法推断时它们通常仍能推断缺失单词的语义角色这有助于Alexa提出澄清性问题。这也使得与Alexa的对话更加自然。大型文本转语音与早期的TTS模型不同LTTS是一个端到端模型。它由一个传统的文本到文本LLM和一个语音合成模型组成两者联合微调因此LLM的输出针对语音合成器的需求进行了定制。微调数据集包含数千小时的语音而早期模型训练仅使用约100小时。微调后的LTTS模型学习隐式建模韵律、音调、语调、副语言等语音方面其输出用于生成语音。结果是语音结合了人类交流中存在的全部情感元素范围——例如提问时的好奇心和喜剧笑话的传递方式——以及自然的不流畅和副语言声音如“嗯”、“啊”或喃喃自语从而创造出自然、富有表现力和类人化的语音输出。为了进一步增强模型的表现力LTTS模型可以与另一个经过微调的LLM结合使用该LLM用于为输入文本标记“舞台指示”指示文本应如何传递。标记后的文本随后传递给TTS模型进行语音转换。语音到语音模型Alexa语音到语音模型将利用专有的预训练LLM实现端到端语音处理输入是用户语音信号的编码输出是Alexa响应语音信号的编码。该编码是该方法的关键之一。它是一种学习到的编码同时表示语义和声学特征。语音到语音模型对输入和输出使用相同的编码然后对输出进行解码以Alexa的某个声音产生声学信号。输入和输出的共享“词汇表”使得在预训练LLM之上构建模型成为可能。LLM在一系列不同任务上进行微调如语音识别和语音到语音翻译以确保其通用性。语音到语音模型具有多步骤训练过程(1) 预训练模态特定的文本和音频模型(2) 多模态训练和模态间对齐(3) 初始化语音到语音LLM(4) 在自监督损失和监督语音任务混合上微调LLM(5) 对齐到期望的用户体验。Alexa的新功能将在未来几个月内开始推出。研究领域对话式AI标签Alexa, 自动语音识别, 文本转语音, 大语言模型FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享