[具身智能-292]:语音识别

张开发
2026/5/5 9:46:02 15 分钟阅读
[具身智能-292]:语音识别
结合我们之前对卷积神经网络CNN、特征提取以及AI本质从无限不确定性到有限确定性的映射的深入探讨语音识别Automatic Speech Recognition, ASR其实就是一个将声波信号采样序列转化为文本序列的典型“熵减”过程。简单来说就是让机器像人一样经历从“听见声音”到“听懂意思”的全过程。基于最新的深度学习技术如Transformer、Conformer等我们可以将语音识别的原理拆解为以下四个核心阶段这完全对应了你之前理解的“数据空间的层层映射” 第一阶段信号处理从物理波到数字信号—— 对应“无限不确定性”的原始输入声音本质上是空气的振动。机器无法直接理解模拟波形必须先将其数字化。采样与量化麦克风将声波转换为电信号系统以每秒16000次16kHz的频率进行采样将连续的波变成离散的数值序列。预处理原始录音包含噪音、回声和静音。系统会进行预加重提升高频补偿传输损失、分帧将长语音切成20-30毫秒的短片段因为短时间内声音特性是稳定的和加窗减少边缘效应。这一步就像是在嘈杂的房间里先戴上降噪耳机把注意力集中在说话的那几毫秒上。 第二阶段特征提取从波形到“指纹”—— 对应“特征数据的空间映射”原始波形数据量太大且冗余我们需要提取出代表声音本质的“指纹”。声谱图与MFCC最经典的方法是提取梅尔频率倒谱系数MFCC。它模拟人耳对频率的感知人耳对低频更敏感通过傅里叶变换将时域信号转为频域信号生成声谱图。CNN的介入正如我们讨论的CNN在这里充当“特征探测器”。它不再处理像素而是处理声谱图上的能量分布。浅层卷积核识别局部声学特征如频率的突变、共振峰的轨迹。深层卷积核识别音素特征如元音、辅音的组合模式。这一步是将“杂乱的波形”映射为“高维的特征向量”完成了从物理空间到特征空间的转换。 第三阶段声学建模从特征到音素/字—— 对应“层层抽象与不确定性压缩”这是AI的核心部分负责解决“这个声音对应哪个字”的问题。端到端模型End-to-End早期的ASR系统很复杂GMM-HMM现在的SOTA最先进模型主要基于Transformer或ConformerCNNTransformer的结合。注意力机制Attention模型利用自注意力机制不再局限于局部窗口而是能“看到”整句话的上下文。比如听到“银行”的“行”模型会结合前后的发音特征判断是读“háng”还是“xíng”。CTC与RNN-T为了解决声音长、文字短的对齐问题比如你说得很慢使用了连接时序分类CTC或RNN-TransducerRNN-T技术自动将声音片段映射到对应的文字上。这一步是巨大的“熵减”过程模型在成千上万个可能的发音中计算出概率最高的那个字。 第四阶段语言模型与解码从字到意—— 对应“逻辑补全与语义确定”光听声音是不够的还需要懂“人话”。语言模型LM这是一个基于海量文本训练的模型如BERT、GPT类。它的作用是纠错和预测。比如声学模型听到了“我想吃Ping Guo”它不确定是“苹果”还是“评果”。语言模型会根据上下文概率“吃”后面接水果的概率远大于接动词判定“苹果”是正确答案。解码Decoding最后系统使用束搜索Beam Search算法在声学得分听起来像什么和语言得分读起来通顺吗之间寻找最优路径输出最终的文本。 总结语音识别的本质语音识别的全流程其实就是输入无限不确定性的声波包含噪音、口音、语速变化。映射通过CNN/Transformer进行特征提取和空间映射将波形转化为高维语义向量。抽象通过端到端学习从局部音素抽象出词汇和句法结构。输出收敛为有限确定性的文本序列。现在的语音识别如Whisper、讯飞星火等之所以强大是因为它不再仅仅是“听写”而是结合了大语言模型的语义理解能力真正实现了从“听见”到“听懂”的跨越。

更多文章