图7用于使用MFFC进行语音分析性能评估。MFCC谱是一个矩阵,这种方法的问题在于如果使用恒定的窗口间隔,则输入和存储序列的长度不太可能相同。此外,在单词内部,个别音素的长度将会有所变化,例如,单词“Volume Up”可能会发出长/ O /和短末尾/ U /或短/ O /和长/ U /。图8显示了两个不同说话人的MFCC输出。匹配过程需要补偿长度差异,并考虑单词内部长度差异的非线性特性,如上文讨论的例子。例如,“Volume Up”可能会发出长/ O /和短末尾/ U /或短/ O /和长/ U /。
图9、10和11显示的结果确认了该研究的输入测试语音与数据库中存储的参考模板最佳匹配。本研究的结果与第二节中概述的语音识别原理一致,其中通过对每个特征向量进行成对比较实现了将模板与传入语音进行比较。
如[16]所述,序列之间的总距离是特征向量之间各自距离的总和或平均值。DTW的目的是产生最小化信号各自点之间的总距离的变形函数。此外,积累的距离矩阵用于开发映射路径,这些路径通过具有最小累积距离的单元格进行,然后最小化这两个信号之间的总距离差异。
通过本研究,达到了最佳匹配路径,其中测试输入与参考模板匹配,如图9-11所示。这些发现与动态时间扭曲理论一致,如图5所示。
本文讨论了两种语音识别算法,这些算法对提高语音识别性能非常重要。该技术能够基于包含在语音信号中的个人信息来验证特定说话者。结果表明,这些技术可以有效地用于语音识别目的。目前正在研究其他技术,例如线性预测编码(LPC)、隐马尔可夫模型(HMM)和人工神经网络(ANN)。这些发现将在未来的出版物中呈现。
感谢UTP支持这项工作。




