更新时间:11-16 上传会员:将大紫
分类:科学发展 论文字数:17839 需要金币:2000个
摘要:语音是人们传递信息最普遍、最迅捷方便的手段,在机器学习人工智能火热的几年里,语音识别取得了非常大的进步,语音的口音问题目前是语音识别技术的一个巨大挑战。我国作为一个大国,幅员辽阔,人口众多,也催生了形形色色的方言。据统计,我国现有的语言有八十多种,其中的六十多种的主要语言分属于五大语系、九个语族、十四个语支。方言是多种多样的在地理上也可以说是渐变的。江浙地区有庞大的移民群体,地势又大多是丘陵,由于山地河流的阻隔导致语言环境相对封闭加上外迁人口的涌入,形成了如今种类众多差距巨大的吴语系方言。长三角号称每100公里就有一种方言,目前还没有一种成熟的算法来识别它所属的方言。因此我尝试使用深度学习的方法来帮助我完成吴语识别的任务。本文采用了吴语系的启海话、上海话、宁波话、苏州话的数据集进行训练,实现了对于吴语地区方言的识别和分类。比较了前馈神经网络和反馈神经网络,由于来自语音的信号比较复杂,并且有更多的逻辑关系,所以这次选择了反馈神经网络,并且长短时记忆网络在序列建模中的优势显然在处理语音数据时更有帮助,包括Google的许多自然语言处理任务都是基于长短时记忆网络的。长短时记忆网络通过求和在时间上传播信息,这是一种特别直观的线性激活。
--本课题研究了吴方言的语音识别分类。方言分类是语音识别应用中必须面对的问题,本文研究如何利用深度学习神经网络,用LSTM声学模型实现吴方言语音分类算法的方法,并且该方法可以从一种方言扩展到其它方言来实现方言分类。
本文使用了HTK提取40维的fbank特征和LSTM循环网络对数据集进行训练。LSTM除了具有RNN循环的特性之外,还具有内部的细胞循环。与普通的循环网络类似,每个单元有相同的输入和输出,但也有更多的参数和控制信息流动的门控单元系统。HTK的优势在于它的稳定性,并且囊括了当下主流的语音识别技术。HTK的另一大优点就是它有相对完备的文档手册,方便上手。
关键词:(38)LSTM;语音识别;吴方言;HTK
目录
摘要
Abstract
1 引言-1
1.1 项目背景-1
1.2 国内外研究状况-1
1.3 项目研究目标及内容-1
2 本文相关概念介绍-1
2.1 语音识别原理-1
2.2 长短型记忆网络(LSTM)-3
2.2.1 LSTM前身RNN(递归神经网络)和FNN(前馈神经网络)-3
2.2.2 理解长短型记忆网络(LSTM)-6
2.2.3 深入理解LSTM-8
2.2.4 LSTM超参数-9
2.3 语音识别系统的实现原理-10
2.3.1 40维的Filter Bank提取-10
2.3.2 语音识别实现过程及原理-10
2.4 Pytorch-15
2.4.1 Pytorch介绍-15
2.4.2 Pytorch的优势-15
2.4.3 Pytorch批训练-16
2.4.4 Pytorch中使用到的重要模块-16
2.5 隐马尔可夫工具包(Hidden Markov Model Toolkit,HTK)-16
2.5.1 隐马尔可夫模型(Hidden Markov Model,HMM)-16
2.5.2 HTK实现特征提取-16
2.6 PCM-17
2.6.1 关于PCM-17
2.6.2 PCM的编码-17
2.6 神经网络相关-18
2.6.1 损失函数-18
2.6.2 调整学习率-19
3 数据集-19
3.1 数据集的重要性-19
3.2 数据集的处理-20
3.3 机器学习不同的数据集-20
3.4 数据集增强-21
3.5 数据集的获取-21
3.6 数据的处理-21
4 语音识别系统的实现-21
4.1 文件架构-21
4.1 获取40维的FB(Filter Bank)特征-23
4.1.1 预加重-23
4.1.2 分帧-23
4.1.3 加窗-24
4.1.4 快速傅立叶变换-24
4.1.5 Mel滤波器组(Filter Banks)-24
4.2 LSTM神经网络模型-25
5 总结与展望-26
5.1 全文工作总结-26
5.2 不足之处以及未来展望-26
参 考 文 献-27
致 谢-28
附 录 A-29
附 录 B-30
附 录 C-32
附 录 D-33