AI训练营第六课｜LSTM解锁声调分类：从训练到推理全流程实战

2025年12月11日晚，“中文大语言模型应用AI训练营”第六课顺利开讲。本次课程由科大讯飞研究院研究员邵鹏飞老师主讲，聚焦使用LSTM（长短期记忆网络）的声调分类模型训练及推理，带领学员从模型选型逻辑出发，一步步拆解数据准备、环境搭建、模型训练与推理验证的完整链路。

6.1 声调分类的模型选择

对声调进行分类识别是本次课程的主题。

邵老师指出汉语等语言声调“平、升、降、折”的变化，本质是语音信号的时序特征表现。但在传统语音信号分析模型中难以捕捉这种随时间变化的依赖关系，因此早期的语音特征分类模型对于声调的分析效果较差。而LSTM是“有记忆的模型”，该模型不仅能记住前面的基频数据，还能结合后续变化判断整体趋势，突出数据的时序形状变化。因此相比之下，SVM更适合共振峰分类这类静态特征任务，LSTM则是专门为连续数据量身定做的模型。邵老师还补充到，类似的时序模型还有RNN等，但LSTM在避免梯度消失、长时记忆保留上更具优势，是当前业界的优选方案。

6.2 声调分类训练的数据准备

考虑到学员前期的学习基础和操作习惯，邵老师详细演示了使用Praat脚本提取数据的完整流程。首先，选用带有声调标注层的粤语材料作为数据源，重点说明了提取基频（Pitch）和时长（Duration）两大核心特征的方法。同时特别提醒学员注意不同操作系统下目录路径的规范书写差异。例如Windows系统需用反斜杠“\”，Mac系统需用斜杠“/”，且路径末尾必须保留对应符号，否则会导致文件读取失败。最后，他还强调要通过过滤辅音数据、仅保留纯净元音段落的方式完成数据清洗，避免因数据混杂影响训练效果。

邵老师使用Praat脚本提取数据的操作界面

6.3 粤语声调分类实践

在该部分，课程延续训练营实战导向，邵老师提前为学员准备了训练所需的序列数据，以便同步教学进程。训练流程与上节课SVM元音分类器一脉相承，核心步骤如下：

（1）环境搭建：复用或新建Python虚拟环境，安装numpy、pandas、matplotlib、torch等核心包，网络较慢时可通过清华源（https://pypi.tuna.tsinghua.edu.cn/simple）加速下载，尤其针对torch等大型库；

（2）脚本配置：修改train_LSTM.py中的输入路径，匹配本地数据存储位置；重点提醒学员根据数据格式调整分隔符参数——若数据用逗号分隔则保留默认配置，若为 Tab分隔需手动修改加载函数；

（3）特征灵活选择：除基础的10个基频点和时长外，学员可根据需求添加基频均值、方差、最值等统计特征，进一步提升模型表现力。

根据数据分隔符修改脚本的实操界面

训练过程中，学员们发现初步训练结果并不理想，粤语声调分类的准确率仅为20%左右。邵老师指出了造成该问题的核心原因：一是粤语声调类别多，分类任务复杂；二是当前可用的标注样本数量不足；三是数据来源于自动标注，未经过人工校对，数据精确度有限。这一结果印证了数据质量对模型性能的重要影响。

6.4汉语普通话声调分类实践

为了让学员直观感受数据质量对模型的影响，邵老师切换至标贝科技中文普通话开源数据集进行演示。该数据集包含1万句高质量录音，可提取约12万条元音段落，数据量充足且标注规范，所训练的模型准确率可达80%以上。训练曲线呈现出清晰的“损失下降、准确率上升”趋势，生成的混淆矩阵能直观反映各类声调的识别效果。

模型训练过程界面

6.5 闭环检验与模型推理预测

最后，邵老师带领学员完成推理预测闭环，实现“训练-验证-应用”的完整落地。邵老师使用训练过程中保存的best_modelNaNh，对预设样本进行推理，通过10个基频点及时长特征精准预测声调类别，并输出各类别的预测置信度，并且鼓励学员录制个人普通话元音数据，提取关键特征后导入模型进行预测，或是复制脚本中393-407行的测试数据，实现批量预测，检验模型泛化能力。

模型预测操作界面

6.6 后续课程预告

本次课程旨在帮助学员理解LSTM模型的训练与预测逻辑，学会声调模型的训练步骤，以便结合个人需求进行进阶操作。12月18日19:00将开启《项目实战四：IPA识别模型》课程，学习wav2vec2.0微调，在工作站启动训练，对比微调前后准确率。敬请期待！

训练营课程网址：

https://app7iixgnpj3504.h5.xiaoeknow.com/p/course/ecourse/preview/course_34RqxxLAHT12KD5bSm1NR7C5b5v?https://mhrza.xetslk.com/sl/1x9LgU

欢迎持续关注，解锁更多“中文+AI”跨界技能！