AI训练营第二课精彩回顾:探索方言数据资源构建的前沿技术与实践

发布时间:2025-11-11 来源:暨南大学汉语方言研究中心

11月6日晚,AI训练营第二课《方言数据资源构建》正式开讲。本次课程由暨南大学文学院博士研究生陆晨与科大讯飞研究院研究员邵鹏飞联合授课,为学员们系统讲解了方言数据资源从构建到标注的全流程,带来了一场理论与实战紧密结合的知识盛宴。

课程上半场,陆晨以暨南大学-科大讯飞方言语音科技联合实验室正在研发的“潮州方言语音合成系统”为案例,系统阐述了低资源语言语音合成系统的整体架构与数据库构建流程。

她围绕系统前端的文本处理、后端的声学模型以及系统评测这三个核心环节,详细讲解了如何构建与之匹配的语言资源,并强调语言学知识与工程标准有机融合的重要性。陆晨指出,数据构建过程主要分为三个阶段:基础数据的准备与采集、数据规范化与标注、系统评测与优化。

授课中陆晨通过现场演示,向学员们详细展示了音库数据标注的具体过程与操作细节。

审核


暨南大学文学院博士研究生陆晨线上授课

课程下半场,邵鹏飞研究员带领学员们步入动手实践环节。在学员们提前配置好Conda环境的基础上,邵老师指导大家配置并安装Montreal Forced Aligner (MFA)工具,下载预训练词典与声学模型,根据实际的语料,步骤清晰地指导学员对提供的语料进行自动标注,通过实际语句自动标注实战,初步了解了自动标注的工具和技术。

邵老师特别强调,自动标注并非一劳永逸。在实际研究中,必须结合自身研究目的,对存在问题的边界位置进行手工校对和优化,这一步骤对于保证数据质量至关重要。学员们紧跟邵老师的讲解步骤,积极动手操作,并在课后于学习群内展开了热烈的讨论与提问。


科大讯飞邵鹏飞研究员线上授课

本次AI训练营的内容已在籍合学院正式发布,网址为:https://app7iixgnpj3504.h5.xiaoeknow.com/p/course/ecourse/preview/course_34RqxxLAHT12KD5bSm1NR7C5b5v?https://mhrza.xetslk.com/sl/1x9LgU。

AI训练营的课程仍在继续,第三次课程将于11月13日开讲,主题为《语音参数提取》,敬请期待!