
2025年6月30日下午,由深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,英文简称SAAI)主办的青年研享论坛 – INTERSPEECH 2025深圳线下分享会在中国科学院深圳先进技术研究院D栋6楼环形报告厅顺利举行。本次活动作为SAAI品牌活动,旨在为粤港澳大湾区青年学者提供深层次学术交流平台,促进人工智能、语音技术及多模态生成领域的创新合作。活动由中国科学院深圳先进技术研究院、中国计算机学会语音对话与听觉专业委员会 (英文简称CCF TCSDAP)与SAAI言语与认知智能专业委员会(筹)联合承办,并得到深圳市科学技术协会的指导支持。
活动概况
本次分享会聚焦语音与多模态生成领域前沿,吸引了来自香港中文大学、清华大学、北京大学等十余所高校及科研机构的80余名青年学者参与。活动设置专家报告和海报展示两大环节,围绕语音合成、识别、音频生成及多模态交互等方向,集中展示了15篇INTERSPEECH 2025录用论文的最新研究成果。
活动由深圳市人工智能学会言语与认知智能专业委员会(筹)主任、中国科学院深圳先进技术研究院燕楠研究员主持。他首先介绍了先进院环绕智能与多模态研究室的特色工作,重点介绍了大规模连续语音识别、语音可视化等核心技术,以及实验室在发音数据采集方面的设备优势。在随后的讨论环节,他结合自身在病理语音评估与康复技术的研究经验,引导与会学者深入探讨语音技术的临床应用前景,有效促进了学术与产业的思维碰撞。

中国科学院深圳先进技术研究院研究员燕楠博士主持
深圳市人工智能学会常务副理事长兼秘书长邹月娴教授代表学会致辞,她首先介绍了SAAI成立的宗旨和重要品牌活动。邀请青年学者关注深圳人工智能优秀博士论文奖、深圳市优秀科技论文遴选和SAAI青年研享论坛品牌活动,欢迎青年学者加入SAAI青工委。她强调SAAI青年研享论坛已发展成为大湾区人工智能领域的重要交流平台,而本届INTERSPEECH会议”公平与包容的语音科学与技术”的主题更加凸显了语音技术的社会价值。邹教授鼓励青年学者通过学会平台深化产学研合作,共同推动技术创新与应用落地。现场交流氛围热烈,与会学者纷纷表示受益匪浅。

北京大学教授、深圳市人工智能学会常务副理事长兼秘书长邹月娴博士致辞
专家报告:探索语音与多模态生成前沿活动特邀两位领域专家进行主题分享:
刘李博士(香港科技大学(广州)助理教授)
题目:情智一体的视听内容生成研究进展
内容:刘博士聚焦跨模态情感智能融合,展示了拟人化有声书生成、长视频配音、中文线索语系统等创新应用。她提出,通过低秩Transformer架构与扩散模型结合,可显著提升多模态生成的准确性与人性化表现,助力听障辅助技术发展。

香港科技大学(广州)助理教授刘李博士进行报告
杨东超(香港中文大学 博士生)
题目:Towards Multi-task Audio Foundation Models: An Audio Generation Perspective
内容:杨东超系统介绍了他在语音语言大模型与多模态生成领域的创新性工作,包括开源项目UniAudio和AudioGPT的应用实践,并分享获得ISCA 2024最佳学生论文奖的扩散模型研究成果。他提出,音频基础模型需兼顾效率与多任务泛化能力,为未来语音技术发展提供了新思路。

香港中文大学杨东超博士进行报告
海报展示环节:深度交流与学术互动
在专家报告环节结束后,活动进入海报展示(Poster Session)环节。会场内,15篇INTERSPEECH 2025录用论文的研究海报有序陈列,内容涵盖语音合成与转换、语音识别与增强、音频生成与处理、多模态交互、语音安全、医疗语音分析等多个前沿研究方向。

海报展示环节

精美茶歇
参会学者们自由参观各海报展位,与论文作者进行一对一的深入交流。现场讨论氛围热烈,学者们围绕技术方法、实验设计和应用前景等展开细致探讨。不少参会者表示,这种面对面的交流方式能够更直接地获取研究思路,也更容易发现潜在的合作机会。
来自香港中文大学(深圳)、清华大学、北京大学、南方科技大学、香港科技大学(广州)、中科院深圳先进院等高校或研究所的研究人员,分别就各自的创新工作进行了详细讲解。交流过程中,既有对技术细节的专业探讨,也有对领域发展趋势的宏观讨论,充分体现了青年学者们扎实的研究功底和开放的学术态度。
这一环节持续近2个小时,为与会者提供了充分的交流时间。活动结束后,多位学者表示通过这次海报展示结识了新的合作伙伴,对后续的研究工作具有积极的启发作用。

活动现场合影留念
本次活动通过学术报告与互动交流,为青年学者搭建了与领域专家对话的桥梁。与会者表示,专家分享的多任务音频大模型设计思路与跨模态情感生成技术极具启发性,而论文交流则推动了跨院校合作意向的达成。深圳市人工智能学会表示,未来将持续优化青年研享论坛形式,结合国际顶会热点,助力大湾区人工智能生态建设。学会官网与公众号将同步更新后续活动信息,欢迎各界学者关注参与。
附:墙报展示论文列表:
标题:DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation
汇报者:李珈祺
单位:香港中文大学(深圳)
标题:AuralNet: Hierarchical Attention-based 3D Binaural Localization of Overlapping Speakers
汇报者:傅琳雅
单位:南方科技大学
标题:Neurodyne: Neural Pitch Manipulation with Representation Learning and Cycle-Consistency GAN
汇报者:Yicheng Gu
单位:The Chinese University of Hong Kong, Shenzhen
标题:VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents
汇报者:李海云
单位:清华大学
标题:Hybrid Expert Knowledge and Self-Supervised Learning for Diagnostic Modeling of Adductor Spasmodic and Primary Myotonic Dysphonia
汇报者:杜舟
单位:深圳大学
标题:Addressing Task Conflicts in Stuttering Detection via MMoE-Based Multi-Task Learning
汇报者:刘小康
单位:中国科学院深圳先进技术研究院
标题:Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving
汇报者:谢靖然
单位:清华大学
标题:StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion
汇报者:李奉津单位:清华大学深圳国际研究生院
标题:In This Environment, As That Speaker: A Text-Driven Framework for Multi-Attribute Speech Conversion
汇报者:金嘉伟
单位:清华大学深圳国际研究生院
标题:WAKE: Watermarking Audio with Key Enrichment
汇报者:徐耀勋
单位:清华大学深圳国际研究生院
标题:DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching
汇报者:陈炜
单位:清华大学
标题:Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding
汇报者:林梓健
单位:清华大学深圳国际研究生院
标题:DiffDSR: Dysarthric Speech Reconstruction Using Latent Diffusion Model
汇报者:陈学源
单位:香港中文大学
标题:FoleyMaster: High-Quality Video-to-Audio Synthesis via MLLM-Augmented Prompt Tuning and Joint Semantic-Temporal Adaptation汇
报者:梁立名
单位:北京大学深圳研究生院
标题:Emotion-Guided Graph Attention Networks for Speech-Based Depression Detection under Emotion-Inducing Tasks
汇报者:周雨秋
单位:中国科学院深圳先进技术研究院