
2026年5月、スペイン・バルセロナにて開催された「2026 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP 2026)」に参加した。ICASSPは、音声・音響・信号処理分野における世界最大級の国際会議の一つであり、世界各国の大学、研究機関、企業の研究者が集まり、音声処理、音声符号化、音声生成、音声強調、人工知能などに関する幅広い研究発表および研究交流が行われた。
会議期間中、私は複数のチュートリアル、ポスターセッション、および学術交流活動に参加し、音声・音響分野における最新の研究動向について学ぶとともに、関連分野の研究者と活発な議論を行った。本会議への参加を通じて、国際的な研究視野を広げることができただけでなく、ニューラル音声符号化、音声基盤モデル、Audio Language Modelなどの最新研究動向について理解を深めることができた。
本会議では、5月5日14時から16時にかけて、「Entropy-guided GRVQ for Ultra-Low Bitrate Neural Speech Codec」という題目でポスター発表を行った。本研究は、超低ビットレート条件下におけるニューラル音声符号化を対象としたものである。従来のニューラル音声コーデックでは、低ビットレート環境下において音響的な詳細情報を十分に再構成できないという課題がある。これに対し、本研究では、情報量分布に基づくGrouped Residual Vector Quantization(Entropy-guided GRVQ)を提案した。
提案手法では、潜在特徴表現における各チャネルの情報分布特性を解析し、その結果に基づいて残差ベクトル量子化器を非均一にグループ化することで、限られたビットレート条件下における量子化効率および音声再構成性能の向上を図った。実験結果より、提案手法は超低ビットレート条件下において音声品質および明瞭度を改善するとともに、後段コードブックの利用率や量子化の安定性の向上にも有効であることを確認した。
ポスター発表中には、世界各国の大学、研究機関、企業の研究者と活発な議論を行い、NVIDIAを含む企業研究者とも意見交換を行った。議論の内容は、ニューラル音声符号化、音声基盤モデル、Audio Language Model、量子化設計、リアルタイム音声処理など多岐にわたり、多くの有益なフィードバックや今後の研究への示唆を得ることができた。
さらに、speech enhancementおよび関連するchallenge taskに関する複数のポスターセッションに参加し、challenge organizerや研究者と、頑健な音声強調、評価指標、今後の研究方向について議論を行った。これらの交流を通じて、現在の音声強調分野における重要課題や実応用上の要求について理解を深めることができた。


ICASSP 2026への参加は、私にとって非常に貴重な経験となった。今回のポスター発表を通じて、自身の超低ビットレートニューラル音声符号化に関する研究成果を国際的な研究コミュニティに紹介するとともに、異なる研究背景を持つ研究者と直接議論を行うことができた。これらの議論を通じて、自身の研究手法の強みと課題をより明確に把握するとともに、現在のニューラル音声符号化および音声基盤モデル研究における重要な方向性について理解を深めることができた。
また、multilingual TTS、speech synthesis、およびAudio Foundation Modelに関するチュートリアルや学術討論にも参加し、WhisperやSLAM-ASRなどの最先端技術について学んだ。これらの内容は、今後の音声生成、音声符号化、およびAudio Language Modelの融合研究に対する新たな関心や研究着想につながるものであった。
さらに、大学、研究機関、企業の研究者との交流を通じて、国際的な研究視野を広げるとともに、有意義な研究ネットワークを構築することができた。これらの経験は、自身の研究交流能力を高めるだけでなく、今後の研究方向をより明確にする上でも大きな意義を持つものであった。
最後に、本国際会議への参加に対してご支援を賜りました丸文財団に、深く感謝申し上げます。今回得られた研究経験および国際交流の成果を、今後の研究活動に積極的に活かしていきたい。
