Hume AIがオープンソースの音声生成モデルTADAを発表

Hume AIが新たに音声生成モデルTADAをリリース

本日、Hume AIがオープンソースの音声生成モデル「TADA（Text-Acoustic Dual Alignment）」を発表しました。この新しいモデルは、音声合成技術において革新的な進展をもたらすことが期待されています。

TADAの主な特徴

TADAは、以下のような特長を持っています：

処理速度：リアルタイム係数（RTF）0.09を実現しており、同等レベルのLLM（大規模言語モデル）ベースのTTS（テキスト音声合成）システムと比較して、5倍以上の高速処理が可能です。これにより、リアルタイムでの音声生成が求められるアプリケーションにおいて、非常に有用です。

トークン効率：TADAは毎秒2～3フレーム（トークン）で動作し、他のアプローチが毎秒12.5～75トークンであるのに対し、効率的な処理を実現しています。これにより、リソースの節約が可能となり、特にモバイルデバイスでの利用において大きな利点となります。

音声品質：競争力のある音声品質を実現しており、自然な発音とイントネーションを提供します。これにより、ユーザーはよりリアルな音声体験を享受できるでしょう。

ハルシネーションの低減：TADAは、ほぼゼロのコンテンツハルシネーションを実現しています。これは、生成された音声がより信頼性の高い情報を提供することを意味します。

デプロイメントの柔軟性：軽量設計により、モバイルやエッジデバイスでのオンデバイス実行が可能です。これにより、インターネット接続が不安定な環境でも高品質な音声生成が行えます。

対応言語と応用分野

TADAは、英語を含む8言語に対応しており、国際的な利用が見込まれます。また、長文に対する対応力も優れており、従来のシステムが約70秒の音声で2048トークンのコンテキストウィンドウを消費するのに対し、TADAは同じ予算で約700秒の音声に対応できます。これにより、長文ナレーションや拡張ダイアログ、マルチターン音声インタラクションなど、さまざまな応用が期待されます。

まとめ

Hume AIのTADAは、音声生成技術において新たな可能性を切り開くモデルです。高速処理、高音質、効率的なトークン処理を兼ね備えたこのモデルは、今後の音声合成技術の発展に大きく寄与することでしょう。音声生成の新しい時代が始まる中、TADAの活用がどのように広がっていくのか、今後の動向に注目です。