Inworld AIがリアルタイム会話向けの新声モデル「Realtime TTS-2」を発表

Inworld AIが新しい声モデル「Realtime TTS-2」を発表

2026年5月5日、Inworld AIはリアルタイム会話向けの新しい音声合成モデル「Realtime TTS-2」を発表しました。この新技術は、会話の完全なオーディオを聞き取り、ユーザーのトーンやペーシング、感情状態を把握することができるため、より自然なコミュニケーションを実現します。

Realtime TTS-2の特徴

リアルタイム会話対応: Realtime TTS-2は、ユーザーの声の指示を自然言語で受け取り、即座に応答することが可能です。これにより、会話がスムーズに進行し、より人間らしい対話が実現します。
感情認識: このモデルは、ユーザーの感情状態を理解する能力を持っており、感情に応じたトーンで応答することができます。これにより、より親密で自然な会話が可能になります。
多言語対応: Realtime TTS-2は、100以上の言語で一貫した声のアイデンティティを保持しています。これにより、国際的なコミュニケーションが容易になり、さまざまな文化や言語に対応したサービスが提供可能です。

利用方法

Realtime TTS-2は、Inworld APIおよびInworld Realtime APIを通じて研究プレビューとして利用可能です。開発者や研究者は、この新しい技術を活用して、さまざまなアプリケーションやサービスを開発することができます。

パートナーシップ

今回の発表において、GMI CloudがInworld AIのRealtime TTS-2のローンチパートナーとして名を連ねています。この協力により、より多くのユーザーが新しい技術を体験できる機会が増えるでしょう。

まとめ

Inworld AIのRealtime TTS-2は、リアルタイム会話に特化した革新的な音声合成技術です。感情やトーンを理解し、多言語に対応するこのモデルは、今後のコミュニケーションのあり方を大きく変える可能性を秘めています。開発者や研究者は、この技術を活用して新しいサービスやアプリケーションを生み出すことが期待されます。