OpenAIが新たに音声と翻訳のAIモデルを発表

2026年5月7日、米国のAI企業OpenAIが「Realtime API」向けに新しい音声モデルを3種類公開しました。これにより、リアルタイムでの音声対話や翻訳、文字起こしがさらに進化することが期待されています。

公開されたモデル

GPT-Realtime-2

- GPT-5クラスの推論能力を持つ音声対話モデルです。 - 128Kに拡張されたコンテキストウィンドウを搭載しており、より多くの情報を一度に処理できます。 - 5段階で推論レベルを調整可能で、複雑な要求にも自然に応じることができます。 - ベンチマークテストでは、前モデルのGPT-Realtime-1.5を上回るスコアを記録しています。

GPT-Realtime-Translate

- リアルタイム音声翻訳モデルで、70以上の入力言語から13の出力言語への翻訳が可能です。 - 話者の声のトーンや感情のニュアンスを維持しながら、スムーズに翻訳を行います。 - 話者のペースを保ちながら翻訳を実行するため、自然な会話が可能です。

GPT-Realtime-Whisper

- リアルタイム文字起こしモデルで、低遅延での文字起こしを実現します。 - 会議やインタビューなど、さまざまなシーンでの活用が期待されます。

API料金

新しいモデルの利用には以下の料金が設定されています：

GPT-Realtime-2：音声入力は100万トークンあたり32ドル、音声出力は100万トークンあたり64ドル。
GPT-Realtime-Translate：1分あたり0.034ドル。
GPT-Realtime-Whisper：1分あたり0.017ドル。

まとめ

OpenAIの新しい音声モデルは、リアルタイムでのコミュニケーションを大幅に向上させる可能性を秘めています。特に、GPT-Realtime-Translateは、異なる言語を話す人々の間でのコミュニケーションを円滑にし、ビジネスや教育の現場での利用が期待されます。これらの技術は、今後のAIの進化において重要な役割を果たすことでしょう。