AINEWS

OpenAIが新たに音声と翻訳のAIモデルを発表

💡 OpenAIが新しい音声対話、翻訳、文字起こしモデルを発表。リアルタイムでのコミュニケーションを革新します。

OpenAIが新たに音声と翻訳のAIモデルを発表

2026年5月7日、米国のAI企業OpenAIが「Realtime API」向けに新しい音声モデルを3種類公開しました。これにより、リアルタイムでの音声対話や翻訳、文字起こしがさらに進化することが期待されています。

公開されたモデル

  • GPT-Realtime-2
- GPT-5クラスの推論能力を持つ音声対話モデルです。 - 128Kに拡張されたコンテキストウィンドウを搭載しており、より多くの情報を一度に処理できます。 - 5段階で推論レベルを調整可能で、複雑な要求にも自然に応じることができます。 - ベンチマークテストでは、前モデルのGPT-Realtime-1.5を上回るスコアを記録しています。
  • GPT-Realtime-Translate
- リアルタイム音声翻訳モデルで、70以上の入力言語から13の出力言語への翻訳が可能です。 - 話者の声のトーンや感情のニュアンスを維持しながら、スムーズに翻訳を行います。 - 話者のペースを保ちながら翻訳を実行するため、自然な会話が可能です。
  • GPT-Realtime-Whisper
- リアルタイム文字起こしモデルで、低遅延での文字起こしを実現します。 - 会議やインタビューなど、さまざまなシーンでの活用が期待されます。

API料金

新しいモデルの利用には以下の料金が設定されています:

  • GPT-Realtime-2:音声入力は100万トークンあたり32ドル、音声出力は100万トークンあたり64ドル。
  • GPT-Realtime-Translate:1分あたり0.034ドル。
  • GPT-Realtime-Whisper:1分あたり0.017ドル。

まとめ

OpenAIの新しい音声モデルは、リアルタイムでのコミュニケーションを大幅に向上させる可能性を秘めています。特に、GPT-Realtime-Translateは、異なる言語を話す人々の間でのコミュニケーションを円滑にし、ビジネスや教育の現場での利用が期待されます。これらの技術は、今後のAIの進化において重要な役割を果たすことでしょう。

📤 この記事をシェア

OpenAIが新たに音声と翻訳のAIモデルを発表 | AI NEWS