Inception Labs、推論機能を搭載したMercury 2拡散LLMを発表

Inception LabsがMercury 2を発表

Inception Labsは2026年2月24日、Mercury 2という革新的な拡散ベースの大規模言語モデル（dLLM）を発表しました。このモデルは、1秒あたり1,000トークン以上の生成速度を実現し、従来の自己回帰型LLMに比べて5倍以上の高速性を誇ります。

Mercury 2の特徴

Mercury 2は、従来のトークン逐次生成方式ではなく、拡散ベースの並列生成を採用しています。この技術により、複数のトークンを同時に生成し、反復的なノイズ除去プロセスを通じて出力を洗練させることが可能です。主な特徴は以下の通りです：

生成速度：1秒あたり1,000トークン以上（従来の自己回帰型モデルは約100トークン/秒）
推論品質：Claude 4.5 HaikuやGPT 5.2 Miniと同等の性能
コスト効率：推論コストの大幅な削減
コンテキストウィンドウ：128Kトークン
価格：入力0.25ドル/100万トークン、出力0.75ドル/100万トークン

技術的背景

拡散ベースアーキテクチャの革新

Mercury 2は、画像や動画生成で成果を上げている拡散技術を言語モデルに応用しています。従来のLLMは「タイプライター」のように1トークンずつ生成するのに対し、Mercury 2は「エディタが全体を一度に修正する」ように複数トークンを並列生成します。具体的には、ガウシアンノイズではなくマスキングベースの破損プロセスを採用し、より安定した学習と鋭い収束を実現しています。

品質と速度のトレードオフ

Mercury 2は複雑な推論ベンチマークにおいて5～15%の品質低下が見られますが、構造化出力や翻訳タスクでは従来モデルと同等の性能を発揮します。この特性により、リアルタイムチャットやゲーム対話、ライブ文字起こし、高スループットデータ処理など、レイテンシが品質よりも重要な用途に最適です。

業界への影響

エージェントループの革新

従来のLLMでは、複数ステップのワークフローにおいてレイテンシが各ステップで累積し、コストと応答性が課題でした。Mercury 2はコード生成エージェントやIT/SecOpsトリアージ、複数ステップのバックオフィス自動化において、より多くのステップを迅速に実行でき、フィードバックサイクルを短縮します。

推論とコンピュートのトレードオフの変化

従来は高い知能を得るために長いチェーンや複数サンプル・リトライが必要でしたが、Mercury 2はリアルタイムレイテンシ予算内で推論品質を実現します。

実装の容易性

Mercury 2はOpenAI互換のため、従来のLLMのドロップイン代替品として機能し、既存システムへの統合が容易です。

企業背景

Inception Labsはスタンフォード大学、UCLA、コーネル大学の拡散研究の第一人者によって設立され、Menlo Ventures、Mayfield、Innovation Endeavors、Microsoft Ventures(M12)、Snowflake Ventures、Databricks Venturesなどから資金調達を受けています。アドバイザーにはAndrew NgとAndrej Karpathyが名を連ねています。

将来のアーキテクチャ展望

業界の専門家は、ハイブリッドアーキテクチャが最終的な解決策になると予想しています。拡散モデルで初期ドラフトを高速生成し、自己回帰型モデルで精緻化するアプローチにより、速度と品質の両立が可能になるとされています。

実用例

広告プラットフォーム企業Happyverse AIは、Mercury 2を使用してキャンペーン実行を最適化し、リアルタイムで洞察を提供しています。また、音声エージェント企業OpenCallは、低レイテンシによりより応答性の高い音声エージェントを実現できると評価しています。