Holotron-12B登場|SSM×Attention設計で従来2倍のスループットを実現するPC操作AIエージェント

|Aitly編集部

H Companyは2026年3月16日、NVIDIA GTC 2026で新モデル「Holotron-12B」を発表しました。PC操作を自律的に実行する「Computer Use」型のAIエージェントで、SSM(State-Space Model)とAttentionを組み合わせたハイブリッド設計により、従来モデル比2倍以上のスループットを実現しています。

Webブラウザの操作ベンチマーク「WebVoyager」では80.5%を記録。NVIDIA Open Model LicenseのオープンソースモデルとしてHugging Faceで公開されています。

この記事でわかること

  • Holotron-12Bのアーキテクチャとスループットが高い理由
  • WebVoyager 80.5%のベンチマーク結果の意味
  • Claude Computer UseやOperatorとの立ち位置の違い
  • 利用方法と必要なハードウェア

SSM×Attentionハイブリッド:スループット2倍の仕組み

Holotron-12Bの最大の特徴は、NVIDIAのNemotron-Nano-12Bをベースにしたハイブリッドアーキテクチャです。通常のTransformerモデルはAttention機構で文脈を処理しますが、これはシーケンス長の2乗に比例してメモリを消費します。Holotron-12BはSSM(State-Space Model)を組み合わせることで、この問題を回避しています。

SSMはレイヤーごとに一定サイズの状態ベクトルだけを保持するため、通常のTransformerで膨張するKVキャッシュが不要になります。結果としてGPUメモリの使用効率が大幅に向上し、同時に処理できるリクエスト数(バッチサイズ)を増やせる設計です。

指標 Holotron-12B Holo2-8B(前世代)
ピークスループット 約8,900 tokens/s 約5,100 tokens/s
WebVoyager 80.5% 80%未満
パラメータ数 約12B 約8B
推論ハードウェア NVIDIA H100 ×1 NVIDIA H100 ×1

H100 1台、vLLM v0.14.1、100同時ワーカーでの測定結果(出典

WebVoyager 80.5%:実用レベルのWeb操作能力

WebVoyagerは、AIエージェントが実際のWebサイトを操作してタスクを完了できるかを測定するベンチマークです。Holotron-12Bはベースモデル(Nemotron)の35.1%から80.5%へと大幅に向上し、画面の認識・UIの理解・複数ステップの操作計画において実用水準に達しています。

H Companyはこのモデルを「コンピュータ操作エージェントの”脳”」と位置づけており、画面を認識し(Perceive)、ワークフローを判断し(Decide)、インタラクティブに操作する(Act)という3つのステップを1つのモデルで実行します。

Claude Computer Use・Operatorとの違い

Holotron-12Bは、AnthropicのClaude Computer UseやOpenAIのOperatorとは異なるポジションを取っています。Claude Computer UseやOperatorはクローズドなAPI/サービスとして提供され、単一タスクの精度を追求しています。一方、Holotron-12Bはオープンソースでセルフホスト可能であり、100台の同時エージェントを1台のH100で処理できるスループットの高さが売りです。

企業が大量のPC操作タスクを自動化する場面——データ入力の一括処理、Webスクレイピング、UIテストの並列実行など——で特に強みを発揮する設計です。精度最優先の単一エージェントではなく、スループット最優先の大規模デプロイメント向けモデルと言えます。

利用方法

Holotron-12BはHugging Faceからダウンロードでき、推論にはvLLM v0.14.1以上が推奨されています。NVIDIA H100 1台で100同時ワーカーの処理が実証されており、BF16精度で動作します。

ライセンスはNVIDIA Open Model Licenseで、商用利用も可能です。ただしローカルPCで気軽に動かせるモデルではなく、クラウドGPUまたはエンタープライズ環境での利用が前提となります。現時点では量子化(4-bit, 8-bit)版は提供されていません。

まとめ

Holotron-12Bは、SSM×Attentionハイブリッド設計で従来比2倍のスループットを達成したPC操作AIエージェントです。単一タスクの精度ではClaude Computer Useに分がある可能性がありますが、大量の並列エージェントを低コストで運用したい企業ユースケースでは独自の価値を持ちます。

Computer Use型AIエージェントはまだ発展途上の分野であり、今後の競争激化が予想されます。NVIDIAエコシステムとの密な連携もあり、H Companyの次世代モデル(MoE統合型)の動向にも注目です。

参考リンク