H Companyは2026年3月16日、NVIDIA GTC 2026で新モデル「Holotron-12B」を発表しました。PC操作を自律的に実行する「Computer Use」型のAIエージェントで、SSM(State-Space Model)とAttentionを組み合わせたハイブリッド設計により、従来モデル比2倍以上のスループットを実現しています。
Webブラウザの操作ベンチマーク「WebVoyager」では80.5%を記録。NVIDIA Open Model LicenseのオープンソースモデルとしてHugging Faceで公開されています。
この記事でわかること
- Holotron-12Bのアーキテクチャとスループットが高い理由
- WebVoyager 80.5%のベンチマーク結果の意味
- Claude Computer UseやOperatorとの立ち位置の違い
- 利用方法と必要なハードウェア
SSM×Attentionハイブリッド:スループット2倍の仕組み
Holotron-12Bの最大の特徴は、NVIDIAのNemotron-Nano-12Bをベースにしたハイブリッドアーキテクチャです。通常のTransformerモデルはAttention機構で文脈を処理しますが、これはシーケンス長の2乗に比例してメモリを消費します。Holotron-12BはSSM(State-Space Model)を組み合わせることで、この問題を回避しています。
SSMはレイヤーごとに一定サイズの状態ベクトルだけを保持するため、通常のTransformerで膨張するKVキャッシュが不要になります。結果としてGPUメモリの使用効率が大幅に向上し、同時に処理できるリクエスト数(バッチサイズ)を増やせる設計です。
| 指標 | Holotron-12B | Holo2-8B(前世代) |
|---|---|---|
| ピークスループット | 約8,900 tokens/s | 約5,100 tokens/s |
| WebVoyager | 80.5% | 80%未満 |
| パラメータ数 | 約12B | 約8B |
| 推論ハードウェア | NVIDIA H100 ×1 | NVIDIA H100 ×1 |
H100 1台、vLLM v0.14.1、100同時ワーカーでの測定結果(出典)
WebVoyager 80.5%:実用レベルのWeb操作能力
WebVoyagerは、AIエージェントが実際のWebサイトを操作してタスクを完了できるかを測定するベンチマークです。Holotron-12Bはベースモデル(Nemotron)の35.1%から80.5%へと大幅に向上し、画面の認識・UIの理解・複数ステップの操作計画において実用水準に達しています。
H Companyはこのモデルを「コンピュータ操作エージェントの”脳”」と位置づけており、画面を認識し(Perceive)、ワークフローを判断し(Decide)、インタラクティブに操作する(Act)という3つのステップを1つのモデルで実行します。
Claude Computer Use・Operatorとの違い
Holotron-12Bは、AnthropicのClaude Computer UseやOpenAIのOperatorとは異なるポジションを取っています。Claude Computer UseやOperatorはクローズドなAPI/サービスとして提供され、単一タスクの精度を追求しています。一方、Holotron-12Bはオープンソースでセルフホスト可能であり、100台の同時エージェントを1台のH100で処理できるスループットの高さが売りです。
企業が大量のPC操作タスクを自動化する場面——データ入力の一括処理、Webスクレイピング、UIテストの並列実行など——で特に強みを発揮する設計です。精度最優先の単一エージェントではなく、スループット最優先の大規模デプロイメント向けモデルと言えます。
利用方法
Holotron-12BはHugging Faceからダウンロードでき、推論にはvLLM v0.14.1以上が推奨されています。NVIDIA H100 1台で100同時ワーカーの処理が実証されており、BF16精度で動作します。
ライセンスはNVIDIA Open Model Licenseで、商用利用も可能です。ただしローカルPCで気軽に動かせるモデルではなく、クラウドGPUまたはエンタープライズ環境での利用が前提となります。現時点では量子化(4-bit, 8-bit)版は提供されていません。
まとめ
Holotron-12Bは、SSM×Attentionハイブリッド設計で従来比2倍のスループットを達成したPC操作AIエージェントです。単一タスクの精度ではClaude Computer Useに分がある可能性がありますが、大量の並列エージェントを低コストで運用したい企業ユースケースでは独自の価値を持ちます。
Computer Use型AIエージェントはまだ発展途上の分野であり、今後の競争激化が予想されます。NVIDIAエコシステムとの密な連携もあり、H Companyの次世代モデル(MoE統合型)の動向にも注目です。