
Googleが12Bパラメータのマルチモーダルモデル「Gemma 4 12B」を発表
2026年6月3日、Googleはノートパソコンで動作するマルチモーダルAIモデル「Gemma 4 12B」を発表した。ネイティブな音声・画像入力を備え、エンコーダレスアーキテクチャを採用しており、16GBのVRAM/ユニファイドメモリで実行可能である。
Gemma 4 12B は、エッジフレンドリーなE4Bと高度な26B Mixture of Experts(MoE)モデルの間のギャップを埋める設計となっている。GoogleのOlivier Lacombe氏は「Gemma 4 12B はモバイルファースト効率と高度な推論能力を組み合わせ、高性能なマルチモーダルインテリジェンスをノートパソコンに直接搭載するよう設計されている」と述べた。Gemmaモデル全体の累計ダウンロード数は150 millionを超えている。
エンコーダレスアーキテクチャ
従来のマルチモーダルモデルは独立したエンコーダに依存していたが、GoogleはエンコーダレスアーキテクチャでGemma 4 12Bを訓練した。視覚エンコーダを単一の行列乗算、位置埋め込み、正規化から成る軽量な埋め込みモジュールに置き換え、音声エンコーダを完全に廃止した。その結果、音声信号とテキストトークンが同じ次元空間に投影される。
メモリ効率と性能
Gemma 4 12Bは26B MoEモデルの約半分のメモリフットプリントで、標準ベンチマークにおいて26B MoEに近い性能を実現している。16GBのVRAM または unified memory があればコンシューマーノートパソコンでローカルに実行可能である。
開発者向け機能と応用
Gemma 4 12Bはマルチトークン予測(MTP)ドラフタを搭載している。開発者コミュニティはこのモデルを用いて、身体支援用ウェアラブルロボットアーム、エンタープライズグレードのAIセキュリティなどのアプリケーションを構築している。事前訓練済みおよび命令調整済みのチェックポイントはHugging FaceとKaggleから利用可能であり、Apache 2.0ライセンスの下で公開されている。
筆者の見立て
- Gemma 4 12Bが標準ベンチマークで26B MoEモデルに接近した性能を実現していることについて、設計の効率性を示唆している
- 先進的なマルチモーダル機能を日常的なハードウェアに搭載しながら、速度と推論能力を損なわないという見方を示している
- 強力なマルチモーダル・エージェント機能をマシン上でロック解除することの可能性を暗示している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Google「Introducing Gemma 4 12B: a unified, encoder-free multimodal model」https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/