it.xnews.jp
出典: Google 原文公開: 2026-06-03 生成: 2026-06-04 読了 約 2 分 model: claude-haiku-4-5 原文: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ raw.md

Googleが12Bパラメータのマルチモーダルモデル「Gemma 4 12B」を発表

2026年6月3日、Googleはノートパソコンで動作するマルチモーダルAIモデル「Gemma 4 12B」を発表した。ネイティブな音声・画像入力を備え、エンコーダレスアーキテクチャを採用しており、16GBのVRAM/ユニファイドメモリで実行可能である。

Gemma 4 12B は、エッジフレンドリーなE4Bと高度な26B Mixture of Experts(MoE)モデルの間のギャップを埋める設計となっている。GoogleのOlivier Lacombe氏は「Gemma 4 12B はモバイルファースト効率と高度な推論能力を組み合わせ、高性能なマルチモーダルインテリジェンスをノートパソコンに直接搭載するよう設計されている」と述べた。Gemmaモデル全体の累計ダウンロード数は150 millionを超えている。

エンコーダレスアーキテクチャ

従来のマルチモーダルモデルは独立したエンコーダに依存していたが、GoogleはエンコーダレスアーキテクチャでGemma 4 12Bを訓練した。視覚エンコーダを単一の行列乗算、位置埋め込み、正規化から成る軽量な埋め込みモジュールに置き換え、音声エンコーダを完全に廃止した。その結果、音声信号とテキストトークンが同じ次元空間に投影される。

メモリ効率と性能

Gemma 4 12Bは26B MoEモデルの約半分のメモリフットプリントで、標準ベンチマークにおいて26B MoEに近い性能を実現している。16GBのVRAM または unified memory があればコンシューマーノートパソコンでローカルに実行可能である。

開発者向け機能と応用

Gemma 4 12Bはマルチトークン予測(MTP)ドラフタを搭載している。開発者コミュニティはこのモデルを用いて、身体支援用ウェアラブルロボットアーム、エンタープライズグレードのAIセキュリティなどのアプリケーションを構築している。事前訓練済みおよび命令調整済みのチェックポイントはHugging FaceとKaggleから利用可能であり、Apache 2.0ライセンスの下で公開されている。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Google「Introducing Gemma 4 12B: a unified, encoder-free multimodal model」https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

この記事をシェア