it.xnews.jp
出典: PrismML 原文公開: 2026-05-26 生成: 2026-05-31 読了 約 3 分 model: claude-haiku-4-5 原文: https://prismml.com/news/bonsai-image-4b raw.md

Bonsai Image 4B:ローカルデバイス向けコンパクト画像生成モデルをリリース

PrismML は 1ビット・3値量子化の画像生成モデル「Bonsai Image 4B」を発表し、iPhone などのローカルデバイスで動作する iOS アプリ「Bonsai Studio」も公開した。

PrismML は 2026年5月26日、FLUX.2 Klein 4B をベースとした超小型画像生成モデル「Bonsai Image 4B」を発表した。1ビット・3値の 2 つの量子化バリアントを提供し、iPhone・iPad・Mac・CUDA GPU で動作する。

モデルの仕様と圧縮効果

Bonsai Image 4B は 2 つのバリアントで構成される。1ビット版は {−1, +1} のバイナリ変換器重みを FP16 グループワイズスケーリング係数で実装し、1 重み当たり 1.125 ビットの実効ビット数を達成する。3値版は {−1, 0, +1} の重みを同様に処理し、1.71 ビットの実効ビット数となる。

拡散変換器のサイズは、1ビット版で 0.93 GB、3値版で 1.21 GB であり、FLUX.2 Klein 4B のフル精度 7.75 GB と比べてそれぞれ 8.3 倍・6.4 倍の削減を実現している。バイナリレイヤーはフル精度重みに比べて約 14 倍、3値レイヤーは約 10 倍の圧縮効果をもたらす。精度に敏感なサポーティングテンソル(投影層)の約 5% は FP16 のまま保持される。

Apple Silicon デプロイペイロードは 1ビット版で 3.42 GB、3値版で 3.88 GB となり、フル精度 FLUX.2 Klein 4B の 15.97 GB から大幅に削減されている。

メモリ使用量と推論速度

512×512 画像生成時の平均アクティブメモリは、1ビット版で 1.5 GB、3値版で 1.96 GB であり、元の FLUX.2 Klein 4B の 11.74 GB から 7.8 倍・6.0 倍削減される。1024×1024 画像生成時は、1ビット版で 1.95 GB、3値版で 2.38 GB となり、14.39 GB から 7.4 倍削減される。

推論速度について、512×512 画像は iPhone 17 Pro Max で 9.4 秒、Mac M4 Pro で約 6 秒で生成される。Mac M4 Pro では、stock フル精度 MFLUX パイプラインと比べて最大 5.6 倍高速である。

モデルの比較グリッド.png)

性能評価とリリース

GenEval、HPSv3、DPG-Bench ベンチマークで評価された結果、3値版は FLUX.2 Klein 4B の精度の 95% を保持し、1ビット版は 88% を保持している。具体的には、1ビット版の GenEval スコアは 0.671、HPSv3 スコアは 11.15、DPG-Bench スコアは 0.822 である。一方 3値版は GenEval 0.723、HPSv3 12.22、DPG-Bench 0.851 を記録し、元の FLUX.2 Klein 4B(GenEval 0.819、HPSv3 12.84、DPG-Bench 0.853)に近い精度を維持している。

1ビット・3値版の両モデルは Apache 2.0 ライセンス下でオープン重み・コードとして公開される。また iOS アプリ「Bonsai Studio」で iPhone 上で Bonsai Image 4B を試用できる。当社によると、パラメータクラスにおいて iPhone 上で直接動作する画像モデルは業界初とされている。

PrismML は Caltech の研究チームを母体に、Khosla Ventures・Cerberus・Google の支援を受けて設立された。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

PrismML「Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices」https://prismml.com/news/bonsai-image-4b

この記事をシェア