Bonsai Image 4B:ローカルデバイス向けコンパクト画像生成モデルをリリース
PrismML は 1ビット・3値量子化の画像生成モデル「Bonsai Image 4B」を発表し、iPhone などのローカルデバイスで動作する iOS アプリ「Bonsai Studio」も公開した。
PrismML は 2026年5月26日、FLUX.2 Klein 4B をベースとした超小型画像生成モデル「Bonsai Image 4B」を発表した。1ビット・3値の 2 つの量子化バリアントを提供し、iPhone・iPad・Mac・CUDA GPU で動作する。
モデルの仕様と圧縮効果
Bonsai Image 4B は 2 つのバリアントで構成される。1ビット版は {−1, +1} のバイナリ変換器重みを FP16 グループワイズスケーリング係数で実装し、1 重み当たり 1.125 ビットの実効ビット数を達成する。3値版は {−1, 0, +1} の重みを同様に処理し、1.71 ビットの実効ビット数となる。
拡散変換器のサイズは、1ビット版で 0.93 GB、3値版で 1.21 GB であり、FLUX.2 Klein 4B のフル精度 7.75 GB と比べてそれぞれ 8.3 倍・6.4 倍の削減を実現している。バイナリレイヤーはフル精度重みに比べて約 14 倍、3値レイヤーは約 10 倍の圧縮効果をもたらす。精度に敏感なサポーティングテンソル(投影層)の約 5% は FP16 のまま保持される。
Apple Silicon デプロイペイロードは 1ビット版で 3.42 GB、3値版で 3.88 GB となり、フル精度 FLUX.2 Klein 4B の 15.97 GB から大幅に削減されている。
メモリ使用量と推論速度
512×512 画像生成時の平均アクティブメモリは、1ビット版で 1.5 GB、3値版で 1.96 GB であり、元の FLUX.2 Klein 4B の 11.74 GB から 7.8 倍・6.0 倍削減される。1024×1024 画像生成時は、1ビット版で 1.95 GB、3値版で 2.38 GB となり、14.39 GB から 7.4 倍削減される。
推論速度について、512×512 画像は iPhone 17 Pro Max で 9.4 秒、Mac M4 Pro で約 6 秒で生成される。Mac M4 Pro では、stock フル精度 MFLUX パイプラインと比べて最大 5.6 倍高速である。
.png)
性能評価とリリース
GenEval、HPSv3、DPG-Bench ベンチマークで評価された結果、3値版は FLUX.2 Klein 4B の精度の 95% を保持し、1ビット版は 88% を保持している。具体的には、1ビット版の GenEval スコアは 0.671、HPSv3 スコアは 11.15、DPG-Bench スコアは 0.822 である。一方 3値版は GenEval 0.723、HPSv3 12.22、DPG-Bench 0.851 を記録し、元の FLUX.2 Klein 4B(GenEval 0.819、HPSv3 12.84、DPG-Bench 0.853)に近い精度を維持している。
1ビット・3値版の両モデルは Apache 2.0 ライセンス下でオープン重み・コードとして公開される。また iOS アプリ「Bonsai Studio」で iPhone 上で Bonsai Image 4B を試用できる。当社によると、パラメータクラスにおいて iPhone 上で直接動作する画像モデルは業界初とされている。
PrismML は Caltech の研究チームを母体に、Khosla Ventures・Cerberus・Google の支援を受けて設立された。
筆者の見立て
- ローカル推論は生成コストを低減し、イテレーション速度を向上させ、プロンプトと生成アセットが非公開のままであるべき環境での使用を容易にする可能性を示唆している
- Bonsai Image 4B は、ユーザーに近い場所で動作する高性能画像生成デプロイメント体制への進化の一段階と解釈している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
PrismML「Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices」https://prismml.com/news/bonsai-image-4b