正直数え切れないほど存在します。主要なものをカテゴリ別に整理します。
画像生成系
| モデル | 開発元 | 特徴 |
|---|---|---|
| Stable Diffusion 1.5 | Stability AI | 軽量・エコシステム最大 |
| Stable Diffusion XL | Stability AI | 高品質・標準的 |
| Stable Diffusion 3.5 | Stability AI | 最新世代 |
| FLUX.1 Dev/Schnell | Black Forest Labs | 現状最高品質クラス |
| Z-Image Turbo | Alibaba | 8ステップ高速 |
| Kolors | Kuaishou | 中国系・高品質 |
| HunyuanDiT | Tencent | 日中対応 |
| PixArt-Σ | Microsoft | 高解像度特化 |
| Wuerstchen | – | 超軽量 |
動画生成系
| モデル | 特徴 |
|---|---|
| Wan2.1 | Alibaba・現状ローカル最高峰 |
| CogVideoX | 中国系・高品質 |
| AnimateDiff | SD拡張・アニメ動画 |
| Mochi 1 | 高品質・重い |
| LTX-Video | 軽量・高速 |
顔・人物特化系
| モデル | 特徴 |
|---|---|
| FaceFusion | 顔スワップ |
| DeepFaceLab | 顔スワップ老舗 |
| SadTalker | 静止画→口パク動画 |
| LivePortrait | リアルタイム顔アニメ |
| InstantID | 顔の一貫性保持 |
テキスト生成(LLM)系
| モデル | 特徴 |
|---|---|
| Llama 3(Meta) | 最大級のオープンLLM |
| Mistral / Mixtral | 軽量・高性能 |
| Gemma(Google) | 軽量 |
| Qwen(Alibaba) | 日本語も得意 |
| Phi-4(Microsoft) | 小型・高性能 |
| DeepSeek | 中国系・話題 |
音声・音楽系
| モデル | 特徴 |
|---|---|
| Whisper(OpenAI) | 音声認識 |
| XTTS / Coqui | 音声合成・声クローン |
| MusicGen(Meta) | 音楽生成 |
| AudioCraft | 効果音・音楽 |
3D・その他
| モデル | 特徴 |
|---|---|
| TripoSG | テキスト→3Dモデル |
| Zero123++ | 画像→3D |
| ControlNet | SD用姿勢・構図制御 |
| IP-Adapter | 参照画像スタイル転送 |
まとめると
「ローカルで動くAI」だけでおそらく数百種類以上存在します。Hugging Faceに公開されているモデルだけで100万件以上あり、毎週新しいモデルが登場している状況です。
実用的に使われているものに絞っても50〜100種類はあるイメージです。

コメントの追加
コメントを投稿するにはログインしてください。