LTX 2.3のLoRA機能が、海外のオープンソースAI動画コミュニティで大きな注目を集めています。r/StableDiffusionでは、ゲーム「Dispatch」のカットシーンを440クリップで学習させたLoRAが647アップボートを獲得。同時にr/comfyuiでは「Wan 2.2 VS LTX 2.3」の比較動画が155アップボート・120コメント超の議論を巻き起こしています。
AI動画生成はSoraやVeo、KlingなどのクラウドAPIが注目されがちですが、ローカルで動かせるオープンソースモデルの進化も凄まじいペースで進んでいます。LTX 2.3とWan 2.2は、その最前線にいる2つのモデルです。
この記事でわかること
- LTX 2.3のLoRA機能がなぜ「驚異的」と評価されているか
- Wan 2.2 VS LTX 2.3の比較で判明した各モデルの強みと弱み
- Redditコメントの翻訳付き紹介(アップボート数明記)
- ローカルAI動画生成の現在地と今後の展望
LTX 2.3のLoRA機能が647↑を獲得した理由
LTX 2.3で学習させたLoRAが、テキストから動画(T2V)だけで複数キャラクターのスタイルを再現できることが実証されました。投稿者はゲーム「Dispatch」のカットシーンから約440クリップを抽出し、6人以上のキャラクター(声を含む)を1つのLoRAに学習させています。各キャラクターに独自のトリガーワードと詳細なキャプションを付与し、データセットの重み付けを調整するという手法です。
注目すべきは、複数キャラクター間の「にじみ(bleed)」がほとんど発生していない点です。キャラクターAを呼び出したのにキャラクターBの特徴が混ざるという問題は、従来のLoRA学習で頻繁に起きていました。LTX 2.3ではこの問題が大幅に改善されており、投稿者も「よく訓練されたキャラクターは素晴らしい仕上がり」と報告しています。
LoRA学習の詳細(投稿者の報告より)
- 学習データ:約440クリップ(大半が121フレーム/クリップ、一部は高解像度で25フレーム)
- 含まれるキャラクター:6人以上(Rob, Invisi, Blonde Blazer, Punchup, Maledova, Roydなど)
- 手法:キャラクターごとにトリガーワード設定+キャプション記述+優先度に応じたデータ重み付け
- 出力方式:テキストから動画(T2V)のみ、画像入力なし
Wan 2.2 VS LTX 2.3 ── 比較の条件と結果
r/comfyuiに投稿された比較動画は、同一プロンプトで「チェリーピッキング(都合のいい結果だけ選ぶこと)なし」の条件で5クリップを生成したものです。RTX 5090(32GB VRAM)+64GB RAMの環境で、公平性を意識したテスト設計がされています。
テスト条件の比較
| Wan 2.2 | LTX 2.3 | |
|---|---|---|
| 解像度 | 1280×720(1440pにアップスケール) | ネイティブ1440p |
| FPS | 16fps(24fpsに補間) | ネイティブ24fps |
| チェックポイント | NSFWfastmove(distilled相当) | Distilled 8step, 22b base |
| 生成時間(平均) | 218秒 | 513秒 |
| 動画長 | 5秒 | 5秒 |
結果は意見が大きく割れました。投稿者のテストではWan 2.2がプロンプトの解釈精度と動きの自然さでリードした印象ですが、コメント欄では「比較の方法論自体に問題がある」という指摘も多数。LTX 2.3はネイティブ1440p・24fpsで動作する一方、Wan 2.2はアップスケールと補間を経ているため、「公平な比較になっていない」という声が上がっています。
Redditの反応:LoRAスレッド
r/StableDiffusionのLoRAスレッド(647アップボート)から、主要コメントを翻訳付きで紹介します。
“Wan 2.5 is never gonna be open source.” lmao, you got that right!
「Wan 2.5がオープンソースになることは絶対ないだろうな」笑、まさにその通り! ── Wan(Alibaba開発)の将来のバージョンがクローズドになるのではないかという懸念。オープンソースコミュニティでは、LTXのようなオープンなモデルへの期待が高いことを示すコメントです。
“Wow!! That is amazing. Can you share how you’ve trained it (what trainer, what settings, how did you caption the clips, what resolution)?”
「すごい!学習方法を教えてくれないか?(トレーナー、設定、キャプションの付け方、解像度など)」 ── 技術的な関心の高さを示すコメント。LoRA学習の手法がコミュニティで共有される文化が根付いています。
“damn 440 clips? thats dedication. looks clean af”
「440クリップだと?すごい根気だな。仕上がりめちゃくちゃきれいだし」 ── データ準備の労力への敬意と、結果のクオリティに対する素直な驚きが表れています。
その他の注目コメント
“While we’re lagging far behind the proprietary models, we’re definitely progressing on the right path.”
「プロプライエタリモデルには遠く及ばないが、確実に正しい方向に進んでいる」 ── オープンソースAI動画の現在地を冷静に評価するコメント。Sora等との差を認めつつも、進歩を実感している声です。
Redditの反応:比較スレッド
r/comfyuiの「Wan 2.2 VS LTX 2.3」スレッド(155アップボート)は、結果そのものよりも比較方法論を巡って白熱しました。
“How is WAN faster than LTX on your machine? I want that too.”
「お前の環境ではWanのほうがLTXより速いのか?俺もそうしたい」 ── Wan 2.2の218秒 vs LTX 2.3の513秒という結果に驚く声。一般的にはLTXのほうが高速とされていますが、チェックポイントやステップ数の違いが影響しています。
“I like the spirit of your attempt but your methodology is wrong. If you want to do this comparison, you’d use the best recommended parameters for each model.”
「試みの精神はいいが、方法論が間違っている。比較するなら、各モデルの推奨パラメータで出すべきだ」 ── 同じサンプラーやシグマ値に揃えるのではなく、各モデルの「最適設定」で比較すべきだという指摘。ベンチマーク設計の基本ですが、実際にやると「条件が違うから比較にならない」とも言われるジレンマがあります。
“I wanted to try out LTX 2.3 but looks like Wan 2.2 is a lot better. Interesting.”
「LTX 2.3を試してみたかったけど、Wan 2.2のほうがだいぶ良さそうだな」 ── 比較動画をそのまま受け取った反応。ただし後述のコメントで「この比較は公平ではない」という反論も多く出ています。
“There’s nothing fair about these comparisons since Wan’s videos were modified by outside processes like upscale and interpolation and isn’t even the original wan model.”
「Wanの動画はアップスケールとフレーム補間という外部処理を経ているし、オリジナルのWanモデルですらない。この比較に公平な部分は何もない」 ── 比較の妥当性に対する根本的な批判。NSFWfastmoveチェックポイント(LoRAマージ品)を使っている点も指摘されています。
LTX擁護派の声
“WAN has some vital advantages but I’m having a lot of fun with LTX, the added dimension of audio opened up a lot of possibilities. It feels like the precursor to something great.”
「Wanには決定的な強みがあるけど、LTXの音声付き動画生成は可能性が広がって楽しい。何か凄いものの前触れだと感じる」 ── LTX 2.3の音声生成機能に注目する声。品質の絶対値ではWanに劣る場面があっても、音声を含めた統合的な動画生成というユニークな強みがあります。
LTXへの率直な不満
“Pretty much sums up my experience with LTX. Regardless of workflow its just not good at interpreting the prompt and making animations that make sense.”
「LTXへの自分の印象を完全にまとめてくれた。ワークフローに関係なく、プロンプトの解釈と意味のあるアニメーション生成が苦手だ」 ── LTX 2.3の弱点として、プロンプト追従性の低さを指摘する声は複数あります。
LTX 2.3とWan 2.2はどんなモデルか
LTX 2.3はLightricks社が開発したオープンソースの動画生成モデルで、22Bパラメータのベースモデルを持ちます。最大の特徴はネイティブ1440p・24fps出力、音声同時生成、そしてLoRA対応です。Distilled(蒸留)版では8ステップで生成でき、比較的軽量なワークフローも構築可能です。
Wan 2.2はAlibaba(通義千問チーム)が開発したオープンウェイトの動画生成モデルです。プロンプト追従性と動きの自然さに定評があり、コミュニティではカスタムチェックポイント(NSFWfastmove等)やLoRAマージが盛んに行われています。ネイティブでは720p・16fpsですが、後処理でアップスケール・フレーム補間を行う運用が一般的です。
現時点での各モデルの強み(Reddit議論の総合)
- LTX 2.3の強み:ネイティブ高解像度、音声付き動画生成、LoRA学習の安定性、高速生成(標準設定の場合)
- LTX 2.3の弱み:プロンプト追従性が低い、出力が不安定(当たり外れが大きい)
- Wan 2.2の強み:プロンプト解釈の正確さ、動きの自然さ、コミュニティのエコシステムが成熟
- Wan 2.2の弱み:ネイティブ解像度が低い、将来のバージョンがオープンソースでなくなる可能性
Aitly編集部の見解
EDITORIAL
今回の2つのスレッドが示しているのは、オープンソースAI動画生成が「使い物になる段階」に入ったという事実です。
LTX 2.3のLoRAデモは特に象徴的です。440クリップで6キャラクター+スタイルを学習し、テキスト入力だけで再現できるというのは、半年前には考えられなかった水準です。プロプライエタリモデル(Sora、Veo、Kling等)との品質差は依然として大きいものの、「ローカルで自分のデータを学習させ、自分だけの動画を生成できる」という自由度はクラウドAPIにはない価値です。
Wan vs LTXの比較議論は、「どちらが優れているか」よりも「何を重視するか」で答えが変わることを示しています。プロンプト追従性ならWan、ネイティブ高解像度と音声統合ならLTX。用途に応じて使い分けるのが現時点での最適解でしょう。
注目すべきは「Wan 2.5はオープンソースにならない」というコミュニティの懸念です。もしこれが現実になれば、LTXのようなフルオープンなモデルの戦略的価値はさらに高まります。AI動画生成のオープンソース陣営は、まだ始まったばかりです。
よくある質問
参考リンク
※ この記事の情報は2026年3月17日時点のものです。Redditのアップボート数・コメント数は変動する場合があります。
※ 記事内のRedditコメントの翻訳はAitly編集部によるものです。