LTX 2.3のLoRA品質が「驚異的」と話題|Reddit 647↑、Wan 2.2との比較動画も白熱

|Aitly編集部

LTX 2.3のLoRA機能が、海外のオープンソースAI動画コミュニティで大きな注目を集めています。r/StableDiffusionでは、ゲーム「Dispatch」のカットシーンを440クリップで学習させたLoRAが647アップボートを獲得。同時にr/comfyuiでは「Wan 2.2 VS LTX 2.3」の比較動画が155アップボート・120コメント超の議論を巻き起こしています。

AI動画生成はSoraやVeo、KlingなどのクラウドAPIが注目されがちですが、ローカルで動かせるオープンソースモデルの進化も凄まじいペースで進んでいます。LTX 2.3とWan 2.2は、その最前線にいる2つのモデルです。

この記事でわかること

  • LTX 2.3のLoRA機能がなぜ「驚異的」と評価されているか
  • Wan 2.2 VS LTX 2.3の比較で判明した各モデルの強みと弱み
  • Redditコメントの翻訳付き紹介(アップボート数明記)
  • ローカルAI動画生成の現在地と今後の展望

LTX 2.3のLoRA機能が647↑を獲得した理由

LTX 2.3で学習させたLoRAが、テキストから動画(T2V)だけで複数キャラクターのスタイルを再現できることが実証されました。投稿者はゲーム「Dispatch」のカットシーンから約440クリップを抽出し、6人以上のキャラクター(声を含む)を1つのLoRAに学習させています。各キャラクターに独自のトリガーワードと詳細なキャプションを付与し、データセットの重み付けを調整するという手法です。

注目すべきは、複数キャラクター間の「にじみ(bleed)」がほとんど発生していない点です。キャラクターAを呼び出したのにキャラクターBの特徴が混ざるという問題は、従来のLoRA学習で頻繁に起きていました。LTX 2.3ではこの問題が大幅に改善されており、投稿者も「よく訓練されたキャラクターは素晴らしい仕上がり」と報告しています。

LoRA学習の詳細(投稿者の報告より)

  • 学習データ:約440クリップ(大半が121フレーム/クリップ、一部は高解像度で25フレーム)
  • 含まれるキャラクター:6人以上(Rob, Invisi, Blonde Blazer, Punchup, Maledova, Roydなど)
  • 手法:キャラクターごとにトリガーワード設定+キャプション記述+優先度に応じたデータ重み付け
  • 出力方式:テキストから動画(T2V)のみ、画像入力なし

Wan 2.2 VS LTX 2.3 ── 比較の条件と結果

r/comfyuiに投稿された比較動画は、同一プロンプトで「チェリーピッキング(都合のいい結果だけ選ぶこと)なし」の条件で5クリップを生成したものです。RTX 5090(32GB VRAM)+64GB RAMの環境で、公平性を意識したテスト設計がされています。

テスト条件の比較

Wan 2.2 LTX 2.3
解像度 1280×720(1440pにアップスケール) ネイティブ1440p
FPS 16fps(24fpsに補間) ネイティブ24fps
チェックポイント NSFWfastmove(distilled相当) Distilled 8step, 22b base
生成時間(平均) 218秒 513秒
動画長 5秒 5秒

結果は意見が大きく割れました。投稿者のテストではWan 2.2がプロンプトの解釈精度と動きの自然さでリードした印象ですが、コメント欄では「比較の方法論自体に問題がある」という指摘も多数。LTX 2.3はネイティブ1440p・24fpsで動作する一方、Wan 2.2はアップスケールと補間を経ているため、「公平な比較になっていない」という声が上がっています。

Redditの反応:LoRAスレッド

r/StableDiffusionのLoRAスレッド(647アップボート)から、主要コメントを翻訳付きで紹介します。

60 upvotes r/StableDiffusion

“Wan 2.5 is never gonna be open source.” lmao, you got that right!

「Wan 2.5がオープンソースになることは絶対ないだろうな」笑、まさにその通り! ── Wan(Alibaba開発)の将来のバージョンがクローズドになるのではないかという懸念。オープンソースコミュニティでは、LTXのようなオープンなモデルへの期待が高いことを示すコメントです。

22 upvotes r/StableDiffusion

“Wow!! That is amazing. Can you share how you’ve trained it (what trainer, what settings, how did you caption the clips, what resolution)?”

「すごい!学習方法を教えてくれないか?(トレーナー、設定、キャプションの付け方、解像度など)」 ── 技術的な関心の高さを示すコメント。LoRA学習の手法がコミュニティで共有される文化が根付いています。

18 upvotes r/StableDiffusion

“damn 440 clips? thats dedication. looks clean af”

「440クリップだと?すごい根気だな。仕上がりめちゃくちゃきれいだし」 ── データ準備の労力への敬意と、結果のクオリティに対する素直な驚きが表れています。

その他の注目コメント

6 upvotes

“While we’re lagging far behind the proprietary models, we’re definitely progressing on the right path.”

「プロプライエタリモデルには遠く及ばないが、確実に正しい方向に進んでいる」 ── オープンソースAI動画の現在地を冷静に評価するコメント。Sora等との差を認めつつも、進歩を実感している声です。

Redditの反応:比較スレッド

r/comfyuiの「Wan 2.2 VS LTX 2.3」スレッド(155アップボート)は、結果そのものよりも比較方法論を巡って白熱しました。

21 upvotes r/comfyui

“How is WAN faster than LTX on your machine? I want that too.”

「お前の環境ではWanのほうがLTXより速いのか?俺もそうしたい」 ── Wan 2.2の218秒 vs LTX 2.3の513秒という結果に驚く声。一般的にはLTXのほうが高速とされていますが、チェックポイントやステップ数の違いが影響しています。

16 upvotes r/comfyui

“I like the spirit of your attempt but your methodology is wrong. If you want to do this comparison, you’d use the best recommended parameters for each model.”

「試みの精神はいいが、方法論が間違っている。比較するなら、各モデルの推奨パラメータで出すべきだ」 ── 同じサンプラーやシグマ値に揃えるのではなく、各モデルの「最適設定」で比較すべきだという指摘。ベンチマーク設計の基本ですが、実際にやると「条件が違うから比較にならない」とも言われるジレンマがあります。

12 upvotes r/comfyui

“I wanted to try out LTX 2.3 but looks like Wan 2.2 is a lot better. Interesting.”

「LTX 2.3を試してみたかったけど、Wan 2.2のほうがだいぶ良さそうだな」 ── 比較動画をそのまま受け取った反応。ただし後述のコメントで「この比較は公平ではない」という反論も多く出ています。

11 upvotes r/comfyui

“There’s nothing fair about these comparisons since Wan’s videos were modified by outside processes like upscale and interpolation and isn’t even the original wan model.”

「Wanの動画はアップスケールとフレーム補間という外部処理を経ているし、オリジナルのWanモデルですらない。この比較に公平な部分は何もない」 ── 比較の妥当性に対する根本的な批判。NSFWfastmoveチェックポイント(LoRAマージ品)を使っている点も指摘されています。

LTX擁護派の声

3 upvotes

“WAN has some vital advantages but I’m having a lot of fun with LTX, the added dimension of audio opened up a lot of possibilities. It feels like the precursor to something great.”

「Wanには決定的な強みがあるけど、LTXの音声付き動画生成は可能性が広がって楽しい。何か凄いものの前触れだと感じる」 ── LTX 2.3の音声生成機能に注目する声。品質の絶対値ではWanに劣る場面があっても、音声を含めた統合的な動画生成というユニークな強みがあります。

LTXへの率直な不満

9 upvotes

“Pretty much sums up my experience with LTX. Regardless of workflow its just not good at interpreting the prompt and making animations that make sense.”

「LTXへの自分の印象を完全にまとめてくれた。ワークフローに関係なく、プロンプトの解釈と意味のあるアニメーション生成が苦手だ」 ── LTX 2.3の弱点として、プロンプト追従性の低さを指摘する声は複数あります。

LTX 2.3とWan 2.2はどんなモデルか

LTX 2.3はLightricks社が開発したオープンソースの動画生成モデルで、22Bパラメータのベースモデルを持ちます。最大の特徴はネイティブ1440p・24fps出力、音声同時生成、そしてLoRA対応です。Distilled(蒸留)版では8ステップで生成でき、比較的軽量なワークフローも構築可能です。

Wan 2.2はAlibaba(通義千問チーム)が開発したオープンウェイトの動画生成モデルです。プロンプト追従性と動きの自然さに定評があり、コミュニティではカスタムチェックポイント(NSFWfastmove等)やLoRAマージが盛んに行われています。ネイティブでは720p・16fpsですが、後処理でアップスケール・フレーム補間を行う運用が一般的です。

現時点での各モデルの強み(Reddit議論の総合)

  • LTX 2.3の強み:ネイティブ高解像度、音声付き動画生成、LoRA学習の安定性、高速生成(標準設定の場合)
  • LTX 2.3の弱み:プロンプト追従性が低い、出力が不安定(当たり外れが大きい)
  • Wan 2.2の強み:プロンプト解釈の正確さ、動きの自然さ、コミュニティのエコシステムが成熟
  • Wan 2.2の弱み:ネイティブ解像度が低い、将来のバージョンがオープンソースでなくなる可能性

Aitly編集部の見解

EDITORIAL

今回の2つのスレッドが示しているのは、オープンソースAI動画生成が「使い物になる段階」に入ったという事実です。

LTX 2.3のLoRAデモは特に象徴的です。440クリップで6キャラクター+スタイルを学習し、テキスト入力だけで再現できるというのは、半年前には考えられなかった水準です。プロプライエタリモデル(Sora、Veo、Kling等)との品質差は依然として大きいものの、「ローカルで自分のデータを学習させ、自分だけの動画を生成できる」という自由度はクラウドAPIにはない価値です。

Wan vs LTXの比較議論は、「どちらが優れているか」よりも「何を重視するか」で答えが変わることを示しています。プロンプト追従性ならWan、ネイティブ高解像度と音声統合ならLTX。用途に応じて使い分けるのが現時点での最適解でしょう。

注目すべきは「Wan 2.5はオープンソースにならない」というコミュニティの懸念です。もしこれが現実になれば、LTXのようなフルオープンなモデルの戦略的価値はさらに高まります。AI動画生成のオープンソース陣営は、まだ始まったばかりです。

よくある質問

Distilled版(8ステップ)であれば、VRAM 12GB以上のGPU(RTX 3060以上)で動作可能です。ただし、ネイティブ1440p・24fpsの動画を快適に生成するにはVRAM 24GB以上(RTX 4090/5090)が推奨されます。今回の比較投稿者はRTX 5090(32GB)+64GB RAMの環境を使用しています。

ComfyUIを使う前提であれば、Wan 2.2のほうがプロンプト追従性が高く、期待通りの結果が出やすい傾向があります。LTX 2.3は出力の当たり外れが大きいため、ある程度パラメータ調整に慣れてから試すのがよいでしょう。いずれもComfyUIのワークフローが整備されており、導入自体は比較的容易です。

LTX 2.3は動画と同時に音声(効果音・環境音など)を生成する機能を備えています。従来のAI動画生成モデルは映像のみを出力し、音声は別途追加する必要がありましたが、LTX 2.3では1回の推論で映像と音声が一体的に生成されます。LoRAのスレッドでも、キャラクターの声まで学習できたと報告されています。

LoRA(Low-Rank Adaptation)は、大規模AIモデルを少ないデータと計算資源で追加学習させる手法です。モデル全体を再学習するのではなく、一部のパラメータだけを効率的に調整します。特定のキャラクター・スタイル・動きを学習させることで、ベースモデルにない表現を追加できます。今回のLTX 2.3 LoRAでは、ゲームのカットシーン440クリップから6キャラクターのスタイルを学習しています。

参考リンク

※ この記事の情報は2026年3月17日時点のものです。Redditのアップボート数・コメント数は変動する場合があります。
※ 記事内のRedditコメントの翻訳はAitly編集部によるものです。