LTX 2.3のLoRA品質が「驚異的」と話題｜Reddit 647↑、Wan 2.2との比較動画も白熱

LTX 2.3のLoRA機能が、海外のオープンソースAI動画コミュニティで大きな注目を集めています。r/StableDiffusionでは、ゲーム「Dispatch」のカットシーンを440クリップで学習させたLoRAが647アップボートを獲得。同時にr/comfyuiでは「Wan 2.2 VS LTX 2.3」の比較動画が155アップボート・120コメント超の議論を巻き起こしています。

AI動画生成はSoraやVeo、KlingなどのクラウドAPIが注目されがちですが、ローカルで動かせるオープンソースモデルの進化も凄まじいペースで進んでいます。LTX 2.3とWan 2.2は、その最前線にいる2つのモデルです。

この記事でわかること

LTX 2.3のLoRA機能がなぜ「驚異的」と評価されているか
Wan 2.2 VS LTX 2.3の比較で判明した各モデルの強みと弱み
Redditコメントの翻訳付き紹介（アップボート数明記）
ローカルAI動画生成の現在地と今後の展望

LTX 2.3のLoRA機能が647↑を獲得した理由
Wan 2.2 VS LTX 2.3 ── 比較の条件と結果
Redditの反応：LoRAスレッド
Redditの反応：比較スレッド
LTX 2.3とWan 2.2はどんなモデルか
Aitly編集部の見解
よくある質問

LTX 2.3のLoRA機能が647↑を獲得した理由

LTX 2.3で学習させたLoRAが、テキストから動画（T2V）だけで複数キャラクターのスタイルを再現できることが実証されました。投稿者はゲーム「Dispatch」のカットシーンから約440クリップを抽出し、6人以上のキャラクター（声を含む）を1つのLoRAに学習させています。各キャラクターに独自のトリガーワードと詳細なキャプションを付与し、データセットの重み付けを調整するという手法です。

注目すべきは、複数キャラクター間の「にじみ（bleed）」がほとんど発生していない点です。キャラクターAを呼び出したのにキャラクターBの特徴が混ざるという問題は、従来のLoRA学習で頻繁に起きていました。LTX 2.3ではこの問題が大幅に改善されており、投稿者も「よく訓練されたキャラクターは素晴らしい仕上がり」と報告しています。

LoRA学習の詳細（投稿者の報告より）

学習データ：約440クリップ（大半が121フレーム/クリップ、一部は高解像度で25フレーム）
含まれるキャラクター：6人以上（Rob, Invisi, Blonde Blazer, Punchup, Maledova, Roydなど）
手法：キャラクターごとにトリガーワード設定＋キャプション記述＋優先度に応じたデータ重み付け
出力方式：テキストから動画（T2V）のみ、画像入力なし

Wan 2.2 VS LTX 2.3 ── 比較の条件と結果

r/comfyuiに投稿された比較動画は、同一プロンプトで「チェリーピッキング（都合のいい結果だけ選ぶこと）なし」の条件で5クリップを生成したものです。RTX 5090（32GB VRAM）＋64GB RAMの環境で、公平性を意識したテスト設計がされています。

テスト条件の比較

	Wan 2.2	LTX 2.3
解像度	1280×720（1440pにアップスケール）	ネイティブ1440p
FPS	16fps（24fpsに補間）	ネイティブ24fps
チェックポイント	NSFWfastmove（distilled相当）	Distilled 8step, 22b base
生成時間（平均）	218秒	513秒
動画長	5秒	5秒

結果は意見が大きく割れました。投稿者のテストではWan 2.2がプロンプトの解釈精度と動きの自然さでリードした印象ですが、コメント欄では「比較の方法論自体に問題がある」という指摘も多数。LTX 2.3はネイティブ1440p・24fpsで動作する一方、Wan 2.2はアップスケールと補間を経ているため、「公平な比較になっていない」という声が上がっています。

Redditの反応：LoRAスレッド

r/StableDiffusionのLoRAスレッド（647アップボート）から、主要コメントを翻訳付きで紹介します。

60 upvotes r/StableDiffusion

“Wan 2.5 is never gonna be open source.” lmao, you got that right!

「Wan 2.5がオープンソースになることは絶対ないだろうな」笑、まさにその通り！ ── Wan（Alibaba開発）の将来のバージョンがクローズドになるのではないかという懸念。オープンソースコミュニティでは、LTXのようなオープンなモデルへの期待が高いことを示すコメントです。

22 upvotes r/StableDiffusion

“Wow!! That is amazing. Can you share how you’ve trained it (what trainer, what settings, how did you caption the clips, what resolution)?”

「すごい！学習方法を教えてくれないか？（トレーナー、設定、キャプションの付け方、解像度など）」 ── 技術的な関心の高さを示すコメント。LoRA学習の手法がコミュニティで共有される文化が根付いています。

18 upvotes r/StableDiffusion

“damn 440 clips? thats dedication. looks clean af”

「440クリップだと？すごい根気だな。仕上がりめちゃくちゃきれいだし」 ── データ準備の労力への敬意と、結果のクオリティに対する素直な驚きが表れています。

その他の注目コメント

6 upvotes

“While we’re lagging far behind the proprietary models, we’re definitely progressing on the right path.”

「プロプライエタリモデルには遠く及ばないが、確実に正しい方向に進んでいる」 ── オープンソースAI動画の現在地を冷静に評価するコメント。Sora等との差を認めつつも、進歩を実感している声です。

Redditの反応：比較スレッド

r/comfyuiの「Wan 2.2 VS LTX 2.3」スレッド（155アップボート）は、結果そのものよりも比較方法論を巡って白熱しました。

21 upvotes r/comfyui

“How is WAN faster than LTX on your machine? I want that too.”

「お前の環境ではWanのほうがLTXより速いのか？俺もそうしたい」 ── Wan 2.2の218秒 vs LTX 2.3の513秒という結果に驚く声。一般的にはLTXのほうが高速とされていますが、チェックポイントやステップ数の違いが影響しています。

16 upvotes r/comfyui

“I like the spirit of your attempt but your methodology is wrong. If you want to do this comparison, you’d use the best recommended parameters for each model.”

「試みの精神はいいが、方法論が間違っている。比較するなら、各モデルの推奨パラメータで出すべきだ」 ── 同じサンプラーやシグマ値に揃えるのではなく、各モデルの「最適設定」で比較すべきだという指摘。ベンチマーク設計の基本ですが、実際にやると「条件が違うから比較にならない」とも言われるジレンマがあります。

12 upvotes r/comfyui

“I wanted to try out LTX 2.3 but looks like Wan 2.2 is a lot better. Interesting.”

「LTX 2.3を試してみたかったけど、Wan 2.2のほうがだいぶ良さそうだな」 ── 比較動画をそのまま受け取った反応。ただし後述のコメントで「この比較は公平ではない」という反論も多く出ています。

11 upvotes r/comfyui

“There’s nothing fair about these comparisons since Wan’s videos were modified by outside processes like upscale and interpolation and isn’t even the original wan model.”

「Wanの動画はアップスケールとフレーム補間という外部処理を経ているし、オリジナルのWanモデルですらない。この比較に公平な部分は何もない」 ── 比較の妥当性に対する根本的な批判。NSFWfastmoveチェックポイント（LoRAマージ品）を使っている点も指摘されています。

LTX擁護派の声

3 upvotes

“WAN has some vital advantages but I’m having a lot of fun with LTX, the added dimension of audio opened up a lot of possibilities. It feels like the precursor to something great.”

「Wanには決定的な強みがあるけど、LTXの音声付き動画生成は可能性が広がって楽しい。何か凄いものの前触れだと感じる」 ── LTX 2.3の音声生成機能に注目する声。品質の絶対値ではWanに劣る場面があっても、音声を含めた統合的な動画生成というユニークな強みがあります。

LTXへの率直な不満

9 upvotes

“Pretty much sums up my experience with LTX. Regardless of workflow its just not good at interpreting the prompt and making animations that make sense.”

「LTXへの自分の印象を完全にまとめてくれた。ワークフローに関係なく、プロンプトの解釈と意味のあるアニメーション生成が苦手だ」 ── LTX 2.3の弱点として、プロンプト追従性の低さを指摘する声は複数あります。

LTX 2.3とWan 2.2はどんなモデルか

LTX 2.3はLightricks社が開発したオープンソースの動画生成モデルで、22Bパラメータのベースモデルを持ちます。最大の特徴はネイティブ1440p・24fps出力、音声同時生成、そしてLoRA対応です。Distilled（蒸留）版では8ステップで生成でき、比較的軽量なワークフローも構築可能です。

Wan 2.2はAlibaba（通義千問チーム）が開発したオープンウェイトの動画生成モデルです。プロンプト追従性と動きの自然さに定評があり、コミュニティではカスタムチェックポイント（NSFWfastmove等）やLoRAマージが盛んに行われています。ネイティブでは720p・16fpsですが、後処理でアップスケール・フレーム補間を行う運用が一般的です。

現時点での各モデルの強み（Reddit議論の総合）

LTX 2.3の強み：ネイティブ高解像度、音声付き動画生成、LoRA学習の安定性、高速生成（標準設定の場合）
LTX 2.3の弱み：プロンプト追従性が低い、出力が不安定（当たり外れが大きい）
Wan 2.2の強み：プロンプト解釈の正確さ、動きの自然さ、コミュニティのエコシステムが成熟
Wan 2.2の弱み：ネイティブ解像度が低い、将来のバージョンがオープンソースでなくなる可能性

Aitly編集部の見解

EDITORIAL

今回の2つのスレッドが示しているのは、オープンソースAI動画生成が「使い物になる段階」に入ったという事実です。

LTX 2.3のLoRAデモは特に象徴的です。440クリップで6キャラクター＋スタイルを学習し、テキスト入力だけで再現できるというのは、半年前には考えられなかった水準です。プロプライエタリモデル（Sora、Veo、Kling等）との品質差は依然として大きいものの、「ローカルで自分のデータを学習させ、自分だけの動画を生成できる」という自由度はクラウドAPIにはない価値です。

Wan vs LTXの比較議論は、「どちらが優れているか」よりも「何を重視するか」で答えが変わることを示しています。プロンプト追従性ならWan、ネイティブ高解像度と音声統合ならLTX。用途に応じて使い分けるのが現時点での最適解でしょう。

注目すべきは「Wan 2.5はオープンソースにならない」というコミュニティの懸念です。もしこれが現実になれば、LTXのようなフルオープンなモデルの戦略的価値はさらに高まります。AI動画生成のオープンソース陣営は、まだ始まったばかりです。

よくある質問

LTX 2.3を動かすのに必要なスペックは？

Distilled版（8ステップ）であれば、VRAM 12GB以上のGPU（RTX 3060以上）で動作可能です。ただし、ネイティブ1440p・24fpsの動画を快適に生成するにはVRAM 24GB以上（RTX 4090/5090）が推奨されます。今回の比較投稿者はRTX 5090（32GB）＋64GB RAMの環境を使用しています。

Wan 2.2とLTX 2.3、初心者にはどちらがおすすめ？

ComfyUIを使う前提であれば、Wan 2.2のほうがプロンプト追従性が高く、期待通りの結果が出やすい傾向があります。LTX 2.3は出力の当たり外れが大きいため、ある程度パラメータ調整に慣れてから試すのがよいでしょう。いずれもComfyUIのワークフローが整備されており、導入自体は比較的容易です。

LTX 2.3の「音声付き動画生成」とは？

LTX 2.3は動画と同時に音声（効果音・環境音など）を生成する機能を備えています。従来のAI動画生成モデルは映像のみを出力し、音声は別途追加する必要がありましたが、LTX 2.3では1回の推論で映像と音声が一体的に生成されます。LoRAのスレッドでも、キャラクターの声まで学習できたと報告されています。

「LoRA」とは何か？

LoRA（Low-Rank Adaptation）は、大規模AIモデルを少ないデータと計算資源で追加学習させる手法です。モデル全体を再学習するのではなく、一部のパラメータだけを効率的に調整します。特定のキャラクター・スタイル・動きを学習させることで、ベースモデルにない表現を追加できます。今回のLTX 2.3 LoRAでは、ゲームのカットシーン440クリップから6キャラクターのスタイルを学習しています。

参考リンク

※ この記事の情報は2026年3月17日時点のものです。Redditのアップボート数・コメント数は変動する場合があります。
※ 記事内のRedditコメントの翻訳はAitly編集部によるものです。

LTX 2.3のLoRA品質が「驚異的」と話題｜Reddit 647↑、Wan 2.2との比較動画も白熱

LTX 2.3のLoRA機能が647↑を獲得した理由

Wan 2.2 VS LTX 2.3 ── 比較の条件と結果

Redditの反応：LoRAスレッド

Redditの反応：比較スレッド

LTX 2.3とWan 2.2はどんなモデルか

Aitly編集部の見解

よくある質問

関連記事

RTX 3090×9枚でローカルAIを運用した正直な感想｜「6枚以上は推奨しない」r/LocalLLaMAで173コメント

AI検出ツールがリンカーンのゲティスバーグ演説を「AI製」と判定｜Redditで532↑「検出ツールの限界」

NDTが超知能禁止の国際条約を提唱「AIのその分野は致命的」｜Redditで149コメントの大論争

Alibaba、Qwen・Wanモデルのオープンソース継続を正式表明｜r/LocalLLaMAで277↑「全サイズ公開」