AI動画です。今回も ComfyUI で Flux.1 dev で生成した画像を LUMA で動画変換してPremior Proで繋いでみました。BGMなしです。
ノープランでFlux.1で色々生成してたら、とりあえずちょっと動かそうかなって思ってしまって、LUMAで動画変換。
私の環境では ComfyUI + Flux.1 dev で 1920 x 1080 の複数枚生成はメモリーが足らずにエラーが出てしまうので、デフォの 1024 x 1024 でひとまず作業進めてしまいました。一通り使用画像のベースもそろいましたので、後日 1920 x 1080 で作り直すと思います。
それまでには楽曲もどうにかしようと思います。
なので今回はプロトタイプということで。

まばたきさせたり、口パクさせたかったんですけどLUMAでプロンプト反映されないんですよねぇ。他の方のブログ見ると出来ましたよとかあるんだけど何なんでしょうね。
冒頭のシーンは「驚く」というワードを入れてるんですけど、そのワードで口が開いてる動作が確認できます。
なので image2video だから出来ないということではないと思うんですけど…

instagramはアーティストさんの楽曲をBGMにあててます。

使用画像枚数は6枚

masterpiece, best quality, highres, intricate, ((photorealistic:1)) random pose, cowboy shot. upper body, Cyberpunk, She is mechanized from the neck to the spinal cord. mecha, sharp shapes. Timeless beauty. Perfect face and clear skin. 13yo, child body shape, lime green hair. long straight hair. Blunt Bangs. She is wearing a floral patterned dress.

Comfy UI + Flux.1 dev ですが、アニメ調のイラストで描きだされることが多く感じます。なので今回は ((photorealistic:1)) と強めに宣言を入れてみました。重みづけと「(」がないとほとんどイラストという結果が続きました。
これも何か Flux.1 特有のお作法があるんでしょうか?

LUMAのEnhance promptが悩ましい…

LUMA movie list

せっかくサブスク契約でストレスフリーになったのに、Enhance prompt の効く効かないが生成しないと判断つかないのに悩みはじめました。
1枚当たりの生成にコスト発生するのでなるべく無駄な生成はしたくない。
2秒でも、1秒でも切り出せるとこあれば、それで良しとすると覚悟はしています。
日本語入力も試しましたがイメージとは違う生成結果でした。
text2video の方が Enhance prompt 効きやすいのかな?
でもそれでは私の制作スタイルに合わないんですよね…
プレビュー機能は欲しいところです。

text2video はよく喋る

image2video でもプロンプトに A scene of talking. Lip Sync. と指示すると口パクいけるって紹介されてたブログ記事があったので参考にさせていただいたのですが、今回使用した生成画像では動きがごく微量で会話シーンでは使えないものでした。
で、試しに text からの生成でプロンプト内に A scene of talking. Lip Sync. と指示してみました。

Cyberpunk, She is mechanized from the neck to the spinal cord. mecha, sharp shapes. Timeless beauty. Perfect face and clear skin. lime green hair. long straight hair. Blunt Bangs. She is wearing a floral patterned dress. A scene of talking. Lip Sync.

その結果がこちら。

なんかイメージとかけ離れたおばさんが、5秒フルに喋りきっております…
えー、何で image2video で口パク出来なくなったんですかね。
他の生成画像や、より実写っぽい生成画像で試しても、ニッコリ笑ってごまかされるだけで、口はピクリとも動きませんでした。
当面はこの辺調べるのが課題になりそうです。