最新の口パクと表情シンクロを堪能
前回投稿の「ずんだもん歌ってみた」ですが、如何でしょうか?
もしまだ見ていない方はこちらからどうぞ。
最新技術のVoicevox_Songの歌声を堪能できると思います。
こちらの映像の口パクは「LMM4Lite」を利用していますが、歌声に口パクがマッチしない。
そこで「手間は幾ら掛かっても」無料で利用できるソフトを探してみました。
何とか見つかりましたので、今回は「Stable Diffusion Web UI&Sadtalker」ご紹介いたします。
まずは論より証拠、ご覧ください。
*face model resolution 256
圧倒的、すごい技術ですね。
映像制作のポイント:
AI画像生成に:MicrosoftのImageCreater
映像編集に:Stable Diffusion Web UI&Sadtalker
音声に:VoiceVox_songの春日部つむぎ
を利用しました。
口パクと表情を画像に加えるソフトは有料のものがほとんどです。
その中で、高機能と無料を両立するのは「Stable Diffusion Web UI&Sadtalker」だけだと思います。
インストールもかなり複雑で、エラーが起こる状況報告もネット散見できます。
私もかなりいろいろパッチを当てて、何とか運用可能な状態になりました。
正直、どの方法がベストの導入方法か分かりませんので、導入方法については割愛します。
Sadtalker用としてAI映像生成専用端末を用意、グラボもGTX1060・6GBを利用しています。
私見では、ビデオメモリが最低6GB欲しいですね。
そしてこれが最低レベル、この短い映像をデリバーするまでに「約1時間!」掛かっています。
しかしながら、専用別端末で生成していますので、そのまま放置しておけば良いだけです。
制作の流れ的には:
1,VoiceVox_songの春日部つむぎに音程と歌詞を付帯する。
無料のMIDIファイルをダウンロードして、その音程に歌詞を書き加えます。
視聴後、ここで音声ファイルとして出力。
2,MicrosoftのImageCreaterで素敵な女性のAI画像を生成します。
3,Stable Diffusion Web UI&Sadtalkerを利用して、表情と口パクを自動で付帯する。
(1)のWAVファイルと(2)のPNGファイルを加えて、いざ映像生成開始。
ここからが本当に長いので、放置可能な生成専用端末を用意しています。
別のメイン端末があれば、そちらで作業ができますね。
数時間後に出力されたMP4を、Youtubeにデリバーします。
終わりに:
無料でここまでできるソフトウェア、凄いの一言です。
導入の難易度がかなり高いこと、そして性能の高いグラボを要求されること、加えて生成までに必要な時間が長いこと。
長い時間の映像には不向きですが、ショート動画に「Sadtalker」を積極的に活用していきたいと思います。
何より、表情とスムーズな口パクが魅力です。