最新の口パクと表情シンクロを堪能

前回投稿の「ずんだもん歌ってみた」ですが、如何でしょうか?

もしまだ見ていない方はこちらからどうぞ。

最新技術のVoicevox_Songの歌声を堪能できると思います。

こちらの映像の口パクは「LMM4Lite」を利用していますが、歌声に口パクがマッチしない。

 

そこで「手間は幾ら掛かっても」無料で利用できるソフトを探してみました。

何とか見つかりましたので、今回は「Stable Diffusion Web UI&Sadtalker」ご紹介いたします。

まずは論より証拠、ご覧ください。

*face model resolution 256

圧倒的、すごい技術ですね。

 

映像制作のポイント:

AI画像生成に:MicrosoftのImageCreater

映像編集に:Stable Diffusion Web UI&Sadtalker

音声に:VoiceVox_songの春日部つむぎ

を利用しました。

 

口パクと表情を画像に加えるソフトは有料のものがほとんどです。

その中で、高機能と無料を両立するのは「Stable Diffusion Web UI&Sadtalker」だけだと思います。

インストールもかなり複雑で、エラーが起こる状況報告もネット散見できます。

 

私もかなりいろいろパッチを当てて、何とか運用可能な状態になりました。

正直、どの方法がベストの導入方法か分かりませんので、導入方法については割愛します。

 

Sadtalker用としてAI映像生成専用端末を用意、グラボもGTX1060・6GBを利用しています。

私見では、ビデオメモリが最低6GB欲しいですね。

そしてこれが最低レベル、この短い映像をデリバーするまでに「約1時間!」掛かっています。

しかしながら、専用別端末で生成していますので、そのまま放置しておけば良いだけです。

 

制作の流れ的には:

1,VoiceVox_songの春日部つむぎに音程と歌詞を付帯する。

無料のMIDIファイルをダウンロードして、その音程に歌詞を書き加えます。

視聴後、ここで音声ファイルとして出力。

 

2,MicrosoftのImageCreaterで素敵な女性のAI画像を生成します。

 

3,Stable Diffusion Web UI&Sadtalkerを利用して、表情と口パクを自動で付帯する。

(1)のWAVファイルと(2)のPNGファイルを加えて、いざ映像生成開始。

ここからが本当に長いので、放置可能な生成専用端末を用意しています。

別のメイン端末があれば、そちらで作業ができますね。

数時間後に出力されたMP4を、Youtubeにデリバーします。

 

終わりに:

無料でここまでできるソフトウェア、凄いの一言です。

導入の難易度がかなり高いこと、そして性能の高いグラボを要求されること、加えて生成までに必要な時間が長いこと。

長い時間の映像には不向きですが、ショート動画に「Sadtalker」を積極的に活用していきたいと思います。

何より、表情とスムーズな口パクが魅力です。

Twitterフォローお願いします‼