AIの可能性と今現在の限界・戦闘機の動画はできない!

成海瞳の鬱(うつ)日記

 こんばんわ。瞳です。今回は、タイトル画像のAI動画ができない。という問題を書きたいと思います。

 最近、本業の絵の制作は、中途半端でストップ状態。で、今はもっぱらAIばっかりやってるんですが、ブルーインパルス女子部隊と、このトムキャットの動画作成に没頭しているんですけど、過去記事で書いたように、google AI Geminiによれば、戦闘機の飛行、離着陸や、画像細部のロゴやマークの正確な再現というのは、今のAI技術(Veo・動画用)では不可能なのだそうです。

 タイトル画像もAI作成(ナノバナナ・静止画用)なんですけど、静止画で、Photoshopで相当修正しました。背景の生駒山系や、送電塔もほぼ現実世界と一致しています。かなりフォトリアルな画像だと言えます。でも、これの動画がどうしてもできないの。

 場面は、小説の「わたしはトムキャット」のシーンで、航空自衛隊の成海姉妹が特殊任務から大阪八尾空港へ帰還したところなんです。

 ちなみに、大阪八尾空港は、この着陸シーンの滑走路・runway27が一番長くて1,490メートルです。一方、大阪伊丹空港(大阪国際空港)の32L滑走路(B滑走路)の長さ3,000mから比べると半分以下です。それにくらべると、かなり短い滑走路です。

 八尾空港では、機体の重量制限もあり、通常は戦闘機の着陸はできません。よって、かなり無理のある着陸だということで、滑走路の端ギリギリにアプローチ角度もややきつめのハードランディングをするわけです。そのためにタイヤのスモークが多く出ているのですが、これが、離陸に見えてしまう方もおられるようです。

 グラマンF-14Dトムキャットの陸上基地(滑走路)における標準的な着陸距離は、約 2,400 フィート(約 730 メートル)です。空母への着艦とは違い、アスレチックワイヤーにフックを引っかけるとかは無い通常の地上着陸の場合なんですけど、数字だけみれば八尾空港にも着陸することは可能なのですが、実際には燃料残量や装備などの関係上、きわめて際どい着陸となります。

 離陸に見えてしまう原因のもう一つは、戦闘機というものが、機種をやや上げた状態姿勢で降下、着陸するとう特質があるためです。これは、戦闘機には逆噴射が無く、機首上げ態勢で空気抵抗を利用して減速するためです。タッチダウンしたあとも、しばらく機首は上がったままで、揚力(浮き上がる力)が無くなるまで減速したら、前輪が自然に接地するわけです。(ドラッグシュートといって、パラシュートを開く場合もありますが、あれは実質の逆噴射ということになります。)

 戦闘機の着陸動画ができないAI

 このトップ画像のままで、動画に出来たら素晴らしいんですけど、実際何度か試みたのですが、トンチンカンなものばかりになってしまって、たちまちGoogle AI Pro回数制限に達してしまってできません。とにかく、出てくる動画が無茶苦茶で、F14DトムキャットがF35Bライトニング(護衛艦搭載機)みたいに垂直着陸したり、タッチダウンしたら空母着艦みたいにすぐに減速してしまったり(あり得ない。)さらには、まず機体自体が着陸形態になっていない。つまり、スポイラー展開(空気抵抗のための羽根)していない。フルフラップになっていない。など。

 さらには、機体の形状、ディテール、カラーリングやマーキングが潰れてしまっている。

 そして、景色が出鱈目に変化する。八尾から突然山奥の基地に変わったり。

 こんなのばっかり。

 で、Google AI Geminiに相談しましたら、以下の回答がきました。

『そのお悩み、非常によく分かります。特に「F-14D(スーパートムキャット)」のような、特定の型式にこだわりがある場合、生成AIを用いた動画作成(Runway Gen-2/Gen-3, Sora, Stable Video Diffusion, Luma Dream Machineなど)を行っている際に、その現象が顕著に現れるはずです。
F-14特有の可変翼の形状、D型特有のエンジンノズル(GE-F110)、機首下のチンポッド、そして国籍マーク(スター・アンド・バー)が、時間の経過とともに「ぬるっ」と溶けたり、架空の戦闘機のような形状に変形してしまう現象ですね。
この現象の原因と、現在の技術で可能な防止策・解決策を具体的に解説します。


防止策と解決策
「完全な解決」は現在のAI技術(2024-2025年水準)では非常に難しいですが、以下の方法で精度を劇的に上げることは可能です。

原因:なぜ勝手に変形・アレンジされるのか
この現象は、AI動画生成において「ハルシネーション(幻覚)」や「時間的一貫性(Temporal Consistency)の欠如」と呼ばれます。
• AIは「構造」を理解していない: AIはF-14Dの設計図を持っているわけではありません。「戦闘機っぽい画像の連続」を確率的に生成しているだけです。そのため、フレームが進むごとに「前の絵」と「次の絵」の辻褄合わせに失敗し、形状が崩れます。
• 学習データの混濁: F-14にはA型、B型、D型があり、さらにF-15やF-18などの学習データも混ざっています。AIが「これはF-14Dだ」と厳密に区別できず、他の機体の特徴が混ざったり(キメラ化)、国籍マークが「星のような何か」に簡略化されたりします。
• テキスト/マークの苦手さ: AIは幾何学的に正確なマーク(星や文字)を維持するのが最も苦手です。』

 ということです。この現象は、ブルーインパルス女子部隊のコスチュームで階級章、エンブレム等でもPhotoshop修正で散々苦労しました。

 で解決策なんですが、

『A. 【中級者向け】Image-to-Video(画像から動画化)の徹底
プロンプト(文字)だけで「F-14Dが飛んでいる」と指示していませんか? これでは細部が崩れます。

仕上げ: 崩れた国籍マークや細部は、動画編集ソフトで上から貼り直すか、修正する。

完璧な「親画像」を用意する:
まず、MidjourneyやStable Diffusion、あるいは模型の写真や3Dモデルのレンダリング画像でも構いません。「形状、塗装、マーキングが完璧なF-14Dの1枚絵」を用意します。

Image-to-Videoで動かす:
RunwayやLumaなどのツールで、その画像を「最初のフレーム」として指定し、動画化します。
o Motion Bucket (動きの量)を下げる: 動きを大きくすると変形リスクが高まります。動きを小さく(低数値)設定し、カメラワークだけで動いているように見せるのがコツです。

B. 【上級者向け】3Dモデル × AI(あるいは3Dのみ)
「絶対に形状を変えたくない」場合の最適解です。

◎3Dモデルをベースにする:
BlenderやUnreal Engine、あるいはDCS World(フライトシミュレーター)などで、F-14Dの正確な動きを録画します。

Video-to-Video (Vid2Vid) で質感を変える:
その3D映像をAIに読み込ませ、「実写風にして」と指示します。この時、Denoising Strength(変化させる強度)を低く設定します。
o これにより、「形は3Dモデルの正確さを維持」しつつ、「質感だけリアルにする」ことができます。
C. 【編集テクニック】マーキングは「後乗せ」する
これがプロの現場でもよく使われる、最も確実な「防止策」です。

AIには「マークなし」で作らせる:
塗装やマーキングが崩れるのが嫌なら、最初から無地のグレーの機体として動画を作ります。

動画編集ソフトで合成する:
After EffectsやDaVinci Resolveを使い、モーショントラッキング機能で機体の動きに合わせて、後から「正確な国籍マーク」や「部隊マーク(ジョリーロジャース等)」を貼り付けます。
o これなら、どんなに機体が動いてもマークは変形しません。
まとめ:おすすめのワークフロー
質問者様のこだわり(F-14Dの正確なディテール)を実現するには、「AIに全部描かせない」のがポイントです。

ベース素材: 正確なF-14Dの画像(または3D映像)を用意。』

 ということで、まとめとしては、

[まとめ:おすすめのワークフロー]
質問者様のこだわり(F-14Dの正確なディテール)を実現するには、「AIに全部描かせない」のがポイントです。

  1. ベース素材: 正確なF-14Dの画像(または3D映像)を用意する。
  2. 動画化: AI(Image-to-Video)で、動きを抑えめに生成する。
  3. 仕上げ: 崩れた国籍マークや細部は、動画編集ソフトで上から貼り直すか、修正する。

 ということです。長くなりましたが、まあ、これらは、動画編集ソフト以外はすでに実行していたことなんですけど、それでも駄目だったんですね。マーキングなどの後付け修正とか、フライトシミュレーターで、元動画を造るとかいうのは、わたしがすでにやっていたことは正解だったということですね。

 で、Geminiと相談しながら、動画からAI動画作成してみました。以下の8秒間です。

  

 これは、かなりよくできているんです。Veoではありません。プロンプトをGeminiが指示してくれまして、Veoではない初期の動画作成用AIでやれとのことでした。機体形状、ディテール、マーキングもOK。しかも、フルフラップ、スポイラーもちゃんと立てていて、トムキャットの着陸形態。いわゆるグースモード(ガチョウスタイルという意味で、パイロットたちの自虐的ギャグ・「トップガン」のグースとは別の意味。)

 だと思ったら、2枚の垂直尾翼の間にあるスポイラーが最初の数コマだけで消滅してるし、主翼上のスポイラーが立っていない。AIってこういうのが多い。これだと、ファイナルアプローチから急遽、ゴーアラウンド(着陸中止・復航)宣言状態ということになっちゃいますね。まあ、それならあり、ともいえるかな。

 でも、たった8秒じゃファイナルアプローチの最後の部分ちょっとだけになるのはしょうがないね。

 ただし、Veoみたいに実写映像のようにはいきませんね。シミュレーターの再生画像と同じくらいかな。

 今日は、長いオタク話でした。

 フルモードの建物すれすれアプローチからフロントタイヤが接地するまでの20秒動画を今作成しています。AI使わないシミュレーターの動画なんですけど、サイズと画質の兼ね合い調整で苦労しています。そのうちアップします。ジェット戦闘機がタッチダウンしてからもしばらく機首上げ状態なのがよく分かります。

このページの先頭へ