Veo 3 画像から動画の実践：Reference Image で動画を精密に制御する

Easton editorial illustration: input-process-output transport line

テキストだけで動画を作るとき、いちばんつらいのは画質ではなく「当たり外れ」です。「優しく微笑む若い女性」と書いても、AI の解釈は毎回違います。同じプロンプトを 10 回回して、意図どおりが 1 本出るかどうか——キャラを揃えたいシリーズや製品デモでは、表情・角度・動きの大きさまで運任せになりがちです。

Veo 3 の画像ガイドは、そこを締めます。参考画像を 1 枚渡せば、見た目・シーンのトーン・カメラの起点が決まり、試行は 50 回超から 5 回以内に圧縮できます。

本記事では、3 モード（最初のフレーム／最初と最後のフレーム／Reference Image）、プロンプトの書き方、実践フローまでまとめます。

なぜテキストだけだと制御が難しいのか

根っこは、言葉の曖昧さにあります。

「海辺をゆっくり歩く少女」と書いたとき、AI は何を補完するでしょうか。「ゆっくり」は秒速 0.5 m か 1 m か。「歩く」はのんびり散歩か、物思いにふけった歩きか。「海辺」は岩場か砂浜か遊歩道か。同じ文でも、人によってイメージは百通りあります。

AI も訓練データの型で穴を埋めます。たいてい、あなたの頭の中とは違う方向に埋まります。

印象に残っているのは「振り向いて微笑む」1 カットです。簡単に見えたのに、十数バージョン——保険営業マンの笑顔、転びそうなほど大きい回転、180 度回って背中向き。どれもプロンプトには「合致」しているのに、脳内の 1 コマとは一致しませんでした。

これが 1 つ目の落とし穴、自然言語の曖昧さです。言ったつもりでも、どこもぼやけています。

2 つ目は AI の「創作補完」が読めないこと。

書いていない要素を足します。「カフェに座る人」で、謎の通行人や窓外の変な物体。手は 6 本指、腕はありえない角度。表情は瞬きで眼窩まで歪むことも。しかも 部分修正はできない。画像の inpainting のように直せず、動画は全部受け入れるか、捨ててやり直しです。

クリエイターが使える本数まで試す平均は 10〜50 回と言われます。1 回 1 分待つだけで 10〜50 分。プロンプト調整を足せば、8 秒 1 本に 1〜2 時間も珍しくありません。

創作というより、くじ引きに近い。

画像ガイドは、ここで制御権を取り戻します。

Veo 3 の 3 つの画像ガイドモード

用途ごとに 3 種類。順に見ていきます。

モード 1：最初のフレーム（First Frame to Video）

画像 1 枚を第 1 フレームにし、プロンプトでその後の動きを生成します。

私がよく使うのは 静止画イラストを動かす場面です。

昨年、クライアントのブランド動画で、デザイナーが描いたカフェのカートゥーンイラスト——暖色、細部まで丁寧——を「動かしてほしい」と言われました。昔はアニメーター手描き（高い）か諦めるかの二択でした。

今はその 1 枚を First Frame に載せ、プロンプトに「カメラがゆっくり寄り、窓の葉が揺れ、コーヒーに湯気」と書くだけ。8 秒、一発。 カートゥーンの質感はそのまま。ぎこちない補間ではなく、原画が動いたような仕上がりでした。

価値は 原画の画風を保ったままアニメ化できること。水彩・油絵・フラット・写真でも、スタイルを崩しにくい。ブランドビジュアルがあるチームには効きます。

コツ：

1080p 以上のシャープな画像。ボケた元からはボケた動画しか出ない
プロンプトは「カフェがある」ではなく「葉が揺れる、カメラが寄る」など動きを書く
動きが大きすぎ／小さすぎなら subtle movement や dynamic motion を足す

モード 2：最初と最後のフレーム（First & Last Frame to Video）

開始と終了の 2 枚を渡し、AI が中間をつなぎます。

一見シンプルですが、 カメラワーク では強力です。正面から背面まで 180 度回り込みたいとき、昔は長い英語指示を書いても AI が迷いがちでした。今は正面・背面の 2 枚をレンダリングし、First & Last に入れ、smooth 180-degree arc shot と書けば足ります。

もっと攻めるなら モーフィング。最初は実写、最後は同人物のカートゥーン——徐々に「トゥーン化」する遷移が驚くほど滑らかでした。

ロゴ A→ロゴ B のブランドモーションも同じ要領。中間のモーション外注が不要になるケースもあります。

コツ：

2 枚は解像度・画風を揃えると継ぎ目が自然
昼夜のような差が大きいときは 8 秒にして AI に余白を
「何から何へ、どう動くか」を書く。例：The camera performs a smooth dolly-in, gradually revealing more details

モード 3：Reference Image（見た目の一貫性）

こちらが個人的なお気に入りです。

最初の 2 モードは「この 1 本の始まり／終わり」、Reference Image は 人物・製品がショット全体でどう見えるか を固定します。

参考画像は最大 3 枚、別角度の同一主体。プロンプトで海辺・カフェ・宇宙船と場面を変えても、外見は揃いやすくなります。

シリーズのブランドマスコットなら必須級です。10 話、場面だけ変える——昔は毎回別キャラでシリーズ化不能。今は正面・側面・45 度の 3 枚を固定し、10 シーン生成しても配色・比率が揃います。

製品デモでは Bluetooth スピーカーを 3 角度で渡し、リビング・屋外・オフィス・ジム・キッチンの 5 本を作りました。どの本でも筐体の細部が一致。クライアントは「実写の半分の予算で OK」と即決でした。

コツ：

正面・側面・3/4 の 3 枚が無難
背景はシンプルに。余計な物に引っ張られない
色が drift したら、いちばんボケた 1 枚を差し替え
光は統一——屋外の強日と室内灯を混ぜると AI が迷う

3 モードは排他ではありません。Reference Image で見た目を固定し、First & Last でカメラを制御——組み合わせると制御性 90% 超も現実的です。

実践：画像から動画までのフロー

理論はここまで。ゼロから 1 本出す手順です。

ステップ 1：プラットフォーム

Veo 3 のフル機能は主に Google Flow。Gemini アプリは簡易版で、基本の First Frame 程度です。First & Last や Reference Image は Flow が必要です。

Flow にログインし、prompt builder で Frames to Video を選び、品質は Highest Quality に。古いモデルのままだと差が出ます。

地域制限で Flow に入れない場合でも、考え方は Runway・Kling などに通じます——「画像で生成をガイドする」点は同じです。

ステップ 2：画像素材

ここを軽くすると全体が崩れます。

解像度：最低 1080p、できれば 2K
構図：主体は中央寄り。端すぎるとトリミングされる
シャープさ：ノイズ多めは避ける
複数枚なら：光と色調を揃える

失敗談：720p を適当に拾ったら粒状感だらけ。2K に差し替えたら一気に 2 段階上がりました。

JPG / PNG どちらでも可。私は JPG でアップロードが速いです。

ステップ 3：プロンプト（要所）

画像ありのプロンプトは、テキストのみとは書き方が違います。

画像にあることは書かず、見せたい動きを書く。

悪い例：

画像：海辺の少女
Prompt: A girl standing by the sea（すでに写っている）

良い例：

画像：海辺の少女
Prompt: She turns towards the camera with a gentle smile, her hair flowing in the ocean breeze, golden hour backlight
（カメラへ振り向き、優しく微笑み、潮風で髪がなびく。ゴールデンアワーの逆光）

画像が「何か」、プロンプトが「どう動くか」を担当します。

3 要素：

カメラと動き（Camera & Motion）
handheld close-up、slow dolly-in、steady tracking left、locked-off（カメラ固定で主体だけ動かす）
光と時間（Lighting & Time）
golden hour backlight、soft diffused light、noir hard shadows
動作（Action & Behavior）
「微笑む」より「暖かく微笑み、目尻に笑み」。「歩く」より「ゆっくり前へ、足取り軽く、時々足元を見る」

First & Last のときは構造を変えます：

The camera performs a smooth 180-degree arc shot, starting from the frontal view of the character and gradually circling around to end at the back view, maintaining consistent height and speed throughout the movement.

「どこからどこへ、どうつなぐか」を明示することが重要です。

ステップ 4：パラメータ

長さ：まず 8 秒。4 秒は短く、6 秒は中途半端になりがち
解像度：基本 1080p。720p は速いが質は落ちる
生成数：2〜4 バリアントを一度に。1 本だけは選択肢が少ない
Seed：再現したいときは 0〜4294967295 の固定値。未設定は毎回ランダム

モデル：

Veo 3.1 Fast：速い。テキスト生成と First & Last。Reference Image 非対応
Veo 3.1 完全版：全機能・最高品質。やや遅い

私は方向決めは Fast、最終は完全版、という使い分けです。

ステップ 5：生成とトラブル対応

生成を押して 30〜90 秒。コーヒーを淹れる余裕はあります（冗談ではなく、毎回そうしています）。

9 割は「悪くないが微調整したい」です。よくあるパターン：

1. 主体が drift／変形
顔が変わる、製品色がずれる → 参考画像が粗い／枚数不足。ボケた 1 枚を差し替え、3 枚目の角度を足す

2. 動きが違和感
速すぎ／遅すぎ／方向違い → プロンプトに slow and steady、quick but smooth など具体語を

3. 画風が原画から離れる
カートゥーンなのに写実寄り → 末尾に maintaining the watercolor painting style のようにスタイル固定を明記

4. 首尾の継ぎが硬い
ジャンプ感 → 8 秒に延ばす、または首尾を近づける

2〜3 回の調整でも、テキストのみの 50 回よりマシです。何を直すかが見えるのが画像ガイドの強みです。

上級テクニック

複数クリップの接続

8 秒では足りないときは、 前の最終フレームを次の First Frame にする。スクリーンショットを切り出してアップすれば、継ぎ目のジャンプが減ります。

Reference Image と併用すると、見た目を固定したままクリップごとにカメラ遷移を変えられます。

事例：歌手パフォーマンス 5 クリップ（観客・横・後ろ・アップ・全景）。各段は First & Last でカメラ、歌手は 3 枚の参考で統一。編集でつなげるとワンカット風——実際は 5 回生成です。

スタイル転写

別スタイルへの変換にも使えます。実写を First Frame にし、プロンプトに anime style, cel-shaded, vibrant colors——実写からアニメへ溶ける遷移。オープニングやアート系に向きます。

逆にアニメ→実写風も可能です。素材がバラバラ（写真・イラスト・3D）でも、同じスタイル語で Veo 3 に渡せば出力のトーンを揃えられます。

ワークフロー全体

画像→動画はパイプラインの一段です。

前期：Midjourney / DALL-E でキーフレーム（10〜20 分で構図・画風を固める）
中期：Veo 3 で動画化（モード選択、通常 2〜5 回で収束）
後期：Premiere / Final Cut / CapCut でつなぎ、色とトランジションを統一
音声：Suno / Udio（BGM）、ElevenLabs / Azure TTS（ナレ）、効果音ライブラリ

この流れなら、1〜2 分のショートを 2〜3 時間で仕上げられます。一年前なら外注数万円か、撮影〜編集で 1 週間が普通でした。

ビジネスでの使い道

製品展示：写真からシーン別使用動画。8 秒 1 本を単価課金、1 日 5〜10 本も現実的。

マスコットシリーズ：Reference Image で外見固定、10〜20 話をプロジェクト単価。

SNS マトリックス：平面デザイン・ポスターを動画化。動画のエンゲージは画像の 3〜5 倍と言われ、予算がつきやすい。

教育：イラストを動かして歴史・科学・手順を説明。機関や知識系クリエイター向けの需要も大きい。

周りに中小ブランド専門の知人がいますが、納期とコストが読めるようになってから案件が 2 倍になった、と言っていました。

技術だけでは足りません。クライアントが欲しいのは「Veo 3 で作ること」ではなく、マーケや発信の課題解決です。ニーズを理解し、ビジュアル案を出す——ツールは手段です。

コスト比較：画像ガイド vs テキストのみ

時間

テキストのみ：

試行 10〜50 回、待ち 30〜120 秒／回
待ちだけで 5〜100 分＋プロンプト調整
午後に使えるのが 1〜2 本、も珍しくない

画像ガイド：

試行 2〜5 回
待ち 1〜10 分＋画像準備
午後に 5〜8 本、も現実的

時間：80〜90% 短縮。ビジュアル要件がはっきりした案件ほど差が出ます。

クレジット／API

1 生成＝1 単位とすると：

テキストのみ：10〜50 単位
画像ガイド：2〜5 単位

コストも 80〜90% 程度の節約。従量 API なら月単位で効きます。

安定性

テキストのみはくじ引きに近く、方向予測が難しい。自由な発想探索には向きます。

画像ガイドは下限が見え、商業案件やブランド公開向きです。「50 回試したが出ません」はクライアントに通りにくい、という話も現実です。

資産の再利用

過去のイラスト・製品写真・3D が、動画に二度目の命をもらえます。ブログの図版を一括でショート化し、コンテンツ量を一気に増やした例もあります。

まとめると、動画制作に関わるなら 効率 3〜5 倍、コスト 80% 超削減 は、私と周囲の同業者の体感としても妥当なレンジです。

80-90%

時間節約

画像ガイド vs テキストのみ

80-90%

コスト節約

算力・クレジット比較

3-5倍

効率向上

動画制作全体

50→5回

試行回数

テキストのみから画像ガイドへ

Source: 実測データ

まとめ

一言でいうと、 画像ガイドは AI 動画を「ガチャ」から設計可能な工程へ変える ということです。

テキストのみも、明確なビジュアルがない探索には有効です。欲しい画がわかっている、素材がある——そのときは画像ガイドの効率と品質が勝ちやすい。

3 モードの役割：

最初のフレーム：静止画を動かし、画風を守る
最初と最後のフレーム：カメラと遷移を設計する
Reference Image：シリーズで人物・製品を揃える

プロンプトとパラメータを合わせれば、「ガチャ」は 50 回から 5 回以内へ。

まずは First Frame から。お気に入りの 1 枚を Veo 3（または Runway・Kling）に載せ、短い動きの指示を書いてみてください。合わなければプロンプトか画像を変える。2〜3 回で感覚がつかめます。

一度「想定どおり出た」体験をすると、テキストのみには戻りにくいはずです。

最後に：ここでの考え方は Veo 3 限定ではありません。Runway、Kling、Pika も同じく、画像で AI に境界を渡し、曖昧さを減らす——今すぐ使えなくても、手元の良い画像を 1 枚動かすところから試せます。

FAQ

Veo 3 の 3 つの画像ガイドモードの違いは？

最初のフレーム：
• 画像を動画の第 1 フレームにする
• 原画の画風を維持

最初と最後のフレーム：
• 2 枚で始まりと終わりを指定
• AI が中間を補間
• カメラワーク向き

Reference Image：
• 参考画像を最大 3 枚
• シリーズ動画で人物・製品の見た目を揃える

画像から動画はテキストのみよりどれくらい時間が浮く？

時間：
• 平均試行が 10〜50 回から 2〜5 回へ
• 80〜90% 短縮

体感：
• テキストのみだと午後に使える本数は 1〜2 本
• 画像ガイドなら 5〜8 本

キャラの一貫性はどう保つ？

Reference Image モードを使う：

1) 正面・側面・3/4 など、主体を別角度から 3 枚アップ

2) 背景はシンプル、光は揃える

3) シリーズ全編で同じ参考セットを使えば、見た目のブレを抑えられる

プロンプトで気をつけることは？

原則：画像にすでにあるものは書かず、見せたい「動き」を書く。

3 要素：
1) カメラと動き（例：slow dolly-in）
2) 光と時間（例：golden hour backlight）
3) 動作（具体に。曖昧語は避ける）

8 秒クリップを長尺につなぐには？

手順：
1) 前の動画の最終フレームを、次の最初のフレームにする
2) Reference Image で外見を固定
3) 1 本目の最後を切り出し、2 本目の最初にアップ
4) 繰り返す
5) 編集ソフトで色調とトランジションを揃える

画質はどう効く？

画質はそのまま動画品質に直結。

推奨：
• 1080p 以上（2K なお良し）
• 主体は中央寄り
• ノイズ少なくシャープに

参考画像が複数なら光・色調を統一。

720p のボケ画像は、粒状感とディテール欠けが出やすい

7分で読めます · 公開日: 2025年12月7日 · 更新日: 2026年7月14日

Easton

AI・インテリジェンス

Veo 3 画像から動画の実践：Reference Image で動画を精密に制御する

なぜテキストだけだと制御が難しいのか