Veo 3カメラワーク制御:AI動画を映画品質にする7つのカメラ言語

はじめに
先週、Veo 3を使ってクライアント向けの商品動画を作成しました。プロンプトには被写体、環境、照明について詳しく記述しましたが、生成された結果は……ただ静止しているだけで、まるでPowerPointのスライドのようでした。他のクリエイターが投稿している作品と比較すると、カメラのズームイン、追跡、周回など、その「映画感」には雲泥の差がありました。
当時は不思議に思いました。みんな同じツールを使っているのに、なぜこれほどの差が出るのか? 多くのチュートリアルを読み漁ってようやく気づきました。秘密はプロンプトの中にある、いくつかのカメラ制御用語に隠されていたのです。Dolly Shot、Tracking Shot、Crane Shot……これらの専門用語こそが、AI動画と「大作感」を隔てる扉だったのです。
正直なところ、私も最初はこれらの英語の専門用語を見て戸惑いました。しかし、何十回も試行錯誤した結果、最もよく使われる7種類のカメラワークをマスターし、いくつかのプロンプト作成テクニックを組み合わせるだけで、AI動画のレベルを一気に引き上げられることがわかりました。
この記事では、これら7つのカメラ言語を最もわかりやすく解説します。それぞれにそのまま使えるプロンプトテンプレートと、避けるべき落とし穴ガイドも付けています。私が踏んだ地雷を、皆さんが踏まないようにするためです。
なぜあなたのAI動画には「映画感」が足りないのか?
AIはデフォルトで「安全なショット」を生成する
AIが生成した動画の多くは、画質は高いのに、何かが足りないと感じたことはありませんか? 問題は画質ではなく、カメラが全く動かないことにあります。
プロンプトでカメラの動きを明確に要求しない限り、Veo 3はデフォルトで最も無難な静止ショットか、単純な左右パン(横移動)を生成します。タクシー運転手に行き先を告げなければ、その場で待機するしかないのと同じで、AIもあなたがどんなカメラ効果を求めているのかわからず、最も保守的なオプションを提供するしかないのです。
Googleの公式ガイドにもこうあります。“If you want the camera to move, you need to say so clearly in your prompt.”(カメラを動かしたいなら、はっきりそう言う必要がある)。簡単なことのように聞こえますが、多くの人がここでつまずいています。
映画感の3つの核心要素
プロの映画監督が映画を撮る際、頼りにするのは3つの要素です:カメラワーク + 構図 + 光と影。これはAI動画でも同じです。
カメラワークは最も効果が出やすい要素です。ハリウッド大作を見てみてください。オープニングで遠くからゆっくりとズームインし、主人公の顔に焦点を合わせる——これが Dolly-in(ドリーイン)です。カーチェイスでカメラが主人公を追いかける——それが Tracking Shot(トラッキングショット)です。これらのカメラ言語はすべて、感情や物語のリズムを伝えています。
AI映画クリエイターの「JimHuiHui」氏が共有していたデータによると、AIが生成する単一の動画素材の長さは通常3〜5秒で、不具合を除いた有効な長さはわずか1〜2秒です。この短い時間の中で、カメラワークはさらに重要になります。静止画はこの貴重な数秒を無駄にしてしまいますが、設計されたカメラワークは一瞬で雰囲気を盛り上げることができます。
「カメラを前に」と書いたのに、なぜAIは実行しないのか?
私も最初は同じ問題に直面しました。プロンプトに “camera moves forward”(カメラは前進する)と書いているのに、生成された動画には動きがほとんどありませんでした。
後に、問題はプロンプトの表現方法にあることがわかりました。カメラの動きと被写体の動作を一つの文に混ぜてしまうと、AIは優先順位を混同してしまうことがよくあります。
例えば、次のように書いた場合:
❌ “一人の男性が走っていて、カメラが前に進む”
AIはこう理解するかもしれません:重要なのは男性が走っていることで、カメラの動きは適当でいい。
しかし、次のように書けば:
✅ “Slow dolly-in shot. 一人の男性が走っている。”
カメラワークを独立した文として先頭に置くことで、AIは理解します:ああ、あなたが求めているのはドリーショットで、被写体は走っている男性なんだな、と。効果はこれだけで全然違ってきます。
マスターすべき7つのカメラワーク(プロンプトテンプレート付き)
さて、本題に入りましょう。これら7つのカメラワークを難易度の低い順に紹介します。まずは最初の3つから練習することをお勧めします。
1. Dolly-in / Dolly-out(ドリーイン/ドリーアウト)
動き方:カメラがレール上を滑らかに前後移動します。
いつ使うか:
- Dolly-in(推進):詳細に焦点を合わせ、緊張感を生み出す。例えば、探偵が重要な手がかりを突然発見し、カメラがゆっくりと彼の目に迫る時など。
- Dolly-out(後退):全貌を明らかにし、感情を解放する。主人公が山頂に立ち、カメラが引いて壮大な風景全体を映し出す時など。
プロンプトテンプレート:
Slow dolly-in shot, focusing on [被写体], background gradually blurs, creating intimacy. Cinematic, golden hour light.実例(そのまま使用可能):
Slow dolly-in shot, focusing on a scientist staring at a glowing test tube, background gradually blurs, mysterious green light illuminates his face. Cinematic, dramatic lighting.私の経験:ドリーショットは最も効果が出やすく、成功率も高いです。“slow”(ゆっくり)という単語を忘れずに付けてください。そうしないと、AIが猛スピードで突っ込んできて、びっくりさせられることがあります。
2. Tracking Shot(トラッキングショット)
動き方:動く被写体に追従してカメラが移動します。透明人間のカメラマンがずっと付いていくような感じです。
いつ使うか:アクションシーン、動きのあるショット、没入感が必要な時。ランニング、サイクリング、ウォーキングなど、被写体が動いていれば、トラッキングショットで追いかけることができます。
プロンプトテンプレート:
Smooth tracking shot following [被写体] as they [動作], [環境の詳細]. Cinematic, steady cam effect.実例:
Smooth tracking shot following a cyclist speeding down a mountain trail, dust flying, trees rushing past in the background. Cinematic, motion blur, afternoon light.DollyとTrackingの違い(多くの人が混同します):
- Dolly Shot:主に前後の押し引き(深度の変化)
- Tracking Shot:被写体に付いていく(方向は問わない)
記憶のコツ:Dolly = 押し引き、Track = 追跡。
3. Crane Shot(クレーンショット)
動き方:カメラがエレベーターのように垂直に昇降します。
いつ使うか:壮大なシーンを見せる、空間関係を明らかにする。オープニングの状況設定ショット(establishing shot)として特に有効です。
プロンプトテンプレート:
Crane shot rising from [起点] revealing [目的地/全景]. Epic, cinematic.実例:
Crane shot rising from a close-up of a woman's face, revealing a vast futuristic cityscape at sunset. Epic, sci-fi, golden hour.4. Aerial View(エアリアルビュー/空撮)
動き方:鳥瞰視点、上空から見下ろします。
いつ使うか:神の視点が必要な時。森、都市、海など、すべての壮大なシーンに適しています。
プロンプトテンプレート:
Aerial view of [シーン], camera slowly [移動方向]. Cinematic, drone shot.実例:
Aerial view of a dense forest with a winding river, camera slowly moving forward. Cinematic, drone shot, morning mist.注意:空撮視点には必ずしも動きを加える必要はありません。静止した鳥瞰図でも十分映画的です。
5. Pan(パン)/ Tilt(チルト)
動き方:カメラの位置は固定で、左右に回転(パン)または上下に回転(チルト)します。
いつ使うか:新しい情報を明らかにする、空間を見せる。例えば、カメラが窓の外の風景から室内の人物へと振られる——ああ、主人公はここにいたのか、というように。
プロンプトテンプレート:
Slow pan [方向] from [起点] to [終点], revealing [明らかにしたい内容].実例:
Slow pan right from a rainy window to a woman sitting alone with coffee, melancholic mood. Cinematic, soft light.6. POV Shot(POVショット/主観ショット)
動き方:キャラクターの目を通した視点です。
いつ使うか:極めて強い没入感が必要な時。一人称視点で、観客をキャラクター「本人」にします。
プロンプトテンプレート:
POV shot from [キャラクター]'s perspective, [見ている内容]. Immersive, first-person view.実例:
POV shot from driver's perspective, highway rushing towards camera at high speed, hands visible on steering wheel. Immersive, motion blur.小技:没入感を高めたい場合は、プロンプトに “slight handheld shake”(わずかな手ブレ)を加えると、人間の目のリアルな感覚をシミュレートできます。
7. Dolly Zoom(ドリーズーム/めまいショット)
動き方:カメラが前進しながらズームアウトする(またはその逆)、被写体のサイズは変わらず、背景だけが歪む効果です。ヒッチコックが『めまい』で使い有名になりました。
いつ使うか:衝撃的な瞬間、恐怖、気づき。
プロンプトテンプレート:
Dolly zoom effect on [被写体], background [warps/distorts], creating [感情]. Dramatic, cinematic.実例:
Dolly zoom effect on a man's shocked face, background warps and distorts, creating vertigo and tension. Dramatic, thriller style.正直に言うと、これは制御が最も難しく、AIが必ずしも正確に実行できるとは限りませんが、成功した時の効果は強烈です。何度か試してみる価値はあります。
プロンプトライティングの5つの重要なテクニック
7つのカメラ言語をマスターしたら、次はそれらをどうプロンプトに組み込むかを知る必要があります。これら5つのテクニックを使えば、AIがあなたの意図を正確に理解し、実行率が大幅に向上します。
テクニック1:カメラワークは独立した文にする
前述しましたが、これは重要すぎるので再度強調します。
悪い例:
雨の中を走る男性、カメラがゆっくり近づき、背景は都会の夜景良い例:
Slow dolly-in shot. A man running in the rain, city night lights in the background.カメラの指示を切り出して、一番前に置きます。AIの理解ロジックは順次解析なので、カメラの種類を早く言えば言うほど、それを重要事項として扱ってくれます。
テクニック2:具体的な速度と強度の修飾語を使う
「カメラが動く」という曖昧な表現だと、AIはランダムに動きます。どう動くかを伝える必要があります。
曖昧な表現:camera moves(カメラが動く)
明確な表現:slow smooth pan right(ゆっくりと滑らかに右へパンする)
よく使う修飾語:
- 速度:slow(遅い)、rapid(速い)、gentle(穏やか)、sudden(突然)
- 質感:smooth(滑らか)、steady(安定した)、handheld(手持ち風)、shaky(揺れる)
例えば、同じ dolly-in でも:
- “slow dolly-in” = ゆっくり近づき、雰囲気を醸成
- “rapid dolly-in” = 被写体に急速に迫り、衝撃を与える
全く異なる効果になります。
テクニック3:一度に使う主なカメラワークは1つだけ
欲張らないこと。こう書く人がいます:
❌ “カメラが前進しながら回転しつつ上昇する”
AIは混乱して、わけのわからないものを生成します。プロの撮影でも、1つのショットにこれほど多くのアクションを詰め込むことはありません。
一度に一つの主な動き。もし本当に複雑な効果が必要なら、いくつかのショットに分けて生成し、後で編集で繋ぐ方が良いでしょう。
テクニック4:プロンプトの長さは100〜150単語に抑える
短すぎるとAIへの情報が不足し、長すぎるとAIが要点をつかめません。
最適な長さ:3〜6つの完全な文、およそ100〜150単語です。
Google公式ガイドが推奨する構造:
- カメラタイプ(1文)
- 被写体とアクション(1-2文)
- 環境と雰囲気(1-2文)
- 視覚スタイル(1文)
例(ちょうど4文):
Slow tracking shot following the subject. A young woman walking through a sunflower field at sunset. Golden light, lens flare, gentle breeze moving the flowers. Cinematic, dreamlike atmosphere.テクニック5:光と環境の描写を組み合わせる
カメラワークは映画感の一部に過ぎません。光と雰囲気も同様に重要です。
ただ “dolly-in shot” と書くだけでは効果は限定的です。しかし、次のように加えると:
Slow dolly-in shot. Golden hour light, lens flare, soft shadows. Cinematic, warm tones.一気に変わります。
推奨する光のキーワード:
- golden hour(ゴールデンアワー)
- soft light(柔らかな光)
- dramatic lighting(ドラマチックな照明)
- lens flare(レンズフレア)
- backlit(逆光)
- neon glow(ネオンの輝き)
雰囲気のキーワード:
- cinematic(映画的)
- moody(ムードのある)
- dreamlike(夢のような)
- gritty(粗い/リアルな)
- ethereal(幽玄な)
これらの言葉とカメラワークを組み合わせることで、完全な映画言語となります。
よくある質問とトラブルシューティング
Q1: カメラワークを書いたのに、AIが実行しない場合は?
原因:プロンプトが他の要素に埋もれています。
解決策:カメラワークをプロンプトの最初の1/3の位置に置き、優先順位を上げます。
比較してみましょう:
❌ 低優先度の書き方:
実験室で働く科学者、周りには器具がいっぱい、薄暗い照明、slow dolly-in shot✅ 高優先度の書き方:
Slow dolly-in shot. A scientist working in a dimly lit lab, surrounded by instruments.カメラタイプを一番前に置けば、AIは最初にそれを見て、実行率がすぐに上がります。
Q2: 生成された動きが速すぎる、または遅すぎる?
解決策:速度の修飾語を追加します。
- 速すぎる → “slow”、“gentle”、“gradual” を追加
- 遅すぎる → “rapid”、“dynamic”、“swift” を追加
具体的な時間記述、例えば “3-second dolly-in”(3秒間のドリーイン)なども使えますが、AIの理解は不安定なので、slow/rapid の方が確実です。
Q3: Dolly Shot と Tracking Shot の違いは結局何?
これはSNSで少なくとも20回は聞かれた質問です。
記憶のコツ:
- Dolly Shot:カメラが前後する(レール上のトロッコは前後しかできないと想像してください)
- Tracking Shot:カメラが被写体を追う(カメラマンがスタビライザーを持って追いかけると想像してください)
適用の違い:
- 被写体は動かず、あなたが近づきたい → Dolly-in を使用
- 被写体が動いていて、あなたが追いかけたい → Tracking Shot を使用
例:
- 花が静かに咲いている、カメラがゆっくり近づく → Dolly-in
- 人が森の中を走っている、カメラが一緒に走る → Tracking Shot
Q4: 同じプロンプトでも、生成するたびに効果が違う?
答え:これはAIのランダム性という特徴であり、完全には避けられません。
私のやり方:
- 同じプロンプトで複数回生成する(私は通常3〜5回)
- 最も満足のいくものを選ぶ
- どれも良くなければ、プロンプトを微調整して再試行
また、上級テクニックとしてJSON形式のプロンプトがあります。2025年7月に誰かが発見したのですが、JSON構造はプレーンテキストよりも効果が30%良いそうです。パラメータをより正確に制御できるからです。ただ少し複雑なので、慣れてから研究してみると良いでしょう。
Q5: AIが意図を誤解し続ける?
よくある原因:プロンプトに曖昧な表現がある。
例えば “camera moves forward”(カメラが前に動く):
- あなたの理解:カメラが視線方向に進む(dolly-in)
- AIの理解:上に動く(crane up)かもしれないし、被写体についていく(tracking)かもしれない
曖昧さを避ける方法:専門用語を直接使う。
- “camera moves forward” と言わずに → “dolly-in shot” と言う
- “camera follows” と言わずに → “tracking shot” と言う
専門用語は複雑に見えますが、AIにとってはむしろ明確なのです。
上級テクニック:ショット設計思考
AI動画をさらに高いレベルへ引き上げたいなら、ショット(分鏡)思考でコンテンツを設計することを学ぶ必要があります。
8秒の動画を4つの2秒ショットに分割する
Veo 3の単一動画は最大8秒です(一部のユーザーはより長く生成できますが、多くは8秒です)。プロのクリエイターはこの8秒をいくつかのショットに分割し、各ショットに1つの重点を置きます。
ショット設計例:
テーマが「燃える森からの脱出」だとします。
- 0-2秒:Handheld shaky shot、走る主人公のアップ、荒い息遣い
- 2-4秒:Rapid dolly-in、主人公の恐怖に満ちた顔へカメラが急速に迫る
- 4-6秒:Low angle crane shot、燃える木々を煽りで撮り、危機感を演出
- 6-8秒:Wide tracking shot、主人公が森の端から飛び出し、カメラに向かって跳躍する
2秒ごとに感情が切り替わり、リズムは超緊迫しています。
なぜこのように設計するのか? AI映画クリエイターがシェアしていましたが、AIが生成する単一ショットの有効時間はわずか1〜2秒です(最初と最後の不具合を除く)。それならいっそ、テンポの速い編集スタイルを採用し、各ショットの情報密度を最大化する方が良いのです。
編集を利用してAIの不安定さを補う
AIが生成する動画は確かに不安定で、同じプロンプトでも初回は完璧でも2回目は失敗することがあります。
私の経験:
- 複数の短いショットを別々に生成する(各ショットに1つのプロンプト)
- 各ショットを3〜5回生成し、ベストを選ぶ
- 編集ソフト(Premiere、Final Cut、あるいはCapCut)で繋げる
これは完璧な長回しを追求するよりも確実な方法です。
複数のカメラ言語を混ぜて使う
完全な動画には、カメラワークの組み合わせとリズムの変化が必要です。
クラシックな構成:
- オープニング:Aerial view または Crane shot でシーンを確立(「どこか」を観客に伝える)
- 中盤:Dolly-in または Tracking shot でアクションを追う(ストーリーを進める)
- クライマックス:Dolly zoom または Rapid dolly-in で衝撃を作る(感情爆発)
- エンディング:Dolly-out または Crane shot で感情を昇華させる(距離を取り、余韻を残す)
実例:
「カフェの朝」という動画を作るとします:
1. Aerial view of a cozy cafe at sunrise, warm light. (シーン確立)
2. Slow dolly-in to a cup of steaming coffee on the table. (詳細にフォーカス)
3. Tracking shot following the barista's hands making latte art. (動作を見せる)
4. Crane shot rising from the cup, revealing the whole cafe. (雰囲気昇華)4つのショット、各2秒。繋げれば完全なショートストーリーになります。
優れた事例のショット設計を学ぶ
AI映画『万里星河千帳灯』という作品があります。その制作フローは:
- AI生成のストーリーボードをRunwayにインポートして動画化
- 特殊効果ショット(ロケットの垂直着陸など)はモーションブラシで精密制御
- 編集時に加速処理し、リズムを調整
この考え方は学ぶ価値があります:まずショットを計画し、それから動画を生成し、最後に編集で調整する。一度の生成で完璧を目指さず、段階的に制御することが王道です。
結論
長々と話しましたが、核心は一言です:カメラが動けば、動画に魂が宿る。
あなたは今、最も実用的な7つのカメラワークをマスターしました。基礎的な dolly-in、tracking shot から、高度な dolly zoom まで。そして、プロンプトを書くための5つの重要なテクニックと、よくある落とし穴の避け方も知っています。
今日から、あなたのAI動画はもう「静止したPPT」ではありません。
私のアドバイスは、いきなりすべてのカメラワークを使おうとしないことです。まずは最もシンプルな dolly-in や tracking shot から始めて、10回、20回と試して、感覚を掴んでください。慣れてきたら、crane shot や dolly zoom などの上級編に挑戦しましょう。
覚えておいてください:カメラワークは複雑であれば良いというものではありません。表現したい感情にマッチしているかどうかが重要です。
- 親密感を出したい? dolly-in でゆっくり近づく
- 躍動感を出したい? tracking shot で主体と一緒に走る
- 衝撃を与えたい? dolly zoom を一発かます
適切なショットを選べば、8秒のショートビデオでも大作映画のような雰囲気を撮ることができます。
さあ、試してみてください。生成した作品をSNSに投稿すれば、次のバズる動画クリエイターはあなたかもしれません。
FAQ
なぜVeo 3で生成した動画には映画感がないのですか?
プロンプトでカメラの動きを明確に要求しない限り、Veo 3はデフォルトで静止したショットを生成します。
Google公式ガイドでも「カメラを動かしたいなら、プロンプトではっきりそう言う必要がある」と明記されています。
カメラワークを独立した文として先頭に置くことで、実行率が大幅に向上します。
7つのカメラワークとは何ですか?
• 詳細に焦点を合わせる、または全貌を明らかにする
2) Tracking Shot(トラッキングショット):
• 動く被写体を追跡する
3) Crane Shot(クレーンショット):
• 垂直に昇降し、壮大なシーンを見せる
4) Aerial View(エアリアルビュー/空撮):
• 鳥瞰視点
5) Pan/Tilt(パン/チルト):
• 左右または上下に回転
6) POV Shot(POVショット/主観視点):
• 一人称視点
7) Dolly Zoom(ドリーズーム):
• 衝撃的な効果を生み出す
AIにカメラワークを正確に実行させるには?
1) カメラワークは独立した文として最前列に置く
2) 具体的な速度と強度の修飾語を使う(slow, rapid, smoothなど)
3) 一度に使う主なカメラワークは1つだけにする
4) プロンプトの長さは100〜150単語に抑える
5) 光と環境の描写を組み合わせる(golden hour light, cinematicなど)
Dolly ShotとTracking Shotの違いは何ですか?
• カメラが前後する(レール上の動き)
• 被写体は動かず、カメラが近づきたい場合に適しています
Tracking Shot:
• カメラが被写体についていく(スタビライザーでの追跡)
• 被写体が動いていて、一緒に動きたい場合に適しています
記憶のコツ:Dolly = 押し引き、Track = 追跡。
カメラワークを書いたのにAIが実行しないのはなぜ?
解決策:
• カメラワークをプロンプトの最初の1/3の位置に置き、優先順位を上げます
• カメラタイプを一番前に置くと、AIが最初に見るため、実行率がすぐに上がります
例:
• 正解:'Slow dolly-in shot. A scientist working in a dimly lit lab.'
• 間違い:カメラワークを最後に置く
カメラワークの実行効果を高めるには?
1) 専門用語を使う(camera moves forward ではなく dolly-in shot)
2) 速度の修飾語を加える(slow, gentle, rapid)
3) 光と環境の描写を組み合わせる
JSON形式のプロンプトはプレーンテキストより効果が30%高いですが、複雑なので慣れてから試すと良いでしょう。
8 min read · 公開日: 2025年12月4日 · 更新日: 2026年1月22日
関連記事
Veo 3音声生成完全ガイド:AI動画に自動でセリフとBGMをつける方法(プロンプトテンプレート付き)

Veo 3音声生成完全ガイド:AI動画に自動でセリフとBGMをつける方法(プロンプトテンプレート付き)
Veo 3キャラクター一貫性完全ガイド:Scenebuilderで繋がりのあるマルチショット動画を作る

Veo 3キャラクター一貫性完全ガイド:Scenebuilderで繋がりのあるマルチショット動画を作る
Veo 3 Image to Video実践:Reference Imageで動画効果を精密に制御する


コメント
GitHubアカウントでログインしてコメントできます