Geminiがついに動画アップロードに対応。レシートの動画OCR、操作動画からのマニュアル自動作成、画面録画でGASまで作らせる3つの実務シナリオを丁寧に解説。
Geminiが動画ファイルの添付・読み込みに対応した新機能を解説。1時間 or 2GBまでの動画をアップロードでき、動画内に映る情報・音声・流れを丸ごと理解してくれる。本動画では実務に直結する3つのユースケースを紹介。(1)複数のレシートを動画でパパッと撮るだけで勘定科目を判定しスプレッドシートに自動転記、(2)Chromebookの初期化操作を縦型スマホ動画で撮るだけでマニュアルを自動生成しGoogleドキュメントに出力、(3)スプレッドシートの操作画面を録画+音声で説明することで要件定義を兼ね、Gemini にメール送信GASを書かせてボタンまで自動設置。コードもパソコンもわからない人ほど「言語化が難しいことを動画で説明する」ことで、AIに伝達できる情報の幅が一気に広がる、というメッセージの回。
1 詳細トピック
キャッチアップすべき重要ポイント
- Geminiが動画アップロード対応:上限は1時間または2GB、5〜6分以内が誤差なく安定
- レシートを動画でパッパッと撮るだけで勘定科目分類とスプシ出力が一発(接待交際費/消耗品など自動判定)
- Chromebook初期化のスマホ縦撮り動画から、注意事項・手順1・手順2まで含むマニュアルを自動生成
- 生成したマニュアルはGoogleドキュメントへワンクリックでエクスポート可能
- 画面録画+音声説明をそのままGeminiに渡すだけで、メール送信GAS(Apps Script)を完成させられる
- GAS設置手順(スプシ→拡張機能→Apps Script→貼り付け→保存→ボタン作成)まで何も指示せず案内してくれる
- ピッタリ動かないときは「エラー画面のスクショ+指摘」で追加修正してくれるラリー型開発が可能
- 「コードが書けない・パソコンが苦手」な人ほど動画で説明 → Geminiに任せるのが効くというメッセージ
▼ 各トピックをクリックすると詳細が展開します
1. Geminiが動画ファイル添付に対応(新機能の概要)+
Geminiの強みは大きく2つあり、ひとつはマルチモーダル性能(画像・音声などを高い精度で読み取れる)、もうひとつはGoogle Workspaceとのデータ連携。今回はマルチモーダル側の大きな進化で、これまで対応していなかった動画ファイルのアップロードがついに可能になった。
動画には音声と画像が時系列に紐づいているため、AIに伝達できる情報量が一気に増える。アップロードはGeminiアプリの「+」ボタン→ファイル追加から行え、動画の中身(映像内に映る物体・テキスト・流れ、しゃべっている音声内容)まで理解してくれる。
アップロード上限の目安は1時間または2GBまで。ただしトークン数ギリギリまで使うと精度の誤差が出やすいので、実務的には5〜6分以内の動画が安定的に処理できる目安として紹介されている。
- Geminiの強み:マルチモーダル性能とWorkspace連携の2つ
- 「+」ボタン→ファイル追加から動画アップロード可能に
- 上限の目安は1時間 or 2GB
- 実務的には5〜6分以内が安定(長尺は誤差が出やすい)
- Meetの録画やスマホ撮影など、入力ソースの幅が一気に広がる
2. シナリオ①:レシート動画OCRでスプシ自動入力+
最初のユースケースは「動画OCR」。複数枚のレシートをスマホでパッパッと流し撮りした27秒程度の動画をGeminiにアップロードし、「会計帳簿に付けたいので勘定科目に分類してスプレッドシートで出力して」と指示する。
結果として、取引先・日付・勘定科目(接待交際費/消耗品など)・金額が自動判定された一覧表が生成され、ワンクリックでスプレッドシートに展開可能。画像OCRは以前から可能だったが、動画なら大量のレシートを一気に流し撮りするだけで電子化できる点が画期的。
動画内では著作権配慮から触れないが、X等で見かける「本をパラパラめくって全文起こし」と同じ仕組みで、ビジネスでは経理のレシート・名刺・伝票などカジュアルな書類整理に強い武器になる。
- 27秒の流し撮り動画でOK(複数枚のレシートを連続表示)
- 取引先・日付・勘定科目・金額を自動抽出してスプシ出力
- 勘定科目(接待交際費・消耗品など)はGeminiが内容から判定
- 1枚ずつ画像にする手間を撤廃、経理・伝票整理に好適
- ワンクリックでGoogleスプレッドシートへエクスポート可能
3. シナリオ②:操作動画からマニュアル自動生成+
2つ目は「動画でマニュアルを作る」シナリオ。Chromebookの初期化方法を題材に、スマホで縦向きに撮ったショートカット操作の解説動画をそのままGeminiにアップロードし、「この動画の内容からマニュアル作成して」と一文だけ指示する。
結果、「初期化前のバックアップ注意」「手順1:Ctrl+Alt+Shift+Rを同時押し」「手順2:…」のように、しゃべった補足情報まで反映した分かりやすいマニュアルが自動生成される。出来上がったマニュアルはGeminiの機能でGoogleドキュメントへワンクリック出力でき、不要な前後の文を消すだけでそのまま社内配布レベルに整う。
縦動画でも問題なく処理できるため「わざわざ横向きに撮り直す必要すらない」のがポイント。製造業の機械操作、レジ締めなどのオペレーション手順、各種SaaSの社内利用マニュアルなど、説明動画さえ撮れば言語化を丸ごとAIに任せられる、汎用性の高い使い方。
- 縦向きのスマホ動画でもOK(撮り直し不要)
- 指示は「この動画からマニュアル作成して」の一文のみ
- 注意事項・手順1・手順2など構造化された見出しで自動整形
- しゃべっている補足情報(バックアップしてくださいなど)も反映
- Googleドキュメントへワンクリック出力 → ほぼそのまま配布可能
- 製造業の機械操作・レジ締め・社内SaaSマニュアルなど横展開しやすい
4. シナリオ③:動画で要件定義してGASを作らせる(上級)+
3つ目の上級ユースケースは「動画でGAS(Google Apps Script)の要件を伝えて作らせる」というもの。お客様一覧と送信テンプレートがあるスプレッドシートを使い、お客さん別に件名・本文・差出人を切り替えてメールを自動送信するGASを作りたい。
通常なら要件をテキストで詳細に書く必要があるが、今回はその画面操作とねらいを口頭で説明している1分程度の画面録画を撮影。Geminiに動画を渡して「GAS作って」とだけ指示すると、要件を理解したコードが生成される。
出力にはコード本文だけでなく「スプシを開く→拡張機能→Apps Script→貼り付け→保存」の設置手順まで丁寧に含まれる。スプシをリロードするとシート上にボタンが出現し、押すとメール送信→送信済みの日付が自動記録され、宛先(西原様)に件名・本文・顧客名差し替えまで反映されたメールが届くところまで動画内で実演。要件を喋りながら撮る動画が「お客様→エンジニアへの要望書」の代替になる、という象徴的な使い方。
- 1分の画面録画+音声説明をGeminiに渡し「GAS作って」のみで完成
- コード本文+Apps Scriptの設置手順までセットで案内
- スプシ上にボタンを自動配置、押下でメール送信&送信済み日付記録
- 送信テンプレートから顧客名(西原歩美様)を差し替える指示も動画通り反映
- 口頭での要件定義をAIに渡せるため、非エンジニアでもプログラムを発注できる
5. 一発で動かない時:エラー画面の追加投入でラリー型に修正+
実際には先ほどのGASも一発出しで完璧に動いたわけではなく、送信元の列がずれて「内容」が差出人として取られるなど小さなバグがあった。こうしたケースで使えるのが「スクリーンショット+指摘の追加投入」によるラリー型の修正。
Geminiに「送信元の名前がずれている、こちらの列ではなく1つ隣を見てほしい」と画面のスクショと一緒に伝えると、Geminiが該当箇所を特定して自動修正してくれる。エラーメッセージもスクショを撮って投げれば、原因解析と修正案の提示までやってくれるため、コードが書けない人でも対話を重ねれば最後まで仕上げられる。
非エンジニア・パソコンが苦手な人ほど、トラブルシューティングの相談相手としてGeminiを使える、というメッセージ。重要なのは「一発で完成させようとせず、対話=ラリーで仕上げる」マインドセット。
- 一発出しで完璧に動かないケースもある
- エラー画面・該当箇所のスクショを投げて指摘するだけで修正してくれる
- 「ここの列がずれている」と人間が気づけば、AIが原因を特定して直す
- ラリー型開発でコードが書けない人でも完成までたどり着ける
- パソコンのトラブルシューティングにも応用可能
6. まとめ:Geminiへの伝達手段に「動画」が加わった意味+
今回の本質は「Geminiへの伝達手段に動画が加わった」こと。これまでは言葉・画像・音声のみだったが、動画によって「ストーリー性のある画像+音声+画面操作の流れ」を丸ごとAIに渡せるようになった。
SlideやMeetの録画機能、スマホでの撮影など、入力ソースを選ばないのも実務的に強い。コードや業務手順、トラブルシューティングなど「説明するのが大変だったこと」ほど動画化のメリットが大きい。
動画は今後さらに精度向上が期待される領域で、スマホで風景を映してAIに状況判断させるような使い方も広がる見込み。文章での要件定義が苦手な人・コードを書けない人ほど、まず1回試してほしい新ユースケース。
- 伝達手段:言葉・画像・音声 → 動画が加わって4種類に
- Meet録画・スライド録画機能・スマホ撮影など、入力ソースは何でもOK
- 「説明するのが面倒なこと」ほど動画化のリターンが大きい
- コード・パソコン操作・業務手順すべてに応用可能
- 今後さらに精度向上が見込まれる新領域
2 視聴者の学び
- 言葉・画像・音声で伝えにくいものは「画面録画+しゃべり」の動画にしてGeminiに渡すと精度が高い
- レシート・書類など大量にOCRしたいものは1枚ずつ画像にせず、サッと動画で流し撮りする方が圧倒的に楽
- マニュアル作成は「やりながら口で説明する動画」を1本撮るだけで、ドキュメント化まで完了する時代に
- GASなどプログラム依頼も、要件を文字で書かず画面操作を録画して投げれば要件定義代わりになる
- 一発で動かない場合は、画面のスクショとエラーメッセージを追加で渡してラリーで修正させるのが定石
- 動画は1時間/2GBまで対応だが、安定するのは5〜6分以内。長尺は分割するのが無難
- Meetやスライドの画面録画機能も組み合わせれば、業務手順を動画化→AI伝達のワークフローが構築できる