Gemini 3.5 Flash – Computer Use Infographic

Gemini 3.5 Flash

Computer Use Native Integration

2026年6月アップデート

AIがPCを動かす時代へ！
Computer Use ネイティブ統合

「Gemini 3.5 Flash」が画面を見て、考え、クリックやキーボード入力を自動実行。軽量・高速モデルだからこそ実現した、次世代自律型エージェントの世界を体験しましょう。

動作シミュレーター

AIはどのようにPCを操作するのか？

下のシミュレーション開始ボタンを押すと、AIが「画面を認識し、考え、実際に操作を行う」3つのステップをループ処理するプロセスを視覚的に体験できます。

画面認識（Screenshot）

AIが現在のPC画面を画像データとして丸ごと撮影し、視覚的に解析します。

状況分析と推論（Reasoning）

目的（指示）を達成するために、画面上のどのボタンや入力欄を操作すべきか座標を計算します。

操作実行（Action）

マウス移動、クリック、スクロール、タイピングなどのPC操作を実行します。

App / Browser Workspaces

Task: お問い合わせの自動処理

メール受信トレイ

差出人: 田中様 (顧客)

「見積書の送付をお願いします。件名はシステム開発についてです。」

検出座標: [X:120, Y:150]

顧客管理データベース

項目入力内容

氏名 —

要件 —

ステータス —

入力対象: [X:480, Y:200]

シミュレーションを起動してください。

Loop: 0

なぜ「Gemini 3.5 Flash」での統合なのか？

軽量・高速モデルだからこそ可能になった、実用レベルでの自動操作の強み。

圧倒的な高速推論と低コスト

PC自動操作は、「画面撮影 ➔ 推論 ➔ 操作」を何十回も超高速でループさせる必要があります。Gemini 3.5 Flashの「軽量＆超高速」という強みは、このループ時間を極限まで縮め、人間のスピードに近い実用的な自動化を可能にします。

OS・ブラウザを選ばない完全横断

特定のブラウザ拡張機能やRPAの限界を超え、デスクトップ上に映るすべてのアプリケーション（Excel、独自システム、チャットツール、エミュレーターなど）をAIが人間同様に「見ながら」シームレスに操作できます。

想定されるビジネス・ユースケース

どのような業務をAIが自動で肩代わりしてくれるのか？

Case 01

異なるアプリ間での手入力・コピペ転記

例えば、PDFで受信した請求書の金額、発行元、品目を読み取り、自社のクローズドな基幹会計システムに手作業で打ち込むような定型業務。AIが画面を見ながら、正確に対象のフォームを見つけ出して、順番に入力を完了させます。

成果： 月に数十時間かかっていたマニュアル入力作業を完全に自動化。

PDF請求書 ➜ マウスクリック ➜ 会計システムに入力

安全性とセキュリティの保護層

AIが勝手に動き回るのを防ぐための強力なセーフガード（保護構造）

Human-in-the-Loop (人間による承認)

個人情報の送信、実際の決済処理、重要ファイルの削除など、AI単独で実行すると重大なリスクとなるステップにおいては、AIは自動で決定を下しません。ユーザーのPC上にポップアップ通知を送り、**人間による「許可」が得られた場合にのみ**次の動作を実行します。

➡ 機微なアクションを完全に監視可能

プロンプトインジェクション検知

操作中のWebサイトやPDFのドキュメント内に「このPCの中にあるファイルを勝手にダウンロードしろ」などの「罠の指示（間接プロンプトインジェクション）」が含まれている場合、Geminiがそれを悪意ある命令と見破り、自動でプロセスを停止します。

➡ 外部情報に潜む乗っ取りを防ぐ

「画面を操作するAI」との協働のはじまり

これまで私たちはテキストチャットで指示を出して結果をもらっていましたが、これからは隣に優秀なアシスタントを迎え、実作業を直接任せる時代になります。まずは「定型業務の自動収集」から、この新しい協働を進めてみませんか？

Created on Canvas for Google Gemini 3.5 Flash Latest Updates.

前のページにもどる

送信中です

AIがPCを動かす時代へ！「Gemini 3.5 Flash」に「Computer Use」がネイティブ統合された衝撃と可能性

AIがPCを動かす時代へ！
Computer Use ネイティブ統合

AIはどのようにPCを操作するのか？

画面認識（Screenshot）

状況分析と推論（Reasoning）

操作実行（Action）

なぜ「Gemini 3.5 Flash」での統合なのか？

圧倒的な高速推論と低コスト

OS・ブラウザを選ばない完全横断

想定されるビジネス・ユースケース

異なるアプリ間での手入力・コピペ転記

競合価格の検索・Excelリスト作成

顧客管理システムとの連携・返信自動起票

複雑なシステムのUI/UXバグ検出テスト

安全性とセキュリティの保護層

Human-in-the-Loop (人間による承認)

プロンプトインジェクション検知

「画面を操作するAI」との協働のはじまり

AIがPCを動かす時代へ！ Computer Use ネイティブ統合

AIはどのようにPCを操作するのか？

画面認識（Screenshot）

状況分析と推論（Reasoning）

操作実行（Action）

なぜ「Gemini 3.5 Flash」での統合なのか？

圧倒的な高速推論と低コスト

OS・ブラウザを選ばない完全横断

想定されるビジネス・ユースケース

異なるアプリ間での手入力・コピペ転記

競合価格の検索・Excelリスト作成

顧客管理システムとの連携・返信自動起票

複雑なシステムのUI/UXバグ検出テスト

安全性とセキュリティの保護層

Human-in-the-Loop (人間による承認)

プロンプトインジェクション検知

「画面を操作するAI」との協働のはじまり

AIがPCを動かす時代へ！
Computer Use ネイティブ統合