AIがPCを動かす時代へ!
Computer Use ネイティブ統合
「Gemini 3.5 Flash」が画面を見て、考え、クリックやキーボード入力を自動実行。軽量・高速モデルだからこそ実現した、次世代自律型エージェントの世界を体験しましょう。
AIはどのようにPCを操作するのか?
下のシミュレーション開始ボタンを押すと、AIが「画面を認識し、考え、実際に操作を行う」3つのステップをループ処理するプロセスを視覚的に体験できます。
画面認識(Screenshot)
AIが現在のPC画面を画像データとして丸ごと撮影し、視覚的に解析します。
状況分析と推論(Reasoning)
目的(指示)を達成するために、画面上のどのボタンや入力欄を操作すべきか座標を計算します。
操作実行(Action)
マウス移動、クリック、スクロール、タイピングなどのPC操作を実行します。
なぜ「Gemini 3.5 Flash」での統合なのか?
軽量・高速モデルだからこそ可能になった、実用レベルでの自動操作の強み。
圧倒的な高速推論と低コスト
PC自動操作は、「画面撮影 ➔ 推論 ➔ 操作」を何十回も超高速でループさせる必要があります。Gemini 3.5 Flashの「軽量&超高速」という強みは、このループ時間を極限まで縮め、人間のスピードに近い実用的な自動化を可能にします。
OS・ブラウザを選ばない完全横断
特定のブラウザ拡張機能やRPAの限界を超え、デスクトップ上に映るすべてのアプリケーション(Excel、独自システム、チャットツール、エミュレーターなど)をAIが人間同様に「見ながら」シームレスに操作できます。
想定されるビジネス・ユースケース
どのような業務をAIが自動で肩代わりしてくれるのか?
異なるアプリ間での手入力・コピペ転記
例えば、PDFで受信した請求書の金額、発行元、品目を読み取り、自社のクローズドな基幹会計システムに手作業で打ち込むような定型業務。AIが画面を見ながら、正確に対象のフォームを見つけ出して、順番に入力を完了させます。
安全性とセキュリティの保護層
AIが勝手に動き回るのを防ぐための強力なセーフガード(保護構造)
Human-in-the-Loop (人間による承認)
個人情報の送信、実際の決済処理、重要ファイルの削除など、AI単独で実行すると重大なリスクとなるステップにおいては、AIは自動で決定を下しません。ユーザーのPC上にポップアップ通知を送り、**人間による「許可」が得られた場合にのみ**次の動作を実行します。
➡ 機微なアクションを完全に監視可能プロンプトインジェクション検知
操作中のWebサイトやPDFのドキュメント内に「このPCの中にあるファイルを勝手にダウンロードしろ」などの「罠の指示(間接プロンプトインジェクション)」が含まれている場合、Geminiがそれを悪意ある命令と見破り、自動でプロセスを停止します。
➡ 外部情報に潜む乗っ取りを防ぐ「画面を操作するAI」との協働のはじまり
これまで私たちはテキストチャットで指示を出して結果をもらっていましたが、これからは隣に優秀なアシスタントを迎え、実作業を直接任せる時代になります。まずは「定型業務の自動収集」から、この新しい協働を進めてみませんか?

