Googleは、AIモデル「Gemini 3 Flash」の新機能として、視覚情報の推論とPythonコードの実行を組み合わせた「Agentic Vision」を提供開始した。 「Agentic Vision」は、画像理解を「能動的な調査」として扱うもの。モデルは提示された画像に対し、「考える(プラン策定)」、「動く(コード生成・実行)」、「観察する(変換後の画像を確認)」というループを自律的に繰 ...
GoogleがGemini 3 Flashの新機能として高精度な画像理解機能「Agentic Vision」を発表しました。Agentic Visionでは画像の拡大などを行いつつ能動的な画像理解が可能で、「Pythonで境界ボックスを描画して数を正確に数える」といったコード実行も駆使する機能も搭載しています。
Google DeepMind has added Agentic Vision to Gemini 3 Flash, enabling active image exploration through Python code execution with 5-10% quality improvements.