Multimodal Text Types

音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大 ...

音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定して ...

TechRound

The Multi-Modal AI Receptionist

Modern virtual receptionists often use AI to do their jobs. This lets them respond in real time, follow predefined call flows ...

窓の杜

Google、「Gemini 3」を発表 “その場の空気を読む”最新・最強のAIに進化

米Googleは11月19日（現地時間）、「Gemini 3」を発表した。同社の最新かつもっとも高度なAIモデルで、最先端の推論力、深いマルチモーダル（テキスト、音声、動画など）理解、そして強力なエージェント機能を備えるという。同社のCEOであるSundar Pichai氏は ...

窓の杜

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

Excite エキサイト

テキストだけでなく画像や音声なども処理するマルチモーダルRAG ...

マルチモーダルRAGとは、通常のRAGと何が違うのか？企業データの90%が非構造化データであり、その80%以上が画像、動画 ...

PR TIMES

テキストでも画像でもすぐに探せる、生成AIを活用した ...

アクロクエストテクノロジー株式会社（本社：神奈川県横浜市・代表取締役：新免流、以下、アクロクエスト）は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...

GIGAZINE

テキスト・画像・動画から3Dワールドを生成するマルチモーダル ...

現地時間の2025年11月12日、スタンフォード人工知能研究所で所長を務めたコンピューターサイエンスの権威であるフェイフェイ・リ氏らが立ち上げたAI企業のWorld Labsが、独自のマルチモーダルワールドモデル「Marble」を発表しました。空間知能はAIの新たな ...

PR TIMES

パナソニックHD、テキスト、画像、音を相互に変換可能な ...

パナソニックホールディングス株式会社（以下、パナソニックHD）およびパナソニックR＆Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる（以下 ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する