Multimodal Lesson - 検索 News

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

産業技術総合研究所

マルチモーダルAIとは？

マルチモーダルAIとは、異なる種類の情報をまとめて扱うAIのことです。例えば、カメラで撮影した映像とマイクで録音した音という異なる種類の情報から1つのAIを学習させることで、映像の中に写っている人が何を話しているのかをより正確に推定できます。

PR TIMES

自動運転EV開発のチューリング、日英言語対応のマルチモーダル ...

完全自動運転車両の開発・販売に取り組むTuring株式会社（千葉県柏市、代表取締役：山本一成、以下「チューリング」）は、日本語を含む複数言語対応の大規模マルチモーダル学習ライブラリ「Heron（ヘロン）」と、それにより学習した最大700億パラメータ ...

日本経済新聞

東大、オープンな日本語マルチモーダルモデルを開発

――142億パラメータを持つ日本語に特化した視覚言語モデル―― 【発表のポイント】 142億パラメータを持つオープンな日本語に特化したマルチモーダルモデルを開発しました。構築されたモデルは、出力の利用が制限されている大規模言語モデル（chatGPT ...

ITmedia

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定（6月25日に延期を発表）で、感情や非 ...

ギズモード・ジャパン

AIの｢マルチモーダル｣ってなんだろう？グーグルやOpenAIが大騒ぎ ...

5月といえば、スター・ウォーズとゴールデンウィーク。しかし、今年の5月はSWよりもGWよりも、AIな月となりました。OpenAIとGoogle（グーグル）が、次々と大きなAI関連の発表を行なったからです。近年、テック大手はAIモデルの開発に注力し、より賢く、より ...

GIGAZINE

MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに

EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする ...

PR TIMES

テキストでも画像でもすぐに探せる、生成AIを活用した ...

アクロクエストテクノロジー株式会社（本社：神奈川県横浜市・代表取締役：新免流、以下、アクロクエスト）は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...

BRIDGE

Meta、「GPT-4V」に匹敵するマルチモーダルAIをレイバンのスマート ...

Facebook、Instagram、WhatsApp、Oculus VR の親会社 Meta Platformsからのニュースだ。新音声クローン AI「Audiobox」のリリースに続き、同社は今週、アイウェアの代表的企業 Ray Banとの提携により、Ray Ban Meta スマートグラス上で動作するように設計された新しい ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する