米Microsoftは2月26日(現地時間)、小規模言語モデル(SLM)である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。 小規模言語モデル(Small Language Model:SLM)は ...
Build reliable multimodal AI apps with text, voice, and vision using shared context, smart orchestration, routing, and ...
AI開発企業のOpenAIが、Moderation APIに新しいマルチモーダルモデレーションモデルを導入しました。このマルチモーダルモデレーションモデルはGPT-4oをベースとしており、テキストと画像の両方の入力をサポート。特に、英語以外の言語で以前のモデルよりも ...
米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定(6月25日に延期を発表)で、感情や非 ...
NECは、10月15日~10月18日まで幕張メッセ(千葉市美浜区)で開催される「CEATEC 2024」にて、生体認証入退管理ソフトウェア「Bio-IDiom KAOATO」と連携した顔・虹彩マルチモーダル生体認証を出展します。 CEATEC2024 NECブースイメージ 本サービスは、世界No.1(注1)の ...
アクロクエストテクノロジー株式会社(本社:神奈川県横浜市・代表取締役:新免流、以下、アクロクエスト)は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください 椎橋:現在のGPT ...
マルチモーダルRAGとは、通常のRAGと何が違うのか? 企業データの90%が非構造化データであり、その80%以上が画像、動画 ...
現在アクセス不可の可能性がある結果が表示されています。
アクセス不可の結果を非表示にする