Multimodal Approach - 検索 News

7 日on MSN

FLUXのBlack Forest Labsが高効率＆高精度で画像・動画・音声を生成するマルチモーダルAIの学習手法「Self-Flow」を発表

画像生成AIのFLUXシリーズで知られるBlack Forest Labsが、生成AIをトレーニングするための新たなアプローチ「Self-Supervised Flow Matching(Self-Flow)」を発表しました。Self-Flowは生成モデルを自己教師あり学習で効率的にトレーニングするための仕組みで、学習効率の大幅な向上や画像生成時のテキスト描画の向上などを実現しています。

窓の杜

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

Techzine Europe

Microsoft introduces open-source multimodal Phi-4 reasoning model

Microsoft has released a new multimodal reasoning model: Phi-4-reasoning-vision-15B. The model combines two existing algorithms using a mid-fusion approach and can analyze images, scientific graphs, ...

PR TIMES

生成AI搭載の独自モバイルアプリ開発支援を行う「マルチモーダル ...

AIソリューション事業を手掛ける株式会社ヘッドウォータース（本社：東京都新宿区、代表取締役：篠田庸介、以下「ヘッドウォータース）」は、日本マイクロソフトの「Azure OpenAI Service」を利用して、音声、画像・映像の複合的な生成AIである ...

BRIDGE

Meta、最先端マルチモーダルモデル「Chameleon」を発表

生成 AI 分野の競争がマルチモーダルモデルへとシフトする中、Metaは frontier labs が発表したモデルに対する答えとなるプレビューを発表した。Meta の新しいモデルファミリー「Chameleon」は、異なるモダリティのコンポーネントを組み合わせるのではなく ...

Fabbaloo

Multimodal AI Sensor Fusion Targets 3D Print Faults

Researchers have proposed a multimodal sensor fusion approach to AI-based fault detection in 3D printing, aiming to push AM monitoring closer to reliable, Industry 4.0 operation.

ITmedia

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください椎橋：現在のGPT ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する