Transformer Model Coding

SSM-Transformerアーキテクチャ採用で従来の約3倍のスループットを実現 ...

イスラエルのAIスタートアップであるAI21 Labsが、英語・フランス語・スペイン語・ポルトガル語に対応した大規模言語モデル「Jamba」を発表しました。Jambaは、従来のTransformerモデルにState Space Model(SSM)のアーキテクチャを組み合わせたSSM-Transformerモデルとなっ ...

GIGAZINE

Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％を ...

LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億 ...

マイナビニュース

「NVIDIA DLSS」に使われるTransformerモデルが正式版へ昇格 - 最適化で ...

米NVIDIAが6月25日（現地時間）に公開したDLSS導入用開発者向けキットの最新版において、Transformerモデルのベータ版運用が終了したようだ。加えてドキュメントが更新され、VRAMの消費量が削減されたことについても言及されている。 NVIDIA DLSS SDK 310.3.0の更新で ...

日本経済新聞

東大、深層学習モデルが多様な化合物構造を学習する際に苦手と ...

言語AIが多様な化合物構造を学習する過程の特徴を発見 ——化学言語モデルとしてのTransformerはキラリティの認識を苦手とする—— 【発表のポイント】代表的な深層学習モデルであるTransformerが多様な化合物構造を学習していく過程を、モデルが認識する ...

PR TIMES

Spiral.AI、Transformerの限界を克服した次世代LLMアーキテクチャ「RetNet ...

Spiral.AI株式会社（本社：東京都千代田区、以下「SpiralAI」）は、従来のLLMアーキテクチャであるTransformerの問題点を解決した学習済みモデルを開発・公開しました。開発・公開したモデルは、RetNetのアーキテクチャを活用しています。RetNetは、入力文字列長 ...

ビジネス＋IT

従来のTransformerの限界を克服、極めて長い文脈処理や、過去の情報 ...

会員（無料）になると、いいね！でマイページに保存できます。現在のTransformerモデルは注意機構を用いることで短期的には高い文脈把握能力を発揮するものの、シーケンスが長くなるほど計算コストが二次関数的に増加し、大規模文書や長時間の対話履歴 ...

PR TIMES

待望のTransformer時代の物体検出モデルの本格的解説書『DETR＆最新 ...

株式会社秀和システム（東京都・代表取締役会長兼社長上田智一）は、2025年6月28日、新刊『DETR（DEtection TRansformer）＆最新 ...

日本経済新聞

東北大と生理学研究所、ChatGPT等で有効な深層学習は脳波の解析でも ...

最近のChatGPTなどの生成AI技術では、自然言語処理に特化したTransformerモデルが活躍しています。Transformerモデルが脳波の解析でも高い推定精度を発揮することを示しました。内臓痛を引き起こしたマウスにおいて、8つの脳領域から記録した脳波データを ...

マイナビニュース

「NVIDIA DLSS 4.5」発表！最大6倍フレーム生成、Transformerモデルは第2 ...

米NVIDIAは1月5日（現地時間）、同社グラフィックス向けに展開している描画支援機能「NVIDIA DLSS」における最新バージョン「NVIDIA DLSS 4.5」を発表した。開発者はゲームに導入することも可能だが、ユーザー側でNVIDIA Appから一部の機能を有効化して使うことも ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する