Benchmark Model - 検索 News

6 日on MSN

Core Ultra Series 3の性能を先行ベンチマークテスト、GPUの"強さ"光る

CES 2026で発表されたPanther Lakeこと「Core Ultra Series 3」について、そのCESの会場内で、限られた環境ではあるが実機を拝借してベンチマークテストを実施する機会があった。Core Ultra Series ...

10 日

TII、大規模モデルを凌駕する世界最高の7B AIモデル「Falcon Reasoning ...

・Falcon H1R 7B、高速性と効率性を追求した70億パラメーターの小型モデルに高度な推論力を集約・主要ベンチマークでMicrosoft、Alibaba、NVIDIAの大規模モデルを凌駕するTIIの最新AIモデル ...

マイナビニュース

OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の ...

米OpenAIは12月20日（現地時間）、「12 Days of OpenAI」の最終日に、新たなフロンティアモデル（最先端モデル）「o3」を発表し、特定のタスク向けに最適化された小型モデル「o3-mini」のプレビューを披露した。o3は、汎用人工知能（AGI）の進捗を測るために考案 ...

Excite エキサイト

科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT ...

近年は生命分子の構造と相互作用を予測するAIモデル「AlphaFold 3」がリリースされたり、「ChatGPTのおかげで論文を読む手間が99％減った」と研究者が報告したりするなど、科学研究におけるAIの活用はますます重要なものになっています。新たに、ワシントン ...

時事ドットコム

LegalOn Technologies、日本の企業法務における大規模言語モデル（LLM ...

～主要LLMであるGPT-5、Gemini-2.5-pro、Claude Opus 4.1の分析結果も発表。抽象的な指示への対応力でモデル間に大きな差を検出～株式会社LegalOn Technologies（本社：東京都渋谷区代表取締役執行役員・CEO：角田望、以下LegalOn Technologies）は、日本の企業法務実務におけ ...

経済産業省

各採択企業の性能評価結果詳細

株式会社ELYZA 株式会社Kotoba Technologies Japan 富士通株式会社株式会社ABEJA Sakana AI株式会社日本語性能において下記 3 点を満たすモデルの開発に取り組んだ基盤モデルとしての基礎的な能力が高い。このための取り組みとして、既存モデルを拡張し ...

窓の杜

有価証券報告書を用いた日本語金融LLMベンチマーク「EDINET-Bench ...

Sakana AI（株）は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル（LLM）の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する