CES 2026で発表されたPanther Lakeこと「Core Ultra Series 3」について、そのCESの会場内で、限られた環境ではあるが実機を拝借してベンチマークテストを実施する機会があった。Core Ultra Series ...
・Falcon H1R 7B、高速性と効率性を追求した70億パラメーターの小型モデルに高度な推論力を集約 ・主要ベンチマークでMicrosoft、Alibaba、NVIDIAの大規模モデルを凌駕するTIIの最新AIモデル ...
米OpenAIは12月20日(現地時間)、「12 Days of OpenAI」の最終日に、新たなフロンティアモデル(最先端モデル)「o3」を発表し、特定のタスク向けに最適化された小型モデル「o3-mini」のプレビューを披露した。o3は、汎用人工知能(AGI)の進捗を測るために考案 ...
1年ほど前まで、大規模言語モデル(LLM)は、いわゆるクローズドソースモデル、特にGPT-4が圧倒的な性能を誇っており、さまざまなベンチマーク/リーダーボードにおいて、トップを独占する状態が続いていた。 しかし現在、その状況は大きく変わりつつ ...
近年は生命分子の構造と相互作用を予測するAIモデル「AlphaFold 3」がリリースされたり、「ChatGPTのおかげで論文を読む手間が99%減った」と研究者が報告したりするなど、科学研究におけるAIの活用はますます重要なものになっています。新たに、ワシントン ...
~主要LLMであるGPT-5、Gemini-2.5-pro、Claude Opus 4.1の分析結果も発表。抽象的な指示への対応力でモデル間に大きな差を検出~ 株式会社LegalOn Technologies(本社:東京都渋谷区代表取締役 執行役員・CEO:角田望、以下LegalOn Technologies)は、日本の企業法務実務におけ ...
株式会社ELYZA 株式会社Kotoba Technologies Japan 富士通株式会社 株式会社ABEJA Sakana AI株式会社 日本語性能において下記 3 点を満たすモデルの開発に取り組んだ 基盤モデルとしての基礎的な能力が高い。 このための取り組みとして、既存モデルを拡張し ...
Sakana AI(株)は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。