Axcxept株式会社は本日、Multitask 性能と数学推論性能を、わずか2日間の強化学習で、飽和状態だった性能をさらに向上させた超小型言語モデル(LLM)『QwQ-32B-Distill-Qwen-1.5B-Alpha』をオープンソースで公開しました。本モデルは、deepseek-aiの長考モデル、DeepSeek-R1 ...
Qwen2.5 Bakeneko 32B は Qwen2.5 32Bに対し日本語継続事前学習 DeepSeek R1 Distill Qwen2.5 Bakeneko 32B は DeepSeek R1 で蒸留学習 Qwen2.5 Bakeneko 32B Instruct にはモデルマージと指示学習 DeepSeek R1 Distill Qwen2.5 Bakeneko 32B には ...
この記事は会員限定です。会員登録すると全てご覧いただけます。 サイバーエージェントは2025年1月27日、AIモデル「DeepSeek ...
日本の大手IT企業であるサイバーエージェントが2025年1月27日、AI開発企業のDeepSeekがリリースしたオープンソースの推論モデル「DeepSeek R1」の蒸留モデルをベースに、日本語データで追加学習を行った大規模言語モデルを公開しました。 【モデル公開のお ...
同社はこれまで、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきた。2021年4月よりHugging Faceに公開しているrinnaのモデルは累計920万ダウンロード、1200Likesを記録しているという。
東京大学発、最先端アルゴリズムの現場実装に取り組むAIスタートアップ 株式会社Lightblue(代表取締役:園田 亜斗夢、本社:東京都千代田区、以下「Lightblue」)は、2025年2月3日、中国のAI企業DeepSeekが開発した最先端の推論型LLM「DeepSeek-R1」の蒸留モデル ...
東京大学発AIスタートアップのLightblueは2025年2月3日、中国製LLM「DeepSeek-R1」に日本語で追加学習を施したLLMを公開したと発表した。DeepSeek-R1の出力結果を用いる蒸留モデルの1つで中国AlibabaのLLM「Qwen」軽量版(70億パラメータ)に対し、日本語での追加学習を ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する