Sparsh Autoencoder - 検索 News

RAGLens：Sparse Autoencoderで「LLMは自分の嘘を知っている」を実証した研究

RAG（Retrieval-Augmented Generation）はLLMの事実性を高める有力な手法ですが、検索した文書と矛盾する回答を生成する「ハルシネーション」の問題が依然として残っています。本論文「RAGLens」は、Sparse Autoencoder（SAE）を使ってLLM内部の活性化パターンを分析し ...

note

LLMの分析・解釈可能性入門：AIの「頭の中」を覗く最先端技術を超 ...

主な対象者：LLMがなぜそのような出力をするのか「中身」を知りたい方、AI安全性に興味がある方、機械学習の解釈可能性研究に入門したい方を想定しています。技術レベル：初級〜中級を想定しています。数式は最小限に抑え、直感的な理解を重視します。

unite

Understanding Sparse Autoencoders, GPT-4 & Claude 3 : An In-Depth Technical Exploration

Autoencoders are a class of neural networks that aim to learn efficient representations of input data by encoding and then reconstructing it. They comprise two main parts: the encoder, which ...

GIGAZINE

OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表

GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈 ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する