こんにちは!株式会社AI Nestです。 大規模言語モデル(LLM)はコード生成やバグ検出など、プログラミング関連のタスクで驚異的な能力を見せていますが、その「コード理解能力」を正確に評価することは簡単ではありません。今回紹介する論文「EquiBench ...