Text2SQLソリューションの評価における根本的な課題を掘り下げ、潜在的な失敗原因と既存のベンチマークにおける集約メトリクスに依存するリスクを強調する。また、評価手順におけるバイアスや誤りを検出し、これらの限界を明らかにする。 Text2SQL ...