LLMをプロダクトに載せるとき、学習よりも推論の方がコストに効く場面が多い。推論は、ユーザの入力に応じてその場で文章を生成する処理であり、同じモデルでも「生成の仕方」と「実行の仕方」で速度、コスト、品質が大きく変わる。本稿では、数式を ...