ローカルで色々なLLMを試してきましたが、実際にアプリに組み込むときには、評価用のコードでは色々と面倒です。また、LLM側とアプリ側が密になっているとデバッグ等で再起動が必要な時などにモデルのロードから始まるため、時間の無駄が生じます。
クラウドベースのLLM APIは便利ですが、プライバシー、コスト、そしてレイテンシの観点から、ローカル環境でLLMを動かしたいというニーズが高まっています。 llama.cppは、MetaのLlamaなどのLLMをCPUまたはGPUで高速に実行できるように最適化されたC++ライブラリです ...