Este repositório contém três scripts para extração de texto de arquivos de imagens e PDFs usando OCR (Reconhecimento Óptico de Caracteres). Utilizando duas abordagens distintas: Tesseract OCR (código ...
Component Tool/Library Used Why Used 🧠 LLM llama-cpp-python (LLaMA 3 8B Bangla GGUF Q4_K_M) Lightweight, local inference, offline compatibility 🔍 Embeddings ...