メディア研究開発センターの倉井です。 最近Tesseractを使ってOCRをしたいことがあったのですが、新たにフォントを学習させたい場合など、いくつか初見では難しい設定をする必要があったので、備忘録的に残したいと思います。 合わせて元の画像のノイズ ...
今回はブラザーのスキャナーでスキャンした結果を自動的にOCRを実行します。SambaやOCRmyPDF、Tesseract OCRなど、オープンソースソフトウェアだけで構成します。 紙の書類をなんとかしたい ペーパーレスなんて言葉はもう聞き飽きてしまいましたが、実際に ...
まず、Tesseract OCRをインストールします。利用OSがMacOSの場合は、以下のコマンドを実行してください。 $ brew install tesseract $ brew install tesseract-lang その他のOSに関しては、Apache Tikaのサイトを参照してください。 PDFでOCRを適用する設定 PDFに対してもOCRを適用する ...
今回はオープンソースでマルチプラットフォームのOCRエンジンであるTesseract OCRを使用し、 読み取り精度を確認してみます。 UbuntuでOCR? 「日本語でOCR」 と聞くと、 プロプライエタリの牙城というか、 高価なソフトを購入しないと実用に耐えないという ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する