銀行の入出金明細と会計ソフトの取引先名、手で突き合わせていませんか? 「この“カ)サクラ”って、もしかして“株式会社サクラ”かな?」 そんな作業をPythonにやってもらいましょう。 今回は、AIのように文字の“似ている度合い”を判定してくれる ...
RapidFuzz is a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy. However there are two aspects that set RapidFuzz apart from ...
Note that from RapidFuzz 3.0.0, strings are not preprocessed (removing all non alphanumeric characters, trimming whitespaces, converting all characters to lower case) by default. Which means that when ...
最近は大規模言語モデルのコーパスづくりに四苦八苦しています。 収集したテキストには、多くの重複データが含まれるためそれらを削除する作業が大切です。 重複削除はCなどのコンパイル言語で高速にやるのが常套手段なのですが、今回はあえて、python ...