活動
2025-07-01から2025-07-30まで
2025-07-25
- 18:43 機能 #770: 請求書の項目抽出
- GoogleのEnterprise OCRを繋げて実行した結果が出ましたので結果を追加しておきます。
PaddleOCRで読み込ませるイメージの解像度を上げてみたところ正解数が418まで上がりましたが
GoogleのOCRだと...
2025-07-24
- 17:36 機能 #770: 請求書の項目抽出
- GoogleのEnterprise Document OCRの結果が取れたので追加しておきます。
Google Driveのは認識精度的にちょっと使えない感じでしたが所々で間違っている箇所はありますがテキスト部に関してはかなり良いと...
2025-07-23
- 16:33 機能 #770: 請求書の項目抽出
- PDF画像化: Pdf2image
OCR : PaddleOCR 3.1.0
をつなげてPdfMinerでテキスト抽出できなかった80ファイルと文字化けしていた3ファイルで実行した結果です。
Pdf2image、PaddleO...
2025-07-18
- 14:19 機能 #770: 請求書の項目抽出
- ミーティング用サンプルです。
pdfが読み取り元の請求書ファイル
txtがpdfから取り出したテキストとその座標
jsonが文字列と座標をグループ化したファイルになります。
検証AI-OCR読み取り結果比較がinfomar... - 10:03 機能 #770: 請求書の項目抽出
- 0717版にファイルを更新
2025-07-17
- 10:38 機能 #770: 請求書の項目抽出
- 前回から正解数はあまり変わってないのですが7/16での結果です。
正解データとして使用しているファイルもアップロードしておきます。
いただいているpdfファイルは214ファイルあるのですが、ファイル中からテキストの取得できるフ...
2025-07-11
- 17:34 機能 #770: 請求書の項目抽出
- いろいろ修正して少しづつ正解数が増えてきて最初の936から現在1352。
間違いが多いところでは消費税10%や消費税8%の取得あたりなのでその辺りが課題です。
2025-07-02
- 14:43 機能 #770: 請求書の項目抽出
- Java版からPtyhonに移植したもののデバッグがだいたい終了して正解データを作り直して実行した結果ファイルです。
今回から正解、抽出結果ともないものは正解数には入れないようにして計算しています。
◯のものが正解で、間違っている...
他の形式にエクスポート: Atom