プロジェクト

全般

プロフィール

活動

2025-07-11から2025-08-09まで

2025-08-08

16:10 機能 #770: 請求書の項目抽出
振込先情報と詳細情報の評価あたりを実装していて、とりあえず振込先情報は少し取れるようになりましたので評価をしてみました。
PDFからPdfMinerでテキストを取得できないものはOCRの結果を使ったテキストを使用するようにして評価で...
Hoshino Yuji

2025-07-25

18:43 機能 #770: 請求書の項目抽出
GoogleのEnterprise OCRを繋げて実行した結果が出ましたので結果を追加しておきます。
PaddleOCRで読み込ませるイメージの解像度を上げてみたところ正解数が418まで上がりましたが
GoogleのOCRだと...
Hoshino Yuji

2025-07-24

17:36 機能 #770: 請求書の項目抽出
GoogleのEnterprise Document OCRの結果が取れたので追加しておきます。
Google Driveのは認識精度的にちょっと使えない感じでしたが所々で間違っている箇所はありますがテキスト部に関してはかなり良いと...
Hoshino Yuji

2025-07-23

16:33 機能 #770: 請求書の項目抽出
PDF画像化: Pdf2image
OCR : PaddleOCR 3.1.0
をつなげてPdfMinerでテキスト抽出できなかった80ファイルと文字化けしていた3ファイルで実行した結果です。
Pdf2image、PaddleO...
Hoshino Yuji

2025-07-18

14:19 機能 #770: 請求書の項目抽出
ミーティング用サンプルです。
pdfが読み取り元の請求書ファイル
txtがpdfから取り出したテキストとその座標
jsonが文字列と座標をグループ化したファイルになります。
検証AI-OCR読み取り結果比較がinfomar...
Hoshino Yuji
10:03 機能 #770: 請求書の項目抽出
0717版にファイルを更新 Hoshino Yuji

2025-07-17

10:38 機能 #770: 請求書の項目抽出
前回から正解数はあまり変わってないのですが7/16での結果です。
正解データとして使用しているファイルもアップロードしておきます。
いただいているpdfファイルは214ファイルあるのですが、ファイル中からテキストの取得できるフ...
Hoshino Yuji

2025-07-11

17:34 機能 #770: 請求書の項目抽出
いろいろ修正して少しづつ正解数が増えてきて最初の936から現在1352。
間違いが多いところでは消費税10%や消費税8%の取得あたりなのでその辺りが課題です。
Hoshino Yuji
 

他の形式にエクスポート: Atom