活動
2025-10-07から2025-11-05まで
2025-10-30
- 17:07 請求書OCR 機能 #770: 請求書の項目抽出
- 明細取得がいまいちな例で 【ドゥイット】F20240630-000326_45517396.pdf を実行した時のログを添付しました。
この中の行で
[LLM]prompt がプロンプト
[LLM]document が添付フ... - 14:42 請求書OCR 機能 #770: 請求書の項目抽出
- LLMでグループ化→情報取得版がひと通り動くようになったので評価結果を出してみました。
おもて情報、振込先は以前のものよりかなりよい数字になりました。
明細は正解データが学生さんに作ってもらったのをコピペしただけなので正解の妥... - 10:45 請求書OCR 機能 #770: 請求書の項目抽出
- 既存のプログラムにLLMでグループ化してから情報の取得を組み込んで実行してみているのですが、たまに以下のようなメッセージを出してグループ化してくれないことがあります。
同じファイルでも再度実行したらちゃんとグループ化してくれたりする...
2025-10-28
- 15:27 請求書OCR 機能 #770: 請求書の項目抽出
- LLMにグループ化させた情報で値を取得するようにしてみた結果です。
元データは、"【MWI】【請求書】インフォマート様_AT連携【6月分】_45363452.pdf"で、これを前述のOCR読み取り情報のフォーマットからグループ化させ... - 11:09 請求書OCR 機能 #770: 請求書の項目抽出
- ちなみに今は座標はfloatで取れた値を入れているのですがintにして小数点以下をなくしてLLMに渡すとトークンはかなり減らせるのでは無いかと思いました。
それでグループ化させると精度がかなり落ちてしまうと問題ですがあまり影響はなさ... - 10:51 請求書OCR 機能 #770: 請求書の項目抽出
- ご参考までにOCRで読み込んだ後の座標、テキストのデータの例をいくつかアップロードしておきます。
2025-10-27
- 18:06 請求書OCR 機能 #770: 請求書の項目抽出
- 従来のものの振込先情報の取得のみLLM優先で取れなかった場合はルールで取得を試みるようにしたものを実行してみました。
プロンプトは以下のものです。...
2025-10-24
- 13:55 請求書OCR 機能 #770: 請求書の項目抽出
- グループ化した情報を出力したものです。
- 13:26 請求書OCR 機能 #770: 請求書の項目抽出
- 少し改良しました。
・ 元データに郵便番号のないもおは住所っぽい文字列があるグループの文字を全部取ってしまっていたので
→ 都道府県より前は切る
→ 記号類があればる
・明細項目の取得は、明細ヘッダをルール優先とL...
2025-10-21
- 17:52 請求書OCR 機能 #770: 請求書の項目抽出
- 現在の状況です。
- 17:02 請求書OCR 機能 #770: 請求書の項目抽出
・LLMで補完機能を追加
| おもて | 1768/3530(50.08) |
| 振込先 | 783/2071(37.81) |
| 明細 | 66/12205(0.54)) |
・おもて情報と請求元情...- 16:15 請求書OCR 機能 #770: 請求書の項目抽出
- 以前は取れていたものでフォントサイズでのグループ化するようにしたことで取得できなくなってしまった例
!ng_name.png!
請求元の記述でこまめにフォントのサイズを切り替えているタイプのものです。
こういうのは別グル...
2025-10-20
- 18:28 請求書OCR 機能 #770: 請求書の項目抽出
- LLMでの値補完ようにいろいろ修正していたのですが全体的に少し値が下がってしまいました。
振込先情報の取得で、振込先名とカナ表記の振込先名が繋がってしまってまずいので空白を残すようにしたのの影響が細かく出てしまっているのが原因っぽく...
2025-10-16
- 10:23 請求書OCR 機能 #770: 請求書の項目抽出
テキストのグループ化時のテキストの高さの違いで別フォントと判断して別グループに判断するようにして実験してみました。
厳密に同じ高さだと正解がかなり落ちてしまうので2pixelの差までは同じとして判断しています。
請求元情報が少...
2025-10-07
- 14:05 請求書OCR 機能 #770: 請求書の項目抽出
スケジュール:
10/24 定例
11/21 定例 その後のメンテナンス方法を説明
ということですので、少々押していますが、
* 当面の優先事項は、座標と属性を使ったグルーピングの性能向上。
実装や設計への変更が一番...- 12:54 請求書OCR 機能 #770: 請求書の項目抽出
- メモ
明細のうち所属が不明なテキスト断片の処理:
人間の判断をできるだけ再現する
テキスト断片の周辺テキストの、インデント量・フォントサイズ・行間隔をデータ取得し、(何らか)パターン化して判断する
他の形式にエクスポート: Atom