プロジェクト

全般

プロフィール

Hoshino Yuji の活動

2025-10-19から2025-11-17まで

2025-11-14

18:19 請求書OCR 機能 #770: 請求書の項目抽出
学生さんへのグルーピングのアノテーション依頼ですが、上のLLMが一致率を指しているもので100%でないものを上から5つの評価を
依頼できないでしょうか? あるいは100%のも含めて上から5個でも良いです。
2. U755 20...
Hoshino Yuji
16:30 請求書OCR 機能 #770: 請求書の項目抽出
LLMで評価させてみました。
評価に使用したプログラムはawsのEC2のマシン(18.177.86.3)の/home/solution/infomart_dev/bedrock_eval.pyです。
おもて情報の評価プロンプト...
Hoshino Yuji
13:00 請求書OCR Wiki編集: Wiki (#6)
Hoshino Yuji

2025-11-13

17:21 請求書OCR 機能 #770: 請求書の項目抽出

・明細の精込みと税抜きが同じなら税込みは削除するようにした
・振込先、明細の正解データのタイプミスと思われる箇所を修正
・振込先の預金者名の"-"は"ー"に置換
・振込先の預金者名カナの判定パターンに空白を追加
| お...
Hoshino Yuji

2025-11-12

16:21 請求書OCR 機能 #770: 請求書の項目抽出
明細の結果を見ていって気になったところです。
・みずほ銀行手数料請求書_45652925
 正解データ: ビジネスマッチング手数料鍋林株式会社
 システム出力: ビジネスマッチング手数料 
 「鍋林株式会社」は別のカラ...
Hoshino Yuji
15:30 請求書OCR 機能 #770: 請求書の項目抽出
・明細情報の正解ファイルをかわけんさんが金曜日にslackに上げられていたものに変更
・正解データの金額等小数点がついているので比較時に"100.0"の場合は"100"に変更。"¥"や","も削除
・明細の比較結果で項目名を含む場...
Hoshino Yuji

2025-11-07

17:29 請求書OCR 機能 #770: 請求書の項目抽出

・振込先がの預金者名が全部カタカナの場合は「預金者名カナ」へ移動するようにした
・住所のX丁目Y番地Z号をX-Y-Zへ正規化
・評価時の文字列比較の空白無視
・評価時の文字列比較でどう見ても同じように見える文字列が評価時にX...
Hoshino Yuji

2025-11-06

14:15 請求書OCR 機能 #770: 請求書の項目抽出
最新のプロンプトで全部実行し直してみました。
前回から少しプロンプトを調整しています。
グループ化のプロンプトに"請求書です"と入れるとLLMの考える請求書の項目が揃っていないと
LLMが "申し訳ありませんが・・・" と言...
Hoshino Yuji

2025-10-30

17:07 請求書OCR 機能 #770: 請求書の項目抽出
明細取得がいまいちな例で 【ドゥイット】F20240630-000326_45517396.pdf を実行した時のログを添付しました。
この中の行で
[LLM]prompt がプロンプト
[LLM]document が添付フ...
Hoshino Yuji
14:42 請求書OCR 機能 #770: 請求書の項目抽出
LLMでグループ化→情報取得版がひと通り動くようになったので評価結果を出してみました。
おもて情報、振込先は以前のものよりかなりよい数字になりました。
明細は正解データが学生さんに作ってもらったのをコピペしただけなので正解の妥...
Hoshino Yuji
10:45 請求書OCR 機能 #770: 請求書の項目抽出
既存のプログラムにLLMでグループ化してから情報の取得を組み込んで実行してみているのですが、たまに以下のようなメッセージを出してグループ化してくれないことがあります。
同じファイルでも再度実行したらちゃんとグループ化してくれたりする...
Hoshino Yuji

2025-10-28

15:27 請求書OCR 機能 #770: 請求書の項目抽出
LLMにグループ化させた情報で値を取得するようにしてみた結果です。
元データは、"【MWI】【請求書】インフォマート様_AT連携【6月分】_45363452.pdf"で、これを前述のOCR読み取り情報のフォーマットからグループ化させ...
Hoshino Yuji
11:09 請求書OCR 機能 #770: 請求書の項目抽出
ちなみに今は座標はfloatで取れた値を入れているのですがintにして小数点以下をなくしてLLMに渡すとトークンはかなり減らせるのでは無いかと思いました。
それでグループ化させると精度がかなり落ちてしまうと問題ですがあまり影響はなさ...
Hoshino Yuji
10:51 請求書OCR 機能 #770: 請求書の項目抽出
ご参考までにOCRで読み込んだ後の座標、テキストのデータの例をいくつかアップロードしておきます。
Hoshino Yuji

2025-10-27

18:06 請求書OCR 機能 #770: 請求書の項目抽出
従来のものの振込先情報の取得のみLLM優先で取れなかった場合はルールで取得を試みるようにしたものを実行してみました。
プロンプトは以下のものです。...
Hoshino Yuji

2025-10-24

13:55 請求書OCR 機能 #770: 請求書の項目抽出
グループ化した情報を出力したものです。
Hoshino Yuji
13:26 請求書OCR 機能 #770: 請求書の項目抽出
少し改良しました。
・ 元データに郵便番号のないもおは住所っぽい文字列があるグループの文字を全部取ってしまっていたので
  → 都道府県より前は切る
  → 記号類があればる
・明細項目の取得は、明細ヘッダをルール優先とL...
Hoshino Yuji

2025-10-21

17:52 請求書OCR 機能 #770: 請求書の項目抽出
現在の状況です。
Hoshino Yuji
17:02 請求書OCR 機能 #770: 請求書の項目抽出

・LLMで補完機能を追加
| おもて | 1768/3530(50.08) |
| 振込先 | 783/2071(37.81) |
| 明細 | 66/12205(0.54)) |
・おもて情報と請求元情...
Hoshino Yuji
16:15 請求書OCR 機能 #770: 請求書の項目抽出
以前は取れていたものでフォントサイズでのグループ化するようにしたことで取得できなくなってしまった例
!ng_name.png!
請求元の記述でこまめにフォントのサイズを切り替えているタイプのものです。
こういうのは別グル...
Hoshino Yuji

2025-10-20

18:28 請求書OCR 機能 #770: 請求書の項目抽出
LLMでの値補完ようにいろいろ修正していたのですが全体的に少し値が下がってしまいました。
振込先情報の取得で、振込先名とカナ表記の振込先名が繋がってしまってまずいので空白を残すようにしたのの影響が細かく出てしまっているのが原因っぽく...
Hoshino Yuji
 

他の形式にエクスポート: Atom