プロジェクト

全般

プロフィール

活動

2025-10-22から2025-11-20まで

2025-11-20

16:55 機能 #770: 請求書の項目抽出
今の所できているのは基本情報のシートだけです。
Hoshino Yuji

2025-11-19

18:38 機能 #770: 請求書の項目抽出
はい、そんな感じでやろうとしています。
ただここ数回通して実行して微妙に結果が取れないものが発生するので
ログを調べていたらClaudeがたまにエラーになってしまうことがあり、
調べてみるとClaudeの負荷が大きい時などエ...
Hoshino Yuji
18:09 機能 #770: 請求書の項目抽出
いちおう整理してメモします。私の理解では、↑の結果はjsonファイルのピックアップ・ループ・集計もLLMに一括してやらせていると思うのですが、それだとLLMが間違ったことをしそうなので、
* 個別jsonファイルペア間の比較評価だけ...
Kano Yoshinobu
18:03 機能 #770: 請求書の項目抽出
現在プログラムを作成中です。
とりあえずclaudeへの入出力のトークン数と実行時間をとってみたところです。
ざっくり計算してみると
| 1回目入力トークン平均 | 1回目出力トークン平均 | 2回目入力トークン平均...
Hoshino Yuji
16:57 機能 #770: 請求書の項目抽出
LLMでの自動評価の件、こちら確認お願いします:
> こちら全ファイルを一回分のLLM入出力で処理させてますでしょうか?
> 入力が長いと失敗しがちなので、PDF1ファイル分ずつ呼び出すようにして、その結果の集計は別途書いていただ...
Kano Yoshinobu

2025-11-14

20:01 機能 #770: 請求書の項目抽出
ログインできなかったため、ファイルを見ることができないのですが、
こちら全ファイルを一回分のLLM入出力で処理させてますでしょうか?
入力が長いと失敗しがちなので、PDF1ファイル分ずつ呼び出すようにして、その結果の集計は別途書い...
Kano Yoshinobu
19:08 機能 #770: 請求書の項目抽出
学生への依頼は、直接Slackに投げていただけないでしょうか? Kano Yoshinobu
18:19 機能 #770: 請求書の項目抽出
学生さんへのグルーピングのアノテーション依頼ですが、上のLLMが一致率を指しているもので100%でないものを上から5つの評価を
依頼できないでしょうか? あるいは100%のも含めて上から5個でも良いです。
2. U755 20...
Hoshino Yuji
16:30 機能 #770: 請求書の項目抽出
LLMで評価させてみました。
評価に使用したプログラムはawsのEC2のマシン(18.177.86.3)の/home/solution/infomart_dev/bedrock_eval.pyです。
おもて情報の評価プロンプト...
Hoshino Yuji
14:32 機能 #770: 請求書の項目抽出
お願い事
・LLMによる自動評価の結果共有
(後日)LLM評価用プロンプトの調整
・学生アルバイトへのグルーピング採点依頼(とりあえず数件ぐらい)
・LLMによる失敗事例の自動要因分析出力
・AWS実行インスタンスへのアクセ...
Kano Yoshinobu

2025-11-13

17:21 機能 #770: 請求書の項目抽出

・明細の精込みと税抜きが同じなら税込みは削除するようにした
・振込先、明細の正解データのタイプミスと思われる箇所を修正
・振込先の預金者名の"-"は"ー"に置換
・振込先の預金者名カナの判定パターンに空白を追加
| お...
Hoshino Yuji

2025-11-12

16:21 機能 #770: 請求書の項目抽出
明細の結果を見ていって気になったところです。
・みずほ銀行手数料請求書_45652925
 正解データ: ビジネスマッチング手数料鍋林株式会社
 システム出力: ビジネスマッチング手数料 
 「鍋林株式会社」は別のカラ...
Hoshino Yuji
15:30 機能 #770: 請求書の項目抽出
・明細情報の正解ファイルをかわけんさんが金曜日にslackに上げられていたものに変更
・正解データの金額等小数点がついているので比較時に"100.0"の場合は"100"に変更。"¥"や","も削除
・明細の比較結果で項目名を含む場...
Hoshino Yuji

2025-11-07

17:29 機能 #770: 請求書の項目抽出

・振込先がの預金者名が全部カタカナの場合は「預金者名カナ」へ移動するようにした
・住所のX丁目Y番地Z号をX-Y-Zへ正規化
・評価時の文字列比較の空白無視
・評価時の文字列比較でどう見ても同じように見える文字列が評価時にX...
Hoshino Yuji

2025-11-06

14:15 機能 #770: 請求書の項目抽出
最新のプロンプトで全部実行し直してみました。
前回から少しプロンプトを調整しています。
グループ化のプロンプトに"請求書です"と入れるとLLMの考える請求書の項目が揃っていないと
LLMが "申し訳ありませんが・・・" と言...
Hoshino Yuji

2025-10-30

17:07 機能 #770: 請求書の項目抽出
明細取得がいまいちな例で 【ドゥイット】F20240630-000326_45517396.pdf を実行した時のログを添付しました。
この中の行で
[LLM]prompt がプロンプト
[LLM]document が添付フ...
Hoshino Yuji
14:42 機能 #770: 請求書の項目抽出
LLMでグループ化→情報取得版がひと通り動くようになったので評価結果を出してみました。
おもて情報、振込先は以前のものよりかなりよい数字になりました。
明細は正解データが学生さんに作ってもらったのをコピペしただけなので正解の妥...
Hoshino Yuji
10:45 機能 #770: 請求書の項目抽出
既存のプログラムにLLMでグループ化してから情報の取得を組み込んで実行してみているのですが、たまに以下のようなメッセージを出してグループ化してくれないことがあります。
同じファイルでも再度実行したらちゃんとグループ化してくれたりする...
Hoshino Yuji

2025-10-28

15:27 機能 #770: 請求書の項目抽出
LLMにグループ化させた情報で値を取得するようにしてみた結果です。
元データは、"【MWI】【請求書】インフォマート様_AT連携【6月分】_45363452.pdf"で、これを前述のOCR読み取り情報のフォーマットからグループ化させ...
Hoshino Yuji
11:09 機能 #770: 請求書の項目抽出
ちなみに今は座標はfloatで取れた値を入れているのですがintにして小数点以下をなくしてLLMに渡すとトークンはかなり減らせるのでは無いかと思いました。
それでグループ化させると精度がかなり落ちてしまうと問題ですがあまり影響はなさ...
Hoshino Yuji
10:51 機能 #770: 請求書の項目抽出
ご参考までにOCRで読み込んだ後の座標、テキストのデータの例をいくつかアップロードしておきます。
Hoshino Yuji

2025-10-27

18:06 機能 #770: 請求書の項目抽出
従来のものの振込先情報の取得のみLLM優先で取れなかった場合はルールで取得を試みるようにしたものを実行してみました。
プロンプトは以下のものです。...
Hoshino Yuji

2025-10-24

13:55 機能 #770: 請求書の項目抽出
グループ化した情報を出力したものです。
Hoshino Yuji
13:26 機能 #770: 請求書の項目抽出
少し改良しました。
・ 元データに郵便番号のないもおは住所っぽい文字列があるグループの文字を全部取ってしまっていたので
  → 都道府県より前は切る
  → 記号類があればる
・明細項目の取得は、明細ヘッダをルール優先とL...
Hoshino Yuji
 

他の形式にエクスポート: Atom