プロジェクト

全般

プロフィール

活動

2025-11-16から2025-12-15まで

2025-12-15

18:18 機能 #770: 請求書の項目抽出
評価シートはいただいたもので問題ないと思います。 Kano Yoshinobu
16:42 機能 #770: 請求書の項目抽出
LLMを使用した評価のシートも値がない場合の修正をして全体統計シートを追加してみました。
説明文も少し追加してみてますがどんなもんでしょうか?
Hoshino Yuji

2025-12-11

13:12 機能 #770: 請求書の項目抽出
前回のものに先頭に全体統計のシートをつけてみました。
こんな感じで良いでしょうか?
Hoshino Yuji

2025-12-09

18:49 機能 #770: 請求書の項目抽出
extarctが差分は取得した文字列そのままでllmの方は正解データとの差分をLLMで多少の違いは
無視してもらって出力した結果から作成したものです。なので正解データの方が送り仮名等で
間違っているものが吸収されているはずですが検...
Hoshino Yuji
18:07 機能 #770: 請求書の項目抽出
ありがとうございます。extrac が初期に作ったルールベースの結果、 llm が今回のLLM2段構えによる手法で、あっているでしょうか。
今回の手法は、LLM で対応できない場合にルールベースにフォールバックするようになっていると...
Kano Yoshinobu

2025-12-08

18:42 機能 #770: 請求書の項目抽出
少し違うかもしれませんが近似値を段階的にカウントして
PDFからの文字取り出し、OCRでの文字化、トータルの3種類と
ドキュメント毎での計算を追加してみました。
minerがPDF MInerでのテキスト取り出し、azure...
Hoshino Yuji

2025-11-28

17:21 機能 #770: 請求書の項目抽出
PDFからの画像抽出のメモ
・画像でJPEGがそのまま埋め込まれているのは容易に出力可能。
・スキャンした画像をそのまま埋め込んでいるタイプのPDFはJPEGがそのまま入っているパターンが多い.
・会社のロゴだけというタイプ...
Hoshino Yuji
13:49 機能 #770: 請求書の項目抽出
内容は同じですがOCRでAzureを使用したかわかりやすいように各シートの最後のカラムに使用OCRの種別(a:azure m:pdfminer)を追加しました。
Hoshino Yuji

2025-11-27

15:28 機能 #770: 請求書の項目抽出
トークンの節約で容易にできるプロンプトのインデントで使ったいた空白や改行を減らすというのを実験してみた結果が出たので
記述しておきます。
| | 入力トークン平均 | 出力トークン平均 |
| 元プロンプト| 5698.8...
Hoshino Yuji
11:17 機能 #770: 請求書の項目抽出

> グルーピングのセッションをリセットせず、ラベリングも続けて(次の入力として)実行する
の方法ですが、調べてみますと、...
Hoshino Yuji

2025-11-26

17:22 機能 #770: 請求書の項目抽出
読み取り結果の出力で従来の読み取り結果と正解ファイルからの比較を行うファイルも作成してみました。
また差分をClaudeで取ったものにも正解?(関数で近似値が0.7以上)のものの個数も出すようにしてみました。
Hoshino Yuji

2025-11-20

16:55 機能 #770: 請求書の項目抽出
今の所できているのは基本情報のシートだけです。
Hoshino Yuji

2025-11-19

18:38 機能 #770: 請求書の項目抽出
はい、そんな感じでやろうとしています。
ただここ数回通して実行して微妙に結果が取れないものが発生するので
ログを調べていたらClaudeがたまにエラーになってしまうことがあり、
調べてみるとClaudeの負荷が大きい時などエ...
Hoshino Yuji
18:09 機能 #770: 請求書の項目抽出
いちおう整理してメモします。私の理解では、↑の結果はjsonファイルのピックアップ・ループ・集計もLLMに一括してやらせていると思うのですが、それだとLLMが間違ったことをしそうなので、
* 個別jsonファイルペア間の比較評価だけ...
Kano Yoshinobu
18:03 機能 #770: 請求書の項目抽出
現在プログラムを作成中です。
とりあえずclaudeへの入出力のトークン数と実行時間をとってみたところです。
ざっくり計算してみると
| 1回目入力トークン平均 | 1回目出力トークン平均 | 2回目入力トークン平均...
Hoshino Yuji
16:57 機能 #770: 請求書の項目抽出
LLMでの自動評価の件、こちら確認お願いします:
> こちら全ファイルを一回分のLLM入出力で処理させてますでしょうか?
> 入力が長いと失敗しがちなので、PDF1ファイル分ずつ呼び出すようにして、その結果の集計は別途書いていただ...
Kano Yoshinobu
 

他の形式にエクスポート: Atom