活動
2025-11-10から2025-12-09まで
2025-12-09
- 18:49 機能 #770: 請求書の項目抽出
- extarctが差分は取得した文字列そのままでllmの方は正解データとの差分をLLMで多少の違いは
無視してもらって出力した結果から作成したものです。なので正解データの方が送り仮名等で
間違っているものが吸収されているはずですが検... - 18:07 機能 #770: 請求書の項目抽出
- ありがとうございます。extrac が初期に作ったルールベースの結果、 llm が今回のLLM2段構えによる手法で、あっているでしょうか。
今回の手法は、LLM で対応できない場合にルールベースにフォールバックするようになっていると...
2025-12-08
- 18:42 機能 #770: 請求書の項目抽出
- 少し違うかもしれませんが近似値を段階的にカウントして
PDFからの文字取り出し、OCRでの文字化、トータルの3種類と
ドキュメント毎での計算を追加してみました。
minerがPDF MInerでのテキスト取り出し、azure...
2025-11-28
- 17:21 機能 #770: 請求書の項目抽出
- PDFからの画像抽出のメモ
・画像でJPEGがそのまま埋め込まれているのは容易に出力可能。
・スキャンした画像をそのまま埋め込んでいるタイプのPDFはJPEGがそのまま入っているパターンが多い.
・会社のロゴだけというタイプ... - 13:49 機能 #770: 請求書の項目抽出
- 内容は同じですがOCRでAzureを使用したかわかりやすいように各シートの最後のカラムに使用OCRの種別(a:azure m:pdfminer)を追加しました。
2025-11-27
- 15:28 機能 #770: 請求書の項目抽出
- トークンの節約で容易にできるプロンプトのインデントで使ったいた空白や改行を減らすというのを実験してみた結果が出たので
記述しておきます。
| | 入力トークン平均 | 出力トークン平均 |
| 元プロンプト| 5698.8... - 11:17 機能 #770: 請求書の項目抽出
> グルーピングのセッションをリセットせず、ラベリングも続けて(次の入力として)実行する
の方法ですが、調べてみますと、...
2025-11-26
- 17:22 機能 #770: 請求書の項目抽出
- 読み取り結果の出力で従来の読み取り結果と正解ファイルからの比較を行うファイルも作成してみました。
また差分をClaudeで取ったものにも正解?(関数で近似値が0.7以上)のものの個数も出すようにしてみました。
2025-11-20
- 16:55 機能 #770: 請求書の項目抽出
- 今の所できているのは基本情報のシートだけです。
2025-11-19
- 18:38 機能 #770: 請求書の項目抽出
- はい、そんな感じでやろうとしています。
ただここ数回通して実行して微妙に結果が取れないものが発生するので
ログを調べていたらClaudeがたまにエラーになってしまうことがあり、
調べてみるとClaudeの負荷が大きい時などエ... - 18:09 機能 #770: 請求書の項目抽出
- いちおう整理してメモします。私の理解では、↑の結果はjsonファイルのピックアップ・ループ・集計もLLMに一括してやらせていると思うのですが、それだとLLMが間違ったことをしそうなので、
* 個別jsonファイルペア間の比較評価だけ... - 18:03 機能 #770: 請求書の項目抽出
- 現在プログラムを作成中です。
とりあえずclaudeへの入出力のトークン数と実行時間をとってみたところです。
ざっくり計算してみると
| 1回目入力トークン平均 | 1回目出力トークン平均 | 2回目入力トークン平均... - 16:57 機能 #770: 請求書の項目抽出
- LLMでの自動評価の件、こちら確認お願いします:
> こちら全ファイルを一回分のLLM入出力で処理させてますでしょうか?
> 入力が長いと失敗しがちなので、PDF1ファイル分ずつ呼び出すようにして、その結果の集計は別途書いていただ...
2025-11-14
- 20:01 機能 #770: 請求書の項目抽出
- ログインできなかったため、ファイルを見ることができないのですが、
こちら全ファイルを一回分のLLM入出力で処理させてますでしょうか?
入力が長いと失敗しがちなので、PDF1ファイル分ずつ呼び出すようにして、その結果の集計は別途書い... - 19:08 機能 #770: 請求書の項目抽出
- 学生への依頼は、直接Slackに投げていただけないでしょうか?
- 18:19 機能 #770: 請求書の項目抽出
- 学生さんへのグルーピングのアノテーション依頼ですが、上のLLMが一致率を指しているもので100%でないものを上から5つの評価を
依頼できないでしょうか? あるいは100%のも含めて上から5個でも良いです。
2. U755 20... - 16:30 機能 #770: 請求書の項目抽出
- LLMで評価させてみました。
評価に使用したプログラムはawsのEC2のマシン(18.177.86.3)の/home/solution/infomart_dev/bedrock_eval.pyです。
おもて情報の評価プロンプト... - 14:32 機能 #770: 請求書の項目抽出
- お願い事
・LLMによる自動評価の結果共有
(後日)LLM評価用プロンプトの調整
・学生アルバイトへのグルーピング採点依頼(とりあえず数件ぐらい)
・LLMによる失敗事例の自動要因分析出力
・AWS実行インスタンスへのアクセ...
2025-11-13
- 17:21 機能 #770: 請求書の項目抽出
・明細の精込みと税抜きが同じなら税込みは削除するようにした
・振込先、明細の正解データのタイプミスと思われる箇所を修正
・振込先の預金者名の"-"は"ー"に置換
・振込先の預金者名カナの判定パターンに空白を追加
| お...
2025-11-12
- 16:21 機能 #770: 請求書の項目抽出
- 明細の結果を見ていって気になったところです。
・みずほ銀行手数料請求書_45652925
正解データ: ビジネスマッチング手数料鍋林株式会社
システム出力: ビジネスマッチング手数料
「鍋林株式会社」は別のカラ... - 15:30 機能 #770: 請求書の項目抽出
- ・明細情報の正解ファイルをかわけんさんが金曜日にslackに上げられていたものに変更
・正解データの金額等小数点がついているので比較時に"100.0"の場合は"100"に変更。"¥"や","も削除
・明細の比較結果で項目名を含む場...
他の形式にエクスポート: Atom