全般

プロフィール

Hoshino Yuji

  • メールアドレス: hoshino@jsa.co.jp
  • 登録日: 2013-12-27
  • 最終接続日: 2026-03-31

チケット

プロジェクト

  • GPU (管理者, 開発者, 報告者, 2023-11-06)
  • 請求書OCR (管理者, 開発者, 報告者, 2025-03-27)

活動

2025-12-17

17:07 請求書OCR 機能 #770: 請求書の項目抽出
PowerPointの資料を作成してみました。
こんな感じでしょうか?

2025-12-16

14:18 請求書OCR Wiki編集: Wiki (#15)
14:17 請求書OCR Wiki編集: Wiki (#14)

2025-12-15

16:42 請求書OCR 機能 #770: 請求書の項目抽出
LLMを使用した評価のシートも値がない場合の修正をして全体統計シートを追加してみました。
説明文も少し追加してみてますがどんなもんでしょうか?

2025-12-11

13:12 請求書OCR 機能 #770: 請求書の項目抽出
前回のものに先頭に全体統計のシートをつけてみました。
こんな感じで良いでしょうか?

2025-12-09

18:49 請求書OCR 機能 #770: 請求書の項目抽出
extarctが差分は取得した文字列そのままでllmの方は正解データとの差分をLLMで多少の違いは
無視してもらって出力した結果から作成したものです。なので正解データの方が送り仮名等で
間違っているものが吸収されているはずですが検...

2025-12-08

18:42 請求書OCR 機能 #770: 請求書の項目抽出
少し違うかもしれませんが近似値を段階的にカウントして
PDFからの文字取り出し、OCRでの文字化、トータルの3種類と
ドキュメント毎での計算を追加してみました。
minerがPDF MInerでのテキスト取り出し、azure...

2025-11-28

17:21 請求書OCR 機能 #770: 請求書の項目抽出
PDFからの画像抽出のメモ
・画像でJPEGがそのまま埋め込まれているのは容易に出力可能。
・スキャンした画像をそのまま埋め込んでいるタイプのPDFはJPEGがそのまま入っているパターンが多い.
・会社のロゴだけというタイプ...
13:49 請求書OCR 機能 #770: 請求書の項目抽出
内容は同じですがOCRでAzureを使用したかわかりやすいように各シートの最後のカラムに使用OCRの種別(a:azure m:pdfminer)を追加しました。

2025-11-27

15:28 請求書OCR 機能 #770: 請求書の項目抽出
トークンの節約で容易にできるプロンプトのインデントで使ったいた空白や改行を減らすというのを実験してみた結果が出たので
記述しておきます。
| | 入力トークン平均 | 出力トークン平均 |
| 元プロンプト| 5698.8...

他の形式にエクスポート: Atom