プロジェクト

全般

プロフィール

活動

2025-09-26から2025-10-25まで

2025-10-24

13:55 機能 #770: 請求書の項目抽出
グループ化した情報を出力したものです。
Hoshino Yuji
13:26 機能 #770: 請求書の項目抽出
少し改良しました。
・ 元データに郵便番号のないもおは住所っぽい文字列があるグループの文字を全部取ってしまっていたので
  → 都道府県より前は切る
  → 記号類があればる
・明細項目の取得は、明細ヘッダをルール優先とL...
Hoshino Yuji

2025-10-21

17:52 機能 #770: 請求書の項目抽出
現在の状況です。
Hoshino Yuji
17:02 機能 #770: 請求書の項目抽出

・LLMで補完機能を追加
| おもて | 1768/3530(50.08) |
| 振込先 | 783/2071(37.81) |
| 明細 | 66/12205(0.54)) |
・おもて情報と請求元情...
Hoshino Yuji
16:15 機能 #770: 請求書の項目抽出
以前は取れていたものでフォントサイズでのグループ化するようにしたことで取得できなくなってしまった例
!ng_name.png!
請求元の記述でこまめにフォントのサイズを切り替えているタイプのものです。
こういうのは別グル...
Hoshino Yuji

2025-10-20

18:28 機能 #770: 請求書の項目抽出
LLMでの値補完ようにいろいろ修正していたのですが全体的に少し値が下がってしまいました。
振込先情報の取得で、振込先名とカナ表記の振込先名が繋がってしまってまずいので空白を残すようにしたのの影響が細かく出てしまっているのが原因っぽく...
Hoshino Yuji

2025-10-16

10:23 機能 #770: 請求書の項目抽出

テキストのグループ化時のテキストの高さの違いで別フォントと判断して別グループに判断するようにして実験してみました。
厳密に同じ高さだと正解がかなり落ちてしまうので2pixelの差までは同じとして判断しています。
請求元情報が少...
Hoshino Yuji

2025-10-07

14:05 機能 #770: 請求書の項目抽出

スケジュール:
10/24 定例
11/21 定例 その後のメンテナンス方法を説明
ということですので、少々押していますが、
* 当面の優先事項は、座標と属性を使ったグルーピングの性能向上。
実装や設計への変更が一番...
Kano Yoshinobu
12:54 機能 #770: 請求書の項目抽出
メモ
明細のうち所属が不明なテキスト断片の処理:
 人間の判断をできるだけ再現する
 テキスト断片の周辺テキストの、インデント量・フォントサイズ・行間隔をデータ取得し、(何らか)パターン化して判断する
Kano Yoshinobu

2025-10-01

14:59 機能 #770: 請求書の項目抽出
> ・明細項目が段組になっているものは取得結果がおかしい
検討課題
> ・明細の内訳項目のカラムに明細日時が入っているものが取れない
日時など項目の値の種類判別、抽出はLLMに任せたい
> ・今は合計があれば明細処理を...
Kano Yoshinobu
13:19 機能 #770: 請求書の項目抽出

修正履歴
・項目番号取得で項目番号は数字のみとした
・金額等の数字取得で数字のみでなくコンマで3桁に区切ってあるものも取得する
・請求元で不要な"発行元:"等を削除する
・明細項目の取得対象に'検索企業'を追加
・明細に...
Hoshino Yuji
 

他の形式にエクスポート: Atom