活動
2025-09-11から2025-10-10まで
2025-10-07
- 14:05 機能 #770: 請求書の項目抽出
スケジュール:
10/24 定例
11/21 定例 その後のメンテナンス方法を説明
ということですので、少々押していますが、
* 当面の優先事項は、座標と属性を使ったグルーピングの性能向上。
実装や設計への変更が一番...- 12:54 機能 #770: 請求書の項目抽出
- メモ
明細のうち所属が不明なテキスト断片の処理:
人間の判断をできるだけ再現する
テキスト断片の周辺テキストの、インデント量・フォントサイズ・行間隔をデータ取得し、(何らか)パターン化して判断する
2025-10-01
- 14:59 機能 #770: 請求書の項目抽出
- > ・明細項目が段組になっているものは取得結果がおかしい
検討課題
> ・明細の内訳項目のカラムに明細日時が入っているものが取れない
日時など項目の値の種類判別、抽出はLLMに任せたい
> ・今は合計があれば明細処理を... - 13:19 機能 #770: 請求書の項目抽出
修正履歴
・項目番号取得で項目番号は数字のみとした
・金額等の数字取得で数字のみでなくコンマで3桁に区切ってあるものも取得する
・請求元で不要な"発行元:"等を削除する
・明細項目の取得対象に'検索企業'を追加
・明細に...
2025-09-25
- 17:30 機能 #770: 請求書の項目抽出
インフォマートさんにAzure AI VisonのAPIのキーを作成していただいたので
少しデバッグとAzure用の修正が進み、数値的にはPaddleOCRよりも良くなりました。
まあまあいい値になってきたので納品のコードでG...
2025-09-22
- 15:33 機能 #770: 請求書の項目抽出
- OCRをMicrosoftのAsure AI Vision v3.2 GA Read APIに変更して、とりあえず実行はできるようになりました。
Read APIも発表された時は日本語はかなりダメだったのですが最新のモデルではパ...
他の形式にエクスポート: Atom