認識方法「表抽出」の使用方法と注意点

AI JIMY Paperbot Ver2.0.0より、「表抽出」機能を追加しました。

表抽出機能を活用することで、帳票内の表を簡単に認識することが出来るようになり、
これまで煩わしかった表のテンプレート設定も非常に容易になりました。
また、行数が可変であったり、行の高さが不揃いの表を読み取ることができます。
本機能を活用し、出力されたCSVファイルは、表の情報をそのまま各行に分けて出力することができます。(本機能を活用しない場合のcsvファイルは1ページごとに1行で出力されます。)

テンプレート設定方法

実際のテンプレート設定画面は下図のようになります。

上のメニューから「表抽出」をクリックし、表として結果を抽出したい箇所を指定します。

「表抽出領域」…帳票の中で表の領域を設定します
「ヘッダー領域」…表内の認識させたい項目の領域を設定します
表抽出設定パネル」…ヘッダー領域の追加・削除、ヘッダー名の変更をします

表抽出設定パネルの「+」「-」のボタンをクリックすることでヘッダー領域を追加・削除することができます。
抽出したい項目分だけ、ヘッダー領域を追加し、サイズ調整や位置調整を行います。

下記のように、表から「製品名」と「単価」のみを抽出したい場合は、次のように領域を設定します。


他の認識領域モード(文字やチェックボックス)と組み合わせて使用することも可能です。
以下の例では、表抽出領域の「製品名」と「単価」以外に、「会社名」と「金額合計」を読み取ります。

表抽出領域を設定する際の注意点

表のデータから先頭行(最終行)を除く方法

領域設定した箇所にある「表」の結果をすべて抽出するため、以下のようにヘッダ行を領域に含めなかった場合でも、「No,製品名,数,単価,摘要」の行は認識結果として抽出されてしまいます。
表抽出設定パネルの「先頭行を除く」にチェックを入れることで、ヘッダ行を認識結果から除外することができます。

同様に、「最終行を除く」にチェックを入れることで、合計金額欄などがある時、認識結果から除外することができます。
帳票デザインにより、AIが誤認識し、先頭行や最終行を除ききれないことがあります。
その際は、出力したCSVファイルを直接編集するか、RPA機能で取り除いてください。

データ出力設定

AI JIMY Paperbotでは認識項目の結果をデータ出力時のフォルダ名、ファイル名に利用できますが、表抽出の中にある項目は利用できません。
以下の例では、表抽出に「製品名」「単価」がありますが、例えば出力するCSVのファイル名に「製品名」を利用することはできません。

実際に出力されるCSV

表抽出での認識結果をCSV出力した場合、「表の1行 = CSVの1行」として出力します。
表抽出以外の項目については、各行に繰り返し出力します。

イメージ)

RPAでの利用方法

例)メモ帳に以下のように転記したい場合

以下の手順で設定すると想定通りの動作が実現可能です。
① [繰り返す]アクションを「親子」(二重)にします。
② 一度だけ表示したい項目を、親側(帳票単位での繰り返し)に置きます。
③ 表抽出内の項目は、子側(行単位での繰り返し)に置きます。

設定例(概要)

設定例(詳細)

表抽出機能の注意点

表抽出機能では、表全体が読み取り対象です。

青枠線のような領域設定をした場合でも認識結果としては、赤枠線のような形で抽出されてしまいます。
そのため、もし特定の項目を読み飛ばしたい場合 (たとえば上図であれば税抜き合計金額や税込合計金額など)であれば先頭行を除く、最終行を除く などを活用し、不要な行を任意に設定を行って読み飛ばす必要があります。
もしくは、読み飛ばすのではなく必要な項目のみを認識する方法もあります。
ヘッダー領域設定の際、認識したいヘッダー部分のみを指定することで認識したい項目のみを認識することが可能です。
※例 上図の場合「品名」と「数量」のヘッダーのみを指定する など

表抽出機能では、空白行も読み取ります。


表内に罫線があれば、内容が空白であっても「1行」として判断します。

このような表を認識した場合、認識結果としては5行表示され、CSVファイルにも5行出力します。
RPA機能でも同様のため、空行の転記が不要な場合は「条件分岐する」アクションで読み飛ばす必要があります。

表抽出機能の制限事項

  • 1つの帳票(テンプレート)に「表抽出」の領域は1つのみ設定可能
  • 表内の認識は「文字型」のみ
    →「チェックボックス」「数字のみ」などを利用したい場合は「表抽出」を利用せず個別に設定が必要

関連する記事