【AWS re:Invent 2018】FAXが残る中小企業こそ待ち遠しい、Amazon Textractとは?

AWS

Amazonが米国ラスベガスで開催したAWS(Amazon Web Services)年次イベント『re:Invent 2018』で、AI(機械学習)を活用したOCR “Amazon Textract” を発表しました。

この記事では、発表された内容およびサービスページの説明をもとに、中小企業が業務改善・業務効率化に取り組む中で、本サービスを利用することでどのような可能性があるのかをご紹介します。

Amazonが米国ラスベガスで開催中のAWS(Amazon Web Services)年次イベント『re:Invent 2018』で発表した、AI(機械学習)を活用したOCR “Amazon Textract” とは?

(Source: AWS re:Invent Keynoteより。Amazon Textractに関する発表は02:14:55から)

Amazon Textractは、コピー機やスキャナーなどで読み込んだ紙文書から “文字” と”データ” を自動的に抽出するサービスです。 一般的な光学式文字認識(OCR)のように紙文書に書かれた文字を抽出するだけでなく、表や帳票のフォーマットも自動で認識できます。

Amazon Textractの機能

  • 光学文字認識(OCR) :スキャン画像から文字と数字を自動的に検出
  • Key-Valueペアの抽出:項目名と入力された値を関連付けて抽出(例:Key:名前, Value:田中)
  • テーブル抽出    :表から列とデータを認識して抽出
  • バウンディングボックス:識別された情報が書かれている位置をバウンディングボックス(四角形の箱)座標として抽出
  • 調整可能な信頼性  :識別された情報の信頼スコアに対し、しきい値が調整可能(例:信頼スコア95%未満の場合は人間が見直す、といった処理が可能)

帳票書式の事前設定は不要

Amazon Textractによって、文書や帳票から情報を素早く正確に抽出できます。文書や帳票レイアウトからページ上の重要な要素を自動的に検出し、帳票に埋め込まれた情報や表との関係を紐づけ​​、情報を抽出できます つまり、単なる文字起こしではなく情報が何を意味するのかまで関連付けて抽出できるので、抽出された情報をアプリケーションで即座に使用したり、複雑なコードを使わずにデータベースに格納することが可能となります。

同様のことは、従来からのOCRソフトでも可能でした。ただし、そのためには事前に帳票書式を設定し、どの位置に、何の情報が記載されているかを指定する必要がありました。そのため、新しい書式の帳票が追加されたり書式の変更があった場合には設定の追加や変更をしなければならず、その都度、コストがかかっていました。

Amazon Textractでは機械学習によって帳票書式の設定を不要となっていますので、費用対効果がネックでOCR処理の対象にできなかった文書や導入コストをかけられない中小企業などでも、導入が進むことが予想されます。

読み取ったあとのデータ活用まで考えられている

Amazon Textractは、抽出したあとのデータ活用まで考えられており、抽出されたデータを変数としてアプリケーションに引き渡したり、データベースに格納することが可能です。これにより、例えば

  • スマートフォンのカメラで年末調整に必要な控除証明書を撮影
  • Amazon Textractで画像を解析し、必要な項目を抽出
  • 年末調整の申請書作成システムに必要情報を引き渡し、必要書類の作成完了

といったことも可能になるでしょう。

終わりに

紙文書は、未だに社会のいたるところで利用されています。特に日本は世界的に見てもFAXの普及率が高く、注文や申込みをFAXで受けている中小企業やお店も多いのが実情です。

Amazon Textractによって、これまで人手を介して繋がっていた紙文書と業務プロセス(システム)がダイレクトに繋がり、リアルタイムな処理が可能となります。これにより、書類の記載ミスをリアルタイムにユーザーへフィードバックしたり、関連する有益な情報を提供するといったことも可能となります。

人手不足で多くの企業が頭を悩ます中、業務改善・業務効率化だけでなく顧客体験の向上にも大きく役立つ今回のサービス。Digital Transformationの先のAutomatic Transformationを実現するAmazon Textractは、日本語対応が待ち遠しいサービスの一つといえるでしょう。

※参考文献