OCRとは? テレワーク時代に注目!仕組みやメリット、AIサービスや事例なども
新型コロナウイルス感染症拡大の影響でテレワークが急速に普及し、働き方改革のさらなる推進が求められるようになりました。とくに紙ベースでのやりとりからの脱却は、一つの大きなテーマとなっています。
そのために効果的なのがOCRです。この記事では、ペーパーレス化に大きな役割をはたしてくれるOCRについて、基本的な仕組みやメリット、事例などをまとめて紹介していきます。話題のAIサービスにも触れますので、ぜひ参考にしてください。
OCRとは
OCRはOptical Character Reader(Recognitionとも)の略で、日本語では「光学的文字認識」といいます。手書きの帳票やPDF、画像データなどから文字を抽出、デジタルデータに変換する仕組みやソフトのことを指します。
OCRが注目される背景
近年、OCRには熱い視線が注がれています。キーワードは「働き方改革」「テレワーク」そして「AI」です。
働き方改革
OCRがあらためて注目を集めている理由のひとつが働き方改革の推進です。生産性向上のために、データ入力など今は人間の手で、手間と時間をかけて行われている定型業務の効率化が求められるようになりました。
OCRをうまく活用できれば、紙の印刷物からのデータ入力業務などを飛躍的に効率化できます。
急速なテレワークの普及
新型コロナウイルス感染症拡大による急速なテレワークの普及も、OCRの活用を後押ししています。アドビ株式会社の調査によると、テレワーク時の課題として「会社にある紙の書類を確認できない」がトップでした。
- ※
FAXや手書きの申込書・契約書の原本など、ビジネス上でやり取りされる紙資料は、まだまだ多いのではないでしょうか。業務に必要な紙資料の電子化を行えれば、どこで働いていてもすぐに欲しい資料の閲覧が可能です。
また、電子化することにより資料の全文検索などが行えるようになるため、欲しい情報を効率的に探せるようになります。テレワークでも効率よく業務を行うための、紙データの電子化の手法としてOCRが注目されています。
-
※
関連リンク:テレワーク成功の鍵は「スキャン電子化」にあった!
AIなどのテクノロジーの進化
AIやRPAなどビジネスシーンにおけるテクノロジーの進化も、OCRに注目が集まる理由のひとつです。ビジネスにおいては保険や金融機関などの申込書、FAX受発注伝票など手書きのものも数多くあります。
AIの技術を活用する前までは、印刷された活字の文字認識率(識字率ともいう)は高いものの、手書き文字になると低くなってしまい、実用性に乏しいという実態がありました。しかし後述するAI OCRにより、手書き文字の認識率は大きく向上しました。
手書き文字で記載されている帳票にOCRを使用することで、事務処理業務の大きな効率化が期待できるようになっています。
OCRの基本的な仕組み
OCRの基本的な仕組みは下記のとおりです。
紙の帳票をスキャンし画像データにする
元となる紙の帳票をスキャナーや複合機などでスキャンし、画像データに変換します。この際、次の工程の前処理として画像の向きや色調の補正、ノイズ除去などを行ないましょう。画像データの傾きや、文字のかすれ・カラー文字などはOCRソフトウェア上で認識しにくいためです。
画像データをレイアウト解析する
スキャンされた画像のレイアウトを解析し、文字の箇所を特定します。段組が複雑だったり、白抜き文字が多用されている資料などはレイアウト解析の難易度が高くなりうまくいかないこともあります。帳票種類が複数ある場合は、レイアウトをあらかじめ作業する人間側で登録しておくのが一般的です。
文字列を項目単位で切り出す(項目の切り出し)
レイアウト解析したデータを元に文字列を項目単位で切り出すステップです。画像として読み込んでいる状態から、さらに1行ずつ文字列を特定していきます。この段階を項目の切り出しといいます。
OCRを実行
次に、一つ前のステップで切り出した行単位のデータから、文字を一文字ずつ特定し切り出します。主に文字と文字の隙間を測定することで文字単位を認識し、切り出していきます。
OCRサービスの種類
OCRの利用には、下記のような方法があります。
OCR業務代行業者に依頼
紙資料の電子化を行うOCR業務代行業者に依頼する方法です。専門のスタッフがOCR業務を代行してくれ、スキャン後の画像の処理や修正も人間が行います。人の目が入ることによってより丁寧に電子化を進められます。
料金は書類のタイプなどによって異なり、1枚あたり数十円や数百円といった価格帯が一般的です。手書き帳票の場合、認識の難易度が上がってしまうためOCRだと高額になることもあります。
OCRソフトを利用
市販されているOCRソフトを購入して利用する方法です。OCRソフトウェアの一般的な価格帯としては数千円から一万円前後のものが多くなっています。活字の文字認識率は高いですが、手書き文字に対しては難易度が高くなる傾向にあります。
読み取りの精度などはソフトウェアによって異なるため、製品レビューをチェックしたり、無料体験版でテストを行ってみることで、電子化したい書類との相性を確かめてみるのがよいでしょう。
オンラインのOCRサービスを利用
ソフトウェア形式ではなく、クラウド上でOCRを行うサービスも提供されています。Google ドライブやDropboxなど無料でOCR機能を提供しているクラウドストレージも。手書き文字の認識率の幅はサービスによってかなり差があり、まったく認識できないものから認識率の高いものまでさまざまです。
まずはOCRについてどんなものが知りたい・手軽に無料で試したいという場合には、このような無料で提供されているサービスを試し、慣れてみるのもよいでしょう。
OCRのメリット
OCR活用のメリットにはどのようなものがあるのでしょうか?
OCRのメリットを具体的に見ていきましょう。
帳票のデータ入力業務などを効率化できる
OCRを導入するメリットは、データ入力業務の大幅な効率化です。事業部門の業務で発生する伝票の入力や、労務管理業務で使用する勤怠表などの入力を効率化できます。入力しなければならない帳票の数が増えるとその分人手もかかり、ミスも起きがちです。OCRを活用しデータとして保存すれば、手間もミスも減らせて業務効率化につながります。
データ化することで検索しやすくなる
紙で保存している帳票などをデータ化することで、情報の検索・閲覧がしやすくなります。紙資料の場合、キャビネットの中からファイルをいちいち引き出す必要があり、探すのもひと苦労。データ化してファイルサーバーなどに保存しておけば、いつでもすぐにデータを検索し取り出せます。
データ化することで編集・加工しやすくなる
データ化することで、加工作業がしやすくなる効果もあります。データ化し保存しておけば、文書の中身を全文検索し、かつコピー&ペーストできるので、必要な部分をすぐに活用できます。資料から文章を引用してメールを送付したい場合などにも役に立ってくれます。集計作業もExcelなどにいちいち手入力する必要がなく、作業を効率化できます。
情報共有がしやすくなる
データ化したあとは、取り込んだデータをファイルサーバーやクラウドストレージに保存して管理できます。必要な資料の検索・共有が簡単になることで、印刷や郵送など紙資料をやり取りするためのロスタイムが、大幅に減らせるでしょう。
上述のアドビ社の調査の通り、テレワーク環境下で、紙やFAXのやり取りに課題を感じている企業も多く存在します。OCRでデータ化し管理すれば、自宅やサテライトオフィスなど、どこからでも伝票やFAXを確認できます。
オフィスの省スペースになる
紙書類として帳票などを保管する場合、保管場所やキャビネットなどのコストが発生してしまいます。また、カギの管理など保管庫を管理するための手間も見えないコストといえるでしょう。紙の書類を電子化することで、キャビネットなどの保管場所が不要になりオフィスの省スペース化につながり、書類の管理コストや手間の削減も実現できます。
無料のクラウドやフリーソフトのOCRサービス
OCRの中にはクラウドサービスとして無料で提供されているものや、フリーソフトもあります。これらのサービスは無料で気軽に使えるメリットがある一方で、文字認識率にはバラツキがあるので注意したい所。とくに手書き帳票の文字認識は難易度が高く、サービスによってかなりの差があります。
また、クラウドサービスなどを利用する場合はセキュリティの観点から、「シャドーIT※」にならないように注意しましょう。OCRではないですが、クラウドの翻訳サービスから機密情報が漏れ出したという事例もあります。
OCRに限らず、ITツールを導入する際には、情報システム部門や管理部門に相談したうえで利用しましょう。
-
※
起業や組織内で使用されているITシステムのうち、個人や特定部門の判断で導入され、経営部門や管理部門が把握していないもののこと。情報漏えいなど、セキュリティ上のリスクが問題点となっています。
OCRの文字認識率をあげるポイント
OCRの活用では文字の認識率をあげることが重要です。
紙書類のOCR処理を行う前に、知っておくべきポイントを詳しく紹介していきます。
スキャンを正確に行なう
OCRの文字認識率は原稿の状態に大きく左右されるので、スキャンを正確に行うことがポイントです。
高解像度でスキャンする
文字認識率を少しでも上げるために、スキャンする時はなるべく高解像度でスキャンしていきます。スキャナーによって設定方法は異なりますが、解像度設定の数字が大きいほど高解像度のファイルが出力されます。
モノクロでスキャンする
OCRでは、はっきりと印字されている黒い文字を読み取っていきます。そのためスキャン時には、カラーではなくモノクロでのスキャン指定が有効です。複写伝票など文字の薄い書類などは濃度調整も有効です。
斜めにならないようスキャンする
読み取る原稿が斜めになっていると、文字の認識率も下がってしまいます。OCRの特徴として、「傾きの無い文字を読み取る」というものがあるためです。原稿が真っすぐになっている状態かどうかを確認してスキャンするようにしましょう。
紙の色はなるべく白に近い色にする
前述のように、OCRでは黒ではっきりと印字されている文字を読み取ります。文字がはっきりと認識されるように、紙の色は白かなるべく白に近い色を使うとよいでしょう。
裏写りのないようにする
両面印刷の書類をスキャンする際に考慮しなければならないのは裏写りです。スキャナーによっては、裏写り防止機能があるので、まずは自社で使用しているスキャナーの機能を確かめてみましょう。とくに薄い紙をスキャンする時には効果を発揮してくれます。
スキャンした画像を補正する
スキャンした後の画像を補正することで、レイアウト分析などの後工程がしやすくなります。
傾きの補正
傾いてしまったファイルは、一度画像ファイルとして出力することで簡単に傾きを補正できます。PDFで出力した場合も、PDF編集ソフトを使用することで歪みや傾き補正が可能です。
明るさ、コントラストの補正
スキャンした画像に明るさや色味の偏りがある場合は明るさやコントラストの補正をしてみましょう。コントラストは強くしすぎると明るい部分が飛んでしまったりするので気をつけつつ調整していきます。
色の反転
カラーでスキャンされている文字の場合は、白黒反転することで文字を黒くできます。文字認識率を上げるために、文字の色を黒にしておきましょう。
不要な情報の削除
OCR化をするにあたって不要と思われる情報が写りこんでいる場合には、事前に削除しておくことでスムーズにデータ化できます。
AIの活用
近年、急速に進化しているAI技術を活用したOCRサービスも提供されはじめています。AIの技術をOCRにも活用することで、とくに従来のOCRでは対応することが難しかった手書き帳票の文字認識率を、飛躍的に高められるようになっています。
AI OCRとは
AI OCRとはAI技術を活用したOCRの仕組みやサービスのことです。海外ではICR(Intelligent Character Recognition)と呼ぶこともあります。AIの特徴である機械学習やディープラーニングによって、文字の補正結果を学習し、文字認識率を高められるのが特徴です。
OCRではシンプルな文字ほど誤認率が高くなる傾向にあります。この現象はOCRの文字認識をする過程で、線が交差する箇所を数えるという特徴からくるものです。カタカナの「エ」と工事の「工」などをイメージするとわかりやすいでしょう。
一般的なOCRソフトでは誤認しやすいこのような文字の違いも、AI OCRならば学習を重ねることで認識しやすくできます。AI OCRだからといって100%の識別ができるわけではないですが、大きな業務効率化につなげられます。
AI OCRとRPA
AI OCRとRPAを組み合わせることで、大幅にデータ入力を効率化できます。RPAとはRobotic Process Automationの略で、パソコン上で行う作業を自動化する仕組みです。エクセルなどのマクロと混同されがちですが、それらよりも自動化できる領域が広く、パソコン上のほとんどの作業を自動化できます。
AI OCRで取り込んだ紙の帳票データをRPAで自動的に基幹システムに入力するといった連携が実現できます。受発注表や勤怠表といった、部門を問わず日々大量に発生するデータ入力作業が大きく効率化可能なため、注目を集めています。
- ※
AI OCRの導入事例
AI OCRの導入で実際にどのような業務課題が解決されるのでしょうか? 業務で紙書類が多く使用されている銀行の事例です。
1日100枚近く発生する紙書類の処理をAI OCRとRPAで自動化|横浜銀行
2020年に創立100周年を迎えた横浜銀行。同行では行員の生産性向上による営業強化のためルーティン業務の見直しに着手しました。AI OCRとRPAでネットバンキングの申込書類の処理などを自動化し、業務効率化を実現しています。
課題
- 営業面に力を注ぐために、コストを抑えながら業務を効率化する必要があった
-
効率化すべき900の業務のうち、約半数で紙のやり取りをしていることが判明
- 紙は手書き書類が多く、膨大な手入力業務が発生し、RPA導入のボトルネックに
効果
- 手書きされた紙を起点とする業務もRPAの対象として処理の自動化に成功
- 書類の処理スピードが向上し、業務量についても大幅に削減できる見込み
-
手書きAI OCRシステムの活用により、今後もRPAの対象業務拡大を予定
AI OCRソリューション
CaptureBrain
「CaptureBrain」はキヤノンが長年培った独自の画像処理技術と、AIエンジンを組み合わせたAI OCRソリューション。手書き帳票などをクラウドへアップロードすることで、自動的に帳票種別を判断、OCR処理を実行します。
キヤノン独自の画像処理技術により、OCRで読み取りやすい画像にAIが自動補正することで高い文字認識を実現しています。もちろんOCRで出力したデータは修正、編集が可能。API連携により、自社の業務システムやRPAなどとの連携もできるため、多くの業務に対応できます。
まとめ
本記事では脚光を浴びるOCRについて、基本的な知識や活用ノウハウをお伝えしました。OCRは事業部門や管理部門など、部署を問わず効果が発揮できるツールです。リモートワークへの活用だけでなく、日々発生する紙文書が業務の効率化を妨げているとお考えの場合には、この機会にぜひ導入を検討してみてください。
キヤノンマーケティングジャパンでは、OCRやRPAをはじめとした業務効率化のためのソリューションを数多く手がけています。お気軽にご相談ください。
こちらの記事もおすすめです
関連ソリューション・商品
ドキュメントソリューションに関するご相談・お問い合わせ
キヤノンマーケティングジャパン株式会社 デジタルドキュメントソリューション企画課