印刷物からのテキスト抽出

ご入稿いただく原稿は、Wordや一太郎で作成されたデータが多いのですが、
なかには、手書きの原稿しかない、掲載された冊子などの印刷物しかない、という場合もあり、
その場合は、こちらでテキストデータ化しています。

ここ数日、印刷物からテキストを抽出する作業をしていますが、
GoogleドライブのOCR(光学文字認識)がたいへん便利です。
これまでは、印刷物をPDF形式でスキャニングし、Acrobatで開いてテキスト認識する、という方法をとっていましたが、
手間の面でも精度の面でも、Googleドライブの方がずいぶんと使いやすいように感じます。しかも無料。
長体のかかった縦長のカタカナも間違わずに拾ってくれました。

といっても、最後はやはり、人の目でもしっかり確認をしないと。

これからしばらく暑い日が続きますね。
どうぞみなさんご自愛ください。


伊吹山から送られてきた写真。京都よりは涼しいのかな。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください