とっちゃん@nyanco! です。
今回はWindowsで複数の画像内にあるテキストを一括で抽出する手順の覚書です。
Windowsパソコンでの作業を想定していますにゃ〜
macOSでは途中作業の一括処理ツールが見当たらず、難しいかも知れませんにゃ〜
やりたいこと
100個以上ある画像データ内のテキスト抽出(OCR処理)を、手作業ではなく一括で実行し、最終的にテキストデータに変換したい
やり方は色々ありそうなのでもっとスマートな方法があるかも知れませんが、一応やりたいことはバッチリできたので備忘録がてら記事にしておきます。
必要なもの
- Windowsパソコン
- Googleアカウント
- テキストを抽出したい画像
前準備:画像を用意
まずは前準備として、これがないと始まらないテキスト起こしをしたい画像を用意します。
この段階で、事前に以下のような画像調整をしておくと後工程が楽になります。
高解像度な画像を用意する
なるべく高解像度な画像であればあるほど、テキスト抽出の精度が上がります。
ただ、むやみに高解像度過ぎる画像だと処理に時間がかかり過ぎるので、画像をパッと見て明瞭に文字が読めるレベルくらいでOKですにゃ〜
テキスト化しなくて良い部分はトリミング・塗りつぶし
テキストにしなくて良い部分が含まれている画像は、その部分を事前にトリミングまたは黒などで塗りつぶしておくとファイルサイズが軽量化され処理も早くなり、最終的に不要なテキストを選別・削除する手間も省けます。
連続スクリーンショットなどで固定の位置に不要な箇所がある画像は、「XnConvert」というフリーソフト(Windows・macOS)を使用すると一括でトリミングできて超便利ですにゃ〜
▼ちなみに今回はこんな感じで極限までトリミングした画像で試しております。
テキスト化したい順にファイル名をリネーム
画像はファイル名順(ファイル名でソートした順)に処理されテキスト化されます。
なので、テキスト化したい順番になるようにファイル名の冒頭に連番(「01…」「02…」)をふっておくと、後からテキストの順番入れ替えする手間を省けます。
▼下記のように元になる画像ファイルをテキスト化したい順にリネームしておきます。
ファイル名の一括リネームは、高機能リネームフリーソフト「Getter Tools」か、Windows謹製ユーティリティアプリ「PowerToys」の「PowerRename」を使うと楽ですにゃ〜
▼下記は「Getter Tools」の画面です。
画像をフォルダごとGoogle Driveへアップロード
▼事前に調整した画像を新規で作成したフォルダに格納し、そのフォルダごとGoogle Driveへドラッグ&ドロップしてアップロードします。
Google DriveはGoogleアカウントを持っていたら誰でも無料で使えるサービスですにゃ〜
▼Google Driveは下記URLからアクセスできます。
フォルダ内画像を一括でテキスト化(OCR処理)
▼アップロードが完了したら、いよいよ一括でOCR処理をかけていきます。
ちなみに画像データの数が2・3個程度であれば、手作業でやった方が速いです。
▼手順としてはテキスト化したいデータを選択して…
▼右クリック→「アプリで開く」→「Google ドキュメント」をクリック
▼数秒で変換され、Googleドキュメント化されたファイルが開き、このようにテキスト化されています。
元画像も一緒に貼り付けられているので、ちゃんとOCR処理できたか分かりやすいですにゃ〜
このように単体ファイルだと簡単にテキスト化できるんですが、この方法だと一括では処理できません。
100以上もデータがあるとチクチク手作業なんかとてもじゃないけどやってられん!ということでGoogle先生に聞いてみると、すぐにズバリな記事が見つかりました!
「Googleドライブのファイルを一括で文字起こしできるスプレッドシート作りました」
ニーズにズバリな内容で、やり方も詳しく書かれてあり、まさに神記事でございました。
ありがとうございますにゃ〜
Google ドキュメントをダウンロード
めでたく一括でGoogleドキュメント化(テキスト化)できました。
次はローカルでの作業なので、変換したGoogle ドキュメントをダウンロードしていきます。
▼一括でダウンロードしたいので、一旦一つ上のフォルダに戻ります。
▼フォルダを右クリックして「ダウンロード」をクリックすると、フォルダごとダウンロードされます。
Googleドライブ上で「ファイル形式」でソートができれば「Googleドキュメント」だけを選択してダウンロードすることもできるんですが、現状はできないのでフォルダごとダウンロードしています。
zipファイルでダウンロードされるので解凍してフォルダを開くと、下記のように「Googleドキュメント」はMicrosoft「WORD」の「.docx」ファイルに自動変換されています。
▼元になったJPGファイルはもう要らないので「種類」でソートして shift クリックでまとめて選択、一括削除しておきます。
.docxを一括でPDF化【Windows / Mac(webツール)】
あともう少しです!
お次は.docxファイルをPDFに変換していきます。
これも1ファイルずつ手作業でやるのは面倒くさいので一括で行います。
▼Word・Excelファイルを一括でPDF化!についての記事はこちらをどうぞ!
▼macOSでもAppleScriptを使ったやり方があるようです。
2022/02/24追記 一括でWordファイル(「.doc」「.docx」)をPDF変換できるwebツールを見つけたので共有します。
他にも似たようなwebツールはたくさんありますが、変換が1ファイルずつの制限があるものばかりの中、こちらは複数ファイルでも一括変換してくれました(48ファイルまでは確認しましたが、それ以上でもいけそうです)。
webにアップロードするのに抵抗のないファイルであれば、Macでも問題なく使えますにゃ〜
複数PDFを1つのPDFに結合
続いて、変換されたPDFを1つのファイルに結合していきます。
これもフリーのツールを使って行います。
- Windows:CubePDF Page、pdf_asなど
- macOS:プレビューアプリ(macOS標準アプリ)など
PDFを開いて全選択してコピー
統合したPDFを開いて ctrl + A で全選択をしてコピー、その後メモ帳などにペーストするとテキストを一括でコピーできます!
テキストなら翻訳も可能
テキストにしてしまえば、あとはGoogle翻訳なりDeepL翻訳なりにコピペしたら一括で翻訳することも可能です。
おわりに
一件すると手順が多くて面倒くさそうですが、自動で行われる部分が多いので実際に手を動かすことは少ないです。
全て手作業でやることを考えたら天と地ほどの差がありますにゃ〜
本記事がどなたかの参考になれば幸いです。
今回は以上となります。
最後まで読んでいただきましてありがとうございました!
それではまた〜✧٩(ˊωˋ*)و✧
コメント
[…] 複数の画像内のテキストを一括で抽出する手順の覚書 | nyanco! ブログ […]