スキャンPDFをテキストに変換する手順
所要時間: 約2〜4分(ページ数による)完全無料
紙の資料をスキャンしたPDFは中身が画像のため、文字を選択することもコピーすることもできません。JobDoneBotのPDF OCRを使えば、各ページの文字を認識してプレーンテキストとして取り出せます。処理はブラウザ内で完結し、無料・登録不要・送信ゼロです。ここでは画像PDFをコピー可能なテキストに変える手順を説明します。
手順
- 1
画像PDFを読み込む
文字を取り出したいスキャンPDFをドロップまたは選択して読み込みます。読み込みも認識も端末内で行われます。
ヒント: 原稿が傾いていると精度が落ちるので、できるだけまっすぐスキャンした原稿を使います。
- 2
言語を指定する
日本語・英語・日本語+英語から、原稿に合った言語を選びます。言語が合っているほど認識精度が上がります。
ヒント: 英語の専門書なら英語単独のほうが余計な誤認識を抑えられます。
- 3
OCRを実行する
実行するとページごとに文字認識が進み、テキストが組み立てられます。進捗バーで状況を確認できます。
ヒント: 処理中もブラウザを開いたままにしておけば、そのまま完了まで進みます。
- 4
テキストを確認・整える
得られたテキストはページ区切り付きで出力されます。誤認識した箇所を軽く直せば、そのまま文書作成に流用できます。
ヒント: 数字や固有名詞は誤認識しやすいので、重要な部分だけ照合すると効率的です。
完了
画像だったスキャンPDFが、コピー・編集・検索に使えるテキストに変わります。手入力での打ち直しが不要になります。
よくある質問
- Q. テキストはどんな形式で出力されますか?
- ページごとに区切りを入れたプレーンテキスト(.txt)として出力されます。そのままコピーして文書作成ツールに貼り付けられます。
- Q. 複数ページのPDFもまとめて変換できますか?
- できます。各ページが順に認識され、ページ区切り付きで1つのテキストにまとまります。ページ数が多い場合は処理に時間がかかります。
- Q. 無料で使えますか?
- はい。JobDoneBotのPDF OCRは無料・登録不要で回数制限なく使えます。インストールも不要で、ブラウザだけで完結します。
- Q. うまく認識されないページがあります
- 原稿のかすれや傾き、背景の柄が原因のことが多いです。解像度スケールを上げる、よりはっきりスキャンし直すと改善することがあります。