検索可能PDFの作り方
スキャナや複合機で取り込んだPDFは、見た目は文字でも中身は画像のため検索もコピーもできません。JobDoneBotのPDF OCRはTesseractエンジンをブラウザ内で動かし、各ページの文字を認識してテキストとして取り出します。ファイルは端末から送信されず、無料・登録不要で使えます。ここでは検索可能な状態にするまでの手順を順に説明します。
手順
- 1
スキャンPDFをドロップ
検索可能にしたいスキャンPDFを画面にドロップするか、選択して読み込みます。読み込みは端末内で行われ、ファイルは外部へ送信されません。
ヒント: 複数ページのPDFもそのまま1ファイルで読み込めます。
- 2
認識する言語を選ぶ
原稿に合わせて「日本語」「英語」「日本語+英語」から選びます。日英が混在する書類は日本語+英語を選ぶと両方を認識できます。
ヒント: 迷ったら日本語+英語にしておくと取りこぼしが減ります。
- 3
解像度スケールを調整する
文字がかすれている原稿は解像度スケールを上げると認識率が向上します。標準は2x、薄い印字は3xが目安です。
ヒント: スケールを上げると処理時間は増えるため、まず2xで試すのが効率的です。
- 4
OCRを実行する
実行するとページごとに文字認識が進みます。処理はすべてブラウザ内で完結し、進捗が表示されます。
ヒント: ページ数が多いほど時間がかかるので、大量ページは分割すると安定します。
- 5
抽出テキストを保存・活用する
認識が終わるとページ区切り付きのテキストが得られます。これを保存し、検索・コピー・索引づくりに使えます。
ヒント: 認識後に固有名詞や数字だけ目視で確認すると精度を担保できます。
完了
スキャンしただけの画像PDFから文字が抽出され、検索やコピーに使えるテキストが手に入ります。書類を後から探す手間が大きく減ります。
よくある質問
- Q. OCRの処理はサーバーに送られますか?
- いいえ。JobDoneBotのPDF OCRはTesseractエンジンをブラウザ内で実行し、ファイルは端末の外に送信されません。機密書類でも安心して処理できます。
- Q. 日本語の書類も認識できますか?
- できます。言語選択で「日本語」または「日本語+英語」を選べば、日本語の活字を認識します。日英が混在する原稿にも対応します。
- Q. 手書き文字も認識できますか?
- 活字に比べて手書きは認識精度が大きく落ちます。印刷された活字書類を中心に使うのがおすすめで、手書き部分は目視確認を併用してください。
- Q. 認識精度を上げるコツはありますか?
- 解像度スケールを2xから3xに上げると、かすれた原稿や小さな文字の認識率が向上します。白黒のはっきりした原稿ほど精度が高くなります。