【無料あり】PDFからテキストを抽出・コピーする7つの方法

2024年07月29日 Preview

481

ロボットは使用していません, この記事は、当チームが厳格な編集方針のもとで執筆および編集しました.

執筆者鈴木楓

「PDFの画像ファイルを得ましたが、その中のテキストコンテンツが必要です。このテキストを再入力することなく、PDFドキュメントからテキストを抽出する方法はありますか？」

このような質問を出している人が大勢います。彼らはPDFの画像にある文字を直接コピーして貼り付けようとしましたが、できませんでした。実際に、OCRプログラムをお持ちでない場合、PDFの画像からテキストを抽出するのは非常に難しいです。この記事では、お手軽にPDFの画像からテキストを抽出・コピーする7つの方法を紹介します。

PDFの画像からテキストを抽出またはコピーする方法
オフラインでPDFの画像からテキストを抽出する（精度が高い）
オンラインでPDFの画像からテキストを抽出する（無料）
OCRを使わずにPDFからテキストを手軽に抽出できるのか？

PDFの画像からテキストを抽出またはコピーする方法

通常、PDFはテキスト、画像、リンク、メディアなど、様々な要素を含めています。人はPDFビューアまたはブラウザで直接テキストをコピーすることができます。しかし、PDFの画像はただの画像であり、画像ファイルからPDF形式に作成またはスキャンされたものです。そのようなドキュメントからテキストを抽出するには、OCRは不可欠なツールです。コンバータを利用することでPDFの画像を編集可能なテキストファイルに変換できます。もしくは、テキストを抽出するツールで画像ファイルにあるテキストを認識できます。

オフラインでPDFの画像からテキストを抽出する（精度が高い）

ユーザーの多くは最初からオンラインでの無料解決法を試したいと思っていましたが、最終的に仕事のために専門的なソフトを選びました。時間と効率は常に小さなコストより重要です。そのため、PDFの画像からテキストを抽出する精度の高い解決法をまず紹介します。詳しい情報を確認してから、ダウンロードして無料で試すことができます。

#1 Cisdem PDF Converter OCR（WindowsとmacOSに対応）

メリット： PDFのテキストを抽出するオールインワンソフトです。精確なAI OCR技術を持っており、頻繁にPDFファイルを処理するユーザーに向いています。普段、私はこのソフトで表と手書き文字を含めた重要なドキュメント、複雑なPDFまたは画像ファイルを認識します。そのOCRの読み取り精度は99％ですので、手作業でチェック・修正する必要がありません。

Cisdem PDF Converter OCRは効率を向上させるプログラムで、PDFファイルをWord、Excel、PowerPoint、ePub、Textなど、ほぼ全ての主流形式のファイルに変換できます。そのため、価格の高いPDF編集機がなくても、PDFを他の編集可能な形式に出力し、さらにお持ちのファイル編集機でそれを編集できます。また、Word、PowerPointなどのファイルをPDFに変換したり、お手軽にPDF形式でファイルを共有またはプリントしたりすることができます。

OCR機能はPDFの画像またはスキャンしたPDFファイルを検索可能なPDFに変換できるだけでなく、それらをWord、Excel、PowerPoint、ePubなどの形式に出力することもできます。そして、複数のPDFの画像を一括変換できます。英語、アラビア語、フランス語、ドイツ語、日本語、中国語、チェコ語のPDFの画像を認識する機能も素晴らしいです。

Cisdem PDF Converter OCRの主な機能

PDFの画像とスキャンしたPDFからテキストを抽出する
PDFドキュメントにあるすべての文字を抽出する
PDFドキュメントの特定のページからテキストを抽出する
画像とPDF をOCR処理し、良い形式のPDF、Word、Excel、PowerPoint、TXTなどに変換する
複数のPDFの画像を処理する
ネイティブPDFを15種類以上の形式のファイルに変換する
PDFの画像から25言語を認識する
他のドキュメント（Word、PowerPointなど）からPDFファイルを作成する

WindowsとMacでPDFの画像またはスキャンしたPDFからテキストをコピーする方法

WindowsまたはMacでCisdem PDF Converter OCRをダウンロードし、インストールします。
無料ダウンロード Windows 10とそれ以降無料ダウンロード macOS 10.13とそれ以降
ソフトを起動し、「Converter」タブを選択し、１つまたは複数のPDFの画像ファイルをソフトにドラッグします。初めて利用する場合、OCRモジュールをダウンロードする必要があります。
出力のドロップダウンリストからDOCX、DOC、TXTなど、編集可能な形式を選択します。
右側にある歯車アイコンをクリックし、お好みに応じて出力の設定をします。
設定を調整したら、出力フォルダを選択して「Convert」で進みます。緑のチェックマークは成功を意味し、そして抽出したファイルまで案内します。

#2 Adobe Acrobat（MacOSとWindowsに対応）

PDFファイルを毎日処理する場合、ユーザーはAdobe Acrobatをインストールしたかもしれません。そうすれば、PDFの画像からテキストを抽出またはコピーすることは非常に簡単になります。しかし、Adobe Acrobat Readerだけインストールした場合、Adobe ReaderはOCR機能を持っていませんので、PDFの画像にある文字を抽出またはコピーすることができません。

AcrobatでPDFの画像からテキストを抽出する方法

Adobe Acrobatを利用してPDFの画像を開きます。
Tools> Enhance Scansをクリックします。
テキスト認識> このファイル内をクリックします。Adobe OCRを起動するためにファイルの言語を選択します。
以上のステップを完了したら、AcrobatでPDFの画像からテキストを抽出・コピーできます。
（追加）PDFの画像をテキストにして保存したい場合、すべてのツール > PDFを書き出しに移動し、出力形式を選択します。

オンラインでPDFの画像からテキストを抽出する（無料）

専門的なソフトが強力ですが、コストを下げてダウンロードを避けるために、オンラインでの無料方法を求めている方はいるでしょう。ここでは、３つの便利なオンラインツールを紹介します。それらを利用すれば、ユーザーはお手軽にPDFの画像からテキストを抽出できるようになります。ただ、抽出の精度はソフトほど高くなく、しかも情報漏洩のリスクがあること、あらかじめ知っておいてください。

#3 Google Docs（無料）

Google DocsはGoogleに提供されているオンライン無料サービスであり、PDF、Word、Imageなどのドキュメントへの処理に用いられています。ユーザーはファイルを開き、確認、編集、エクスポートすることができます。また、スキャンしたPDFや画像ファイルに対してOCRを実行できます。しかし、OCRのエラーが発生し、エクスポートしたファイルの書式が変わることは最大の問題です。

メリット：

クラウドストレージを無料提供する
内蔵されているOCRにより、自動でPDFの画像をWordに変換する
アップロードしたファイルをすべてのデバイスアカウントまで同期させる

デメリット：

PDFの画像に含まれている何らかの要素が認識できない
変換後のファイルの書式が乱雑なので、手作業で調整する必要がある
アップロードとファイルの開きに時間が長くかかる

PDFからテキストと画像をコピーする方法

Googleドライブ に移動し、新規>ファイルのアップロードをクリックし、PDFファイルをインポートします。
ファイルを右クリックし、それから「アプリで開く」>「Googleドキュメント」を選択します。
Google DocsはOCRを利用するので、PDFファイルが編集・コピー可能になります。マウスでドラッグしてテキストを選択し、それから右クリックし、メニューにある「コピー」をクリックします。
（追加）PDFファイルからテキストを抽出して他の形式のファイルに保存したい場合、「 ファイル」> ダウンロード > Txt/Docxなどを順次クリックします。

#4 OnlineOCR（無料）

OnlineOCR（onlineocr.net）は簡単なオンラインOCRツールです。それを通してPDFまたは画像ファイルから直接テキストを抽出・コピーすることができます。認識したテキストがウェブページに表示され、迅速かつ簡単に確認できます。また、PDFをWord、Excelにエクスポートするのに対応しています。ただ、手作業でOCRのエラーを修正しなければなりません。

メリット：

40以上の認識言語をサポートする
抽出されたテキストがクリップボードに表示され、そして出力ファイルをダウンロードする前に編集できる

デメリット：

PDFファイルの1ページだけからテキストを抽出する
最大ファイルサイズは15 MBである
一度に１つのファイルだけ処理する
docx、xlsx、txtの3種の出力形式だけサポートする
広告が多い

PDFからテキストを無料でコピーする方法

Onlineocr.netに移動します。
「ファイル」ボタンをクリックしてPDFファイルをアップロードします。
リストからファイルの言語を選択します。
出力形式をTextまたは他の形式にします。
「コンバート」をクリックし、PDFファイルをテキストにOCR処理します。
認識されたテキストを抽出・コピーするか、出力ファイルをダウンロードします。

#5 Convertio（無料）

以上の２つのオンライン無料ツールと比べ、Convertioはより多くの言語と出力形式をサポートしています。その上、2言語からなるファイルをOCR処理できるのはConvertio OCRを薦める主な理由です。バイリンガルファイルをOCR処理する時の精度を大きく向上させます。ただし、無料変換できるのは10ページだけです。

メリット：

複数のPDFファイルを一括して編集・コピー可能なファイルに変換する
バイリンガルPDFファイルからテキストを抽出する

デメリット：

最多10ページがアップロード可能である
ファイル認識のスピードが遅い
広告とポップアップされるウィンドウで気が散る

Convertioを利用してPDFからテキストを無料でコピーする方法

Convertio OCRに移動します。
１つまたは複数のPDFファイルをプログラムにアップロードします。
1または2言語を選択し、出力ファイル形式をTextにしてから、抽出したいテキストのページ番号を入力します。
「を認識」をクリックしてOCRを起動します。
テキストファイルをダウンロードします。

OCRを使わずにPDFからテキストを手軽に抽出できるのか？

スキャナーまたは画像から作成されたPDFではなく、ネイティブPDFを処理すると、PDFからテキストを抽出するのは簡単になり、OCR機能を使う必要がありません。2つの方法があります。

Cisdem PDFMaster（WindowsとmacOSに対応）

「Ctrl+C」と「Ctrl+V」などのショートカットキーを使用するのはPDFからテキストを抽出する最も簡単な方法です。スピードが速く、大部分のPDFリーダーまたはブラウザでそれらを使えます。しかし、コピーと変更を防ぐために、PDFドキュメントが保護されている場合、その方法は役立たないようになります。このような問題を解決するために、強力かつ効果的なPDF編集機、Cisdem PDFMasterを薦めます。

名の通りに、ユーザーはそれを利用してPDFマスターのように様々なPDFドキュメントを処理し、手軽にPDFにある文書を編集したり、PDFを他の形式のファイルに変換したりすることができます。このソフトを使えば、保護されているPDFとスキャンしたPDFからテキストをコピーするのは簡単になります。

Cisdem PDFMasterを利用してPDFからテキストを抽出する方法

ご利用のコンピュータでCisdem PDFMasterをダウンロードし、インストールします。
無料ダウンロード Windows 10とそれ以降無料ダウンロード macOS 10.13とそれ以降
「ファイルを開く」をクリックすることでCisdemでPDFを開きます。
ネイティブPDFの場合、編集タブに移動し、その下にある編集アイコンをクリックします。
保護されているPDFの場合、「編集を有効に」をクリックし、権限パスワードを入力してから「OK」をクリックします。
マウスをドラッグしてコピーしたい文書を選択し、「Ctrl+C」を押します。もしくは、フローティングメニューにあるコピーアイコンをクリックします。
「Ctrl+V」押して選択した文書を別のファイルに貼り付けます。もしくは、ベージで右クリックし、ドロップダウンメニューから「貼り付け」を選択します。

Python

Googleの検索ボックスに「PDFからテキストを抽出」と入力したところ、たくさんの方がPythonでPDFからテキストを抽出する方法を知りたいと思っていました。PythonにはPyPDF2、PyMuPDF、PDFQuery、PDFMiner、PDFPlumberなど、複数のよく統合されたライブラリがあり、PDFから効率的にテキストを抽出するのに役立ちます。ここでは、よく使われているライブラリの１つ、PyPDF2を例にして説明します。

PyPDF2は無料のPythonオープンソースライブラリで、PDFを結合・分割することができ、さらにPDFからテキストを抽出できます。

PythonでPDFからテキストを抽出する方法

Pythonをインストールします。ここをクリックしてPythonをダウンロードしてください。
Pythonでpipをインストールします。ここをクリックしてpipをダウンロードし、下記のコードを実行してインストールを行います。
pip.python get-pip.py
PyPDF2をインストールします。下記のコマンドを入力すれば結構です。
pip install PyPDF2
PDFからテキストを抽出します。下記の通りにテキストを抽出できます。
from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")

page = reader.pages[0]

print(page.extract_text())
抽出したいテキストの向きを指定することができます。例えば：

# extract only text oriented up

print(page.extract_text(0))

# extract text oriented up and turned left

print(page.extract_text((0, 80)))

まとめ

以上は様々なPDFからテキストを抽出・コピーする7つの方法でした。解決法を求めているたくさんのユーザーは専門的なOCRソフトをより信頼しています。このソフトは安全で、OCR処理がより速く、結果もより正確です。PDFファイルを処理する効率を向上させるために、拡張機能まで提供しています。

無料ダウンロード Windows 10とそれ以降無料ダウンロード macOS 10.13とそれ以降

著者について

執筆者鈴木楓

本を読み、自分の感想を記録するのは鈴木の趣味です。そのため、Cisdemの編集者になるのは彼女に向いています。PDFの編集・変換方法についての文章を書くことに没頭しています。

Liam LiuはCisdemのPDF製品ライン全体を担当し、関連するすべての編集コンテンツの技術承認者を務めています。彼はPDFおよび文書管理技術に深い専門知識を持ち、ほぼ10年の開発経験があります。

コメント (0) 返信を残す

{[ bar_title ]}

【無料あり】PDFからテキストを抽出・コピーする7つの方法

PDFの画像からテキストを抽出またはコピーする方法

オフラインでPDFの画像からテキストを抽出する（精度が高い）

#1 Cisdem PDF Converter OCR（WindowsとmacOSに対応）

WindowsとMacでPDFの画像またはスキャンしたPDFからテキストをコピーする方法

#2 Adobe Acrobat（MacOSとWindowsに対応）

AcrobatでPDFの画像からテキストを抽出する方法

オンラインでPDFの画像からテキストを抽出する（無料）

#3 Google Docs（無料）

メリット：

デメリット：

PDFからテキストと画像をコピーする方法

#4 OnlineOCR（無料）

メリット：

デメリット：

PDFからテキストを無料でコピーする方法

#5 Convertio（無料）

メリット：

デメリット：

Convertioを利用してPDFからテキストを無料でコピーする方法

OCRを使わずにPDFからテキストを手軽に抽出できるのか？

Cisdem PDFMaster（WindowsとmacOSに対応）

Cisdem PDFMasterを利用してPDFからテキストを抽出する方法

Python

PythonでPDFからテキストを抽出する方法

まとめ