PDFを文字起こし(テキスト化)するなら無料で使えるGoogle(グーグル)ドキュメントが便利!
PDFはビジネスでよく使用するファイル形式で、どんな端末で開いても見え方が変わらないことが特徴です。そのため、情報を共有する際に最適なものとなっており、PDFデータを元に資料を作成するといった機会も多いのではないでしょうか。
GoogleドキュメントにはPDFのなどのファイルを自動でテキスト化してくれる機能があり、PDFデータを参照して資料を作成する場合も、直接テキストを打ち込むよりも作業時間を短縮することができます。
そこで今回は、Googleドキュメントを用いてファイルをテキスト化する方法とその機能の活用術を紹介していきます。
目次
PDFとは?
PDFとは、「Portable Document Format(ポータブル ドキュメント フォーマット)」の略で平たく言えば電子の紙のことになります。データをプリントした場合と同じ体裁で見ることができ、指定のソフトでしか開くことができないファイル形式と違い、PDFは相手の端末に入っているソフトに関わらず、レイアウトを崩さずに共有できます。
PDFを受け取った場合、PDFリーダーと呼ばれるソフトで閲覧することができます。PDFリーダーで代表的なのは「Adobe Reader」で、無料で利用することができます。キーワードを使って中身の検索や署名を行うことも可能です。
PDFは行政の文章から機器の説明書、パンフレットなど、あらゆる場面で活用されています。電子メールなどで添付して相手に送るだけでなく、Web上で公開することも可能です。
Googleドキュメントとは?
Googleドキュメントとは、Googleが提供しているクラウドサービス型の文章作成ソフトで、Googleアカウントがあれば使用することができます。全てブラウザ上で作業は完結し、無料で使うことが可能です。文字を作成するだけでなく、ファイルを複数人とリアルタイムで共有できるなど、さまざまな機能があります。
Googleドキュメントで作成したファイルはGoogleドライブという場所に保存されます。
テキストはPDFから直接コピーできる?
PDFは元データがテキストであれば原則、直接コピーすることが可能です。しかし、資料をスキャンしてPDF化しているなど、元データが画像である場合、テキストをコピーできません。
また、元データがテキストであっても、保護されている場合はコピーできません。ただし、パスワードがわかる場合は保護を解除することが可能です。
コピーできても正しく貼り付けできないことも
PDFのテキストをコピーして貼り付けを行うということができたとしても、テキストの文字コードが一般的でなかったり、テキストの順序や順番が正しくなかったりすると、正確に貼り付けることができないこともあります。
また、コピー&ペーストした場合、どうしても貼り付け後の全体的なバランスが悪くなってしまいます。このように、コピー&ペーストという作業は一見簡単で手っ取り早い方法に思えますが、修正作業に時間がかかり、結果として手間が増えてしまう可能性があります。
GoogleドキュメントでPDFデータを文字起こし(テキスト化)する方法
ここからは、Googleドキュメントを使って、PDFデータを文字起こしする方法について説明していきます。
Googleドキュメントでテキスト化できるファイルにはいくつか条件があります。下記5つの条件を満たしているPDFでないとテキスト化はできないので注意してください。
- ファイルサイズは2MB以下
- テキストの解像度は10ピクセル以上
- 正しい向きになっていること
- フォントや文字セットは、Arial またはTimes New Romanのような一般的なものであること
- 画質は明るく、コントラストがはっきりとしていて読み取りやすい状態である
GoogleドキュメントでPDFデータを文字起こし(テキスト化)する手順
それでは、PDFデータをGoogleドキュメントで文字起こしする手順をご説明します。
(1)まずはGoogleドライブにアクセスし、Googleドライブの画面左上にある「新規」または「マイドライブ」を選択しましょう。
(2)「ファイルのアップロード」を選択して、PDFファイルをアップロードします。
(3)アップロードが完了したらファイルを右クリックし、「アプリで開く」を選択したら「Googleドキュメント」を開きます。
(4)すると上記のようにGoogleドキュメントにPDFがテキスト化された状態で表示されます。PDFファイルに画像データがある場合は、画像も一緒に表示されます。
PDFデータをGoogleドキュメントで文字起こし(テキスト化)する際に覚えておきたいポイント
ここからは、PDFデータをGoogleドキュメントで文字起こし(テキスト化)する際に覚えておきたいポイントを解説します。
ポイント①:誤字脱字のチェックは必須
Googleドキュメントを使ってPDFデータを文字起こしする場合、誤字脱字のチェックは必須となります。
Googleドキュメントを使ったPDFデータのテキスト化は便利な機能ではありますが、完璧ではありません。誤字脱字がないか、間違った箇所で改行されていないかなど、元のPDFとテキスト化したデータを見比べて、確認を行いましょう。
ポイント②:PDFデータのテキストが縦書きの場合は注意する
PDFデータのテキストが縦書きだった場合でも、横書きで表示されるので注意が必要です。また、PDFによっては文字配列が大きく変わってしまう場合があるので、縦書きをGoogleドキュメントでテキスト化するのはおすすめできません。
ポイント③:元データが画像でもテキスト化できる
GoogleドキュメントはOCR(光学文字認識)に対応しているため、元データが画像(jpgなど)であっても、テキスト化することが可能です。
OCRとは画像内のテキストを読み取り、そのままテキスト化するというものです。
ポイント④:日本語以外の言語にも対応可能
Googleドキュメントでは、元データが日本語以外の海外言語(英語、中国語、韓国語など)で書かれている場合にも、文字起こしを行うことが可能です。海外の資料を使ってテキスト化ができるのは、グローバル化している現在、非常に便利な機能です。
Googleドキュメントを使えば簡単に無料でPDFの文字起こし(テキスト化)ができる!
ファイルをGoogleドライブにアップロードし、それをGoogleドキュメントで開くだけで、簡単に文字起こしをすることができます。
この方法をマスターしておくだけで、作業の効率化が図れるだけでなく、元データを手入力する場合に比べて誤字脱字のリスクも抑えることができます。
Googleドキュメントは無料で利用できるサービスなので、まずは試してみてはいかがでしょうか。
RANKING ランキング
- WEEKLY
- MONTHLY
UPDATE 更新情報
- ALL
- ARTICLE
- MOVIE
- FEATURE
- DOCUMENT