今回のエントリーではこんなダメなことを可能にできるかもな方法を紹介していきます
こんな人が書いています
Macユーザー歴20年超のめんどくさがりインハウスデザイナー。
Macでも無料で使えるスプレッドシートの使い方
無料で使えるアプリなどを紹介
今回は、以前の記事で紹介したGoogleドキュメントのOCR機能と、こちらも以前の記事で紹介したWEBページを画像化する「Go Full Page」というGoogleのエクステンションを使用して、テキストをコピーできないページを一度画像化し、そこからOCR機能でページの文字情報を抽出するという方法で抽出する手順を紹介します。
以前に紹介しているこちらの記事と
こちらの記事
を組み合わせてできる方法です。
コピーできないWEBページとは
たとえば、コピーができないページがどういうページなのかというと、歌詞などのような権利の関係上コピーができないページなどがあります。また、このようなページ以外でも技術系のページの中にもテキストや画像をコピーできないものもありました。
またページの中で文字が画像化されているものは、いずれにせよページからコピーでテキストを抽出できないようになっています。
コピーができないページというのはJavaScriptやCSSでコピーを防ぐように設定されています。ノンプログラマーの人はそのような技術的な部分はわからないので、今回はノンプログラマーでも簡単にテキストがコピーできる方法を紹介していきます。
コピーできないWEBページのテキストを抽出する方法
今回紹介する方法はノンプログラマーでも簡単にテキスト情報を抽出できる方法です。
ざっくりと説明するとGo Full Pageのエクステンションを使い、ページを丸ごと画像に変更、さらにその画像をGoogleドライブに移動し、Googleドキュメントで開くことでそのOCR機能を使ってテキスト抽出を行うという内容になります。
以前の2つの記事の手順をまとめる感じですね。基本的な使用方法としては上記で取り上げた2つの記事で仕上がりのイメージはできると思います。それでは、実際にこの方法でテキスト化を行ってどれくらい正確にコピーできるかを調べてみます。
今回はテキストをコピーできない歌詞の掲載されたこちらのサイトからテキストを抽出します。
とりあえず、TOPページからヒットしたこちら、SUPER BEAVERの「愛しい人」という曲の歌詞をコピーします。
ここからは以前の記事を見てもらえれば手順が分かるので省略しますが、このページをGo Full Pageで画像に変換し、Google Driveへアップロード、さらにGoogleドキュメントのOCR機能でテキストを抽出します。
今回は余分なテキストが多かったので、歌詞部分のみをMacの標準アプリ、「プレビュー」にてトリミングを行いました。
↓トリミングをした歌詞
この歌詞を抽出したものがこちらのテキストです。
結果は、ばっちりコピーできています。
コピーできないWEBページのデータもこのような方法を使うとサクッとテキスト化することができます。まあなかなかデザインに直結する内容ではないかもしれませんんが、覚えておくとなにかに使えることもあるかもしれません。
まとめ
今回は、テキストをコピーできないWEBサイトからテキストをコピーする方法を、これまでの記事で紹介した技術を使って簡単に行う方法をまとめました。
特別な技術をつかうことなく、無料のエクステンション、サービス、標準のアプリでできる内容になります。必要な際にはぜひためしてみてください。
それでは、今回はこのへんで。