コピーができないWEBページから簡単にテキストを抽出する方法

ルーキーくん
コピーができないWEBページがありますがそこからテキストをコピーする方法ってありませんか?

今回のエントリーではこんなダメなことを可能にできるかもな方法を紹介していきます

この記事の内容
・コピーができないWEBページからテキストをコピーする方法

こんな人が書いています

exp

Macユーザー歴20年超のめんどくさがりインハウスデザイナー。
Macでも無料で使えるスプレッドシートの使い方
無料で使えるアプリなどを紹介


今回は、以前の記事で紹介したGoogleドキュメントのOCR機能と、こちらも以前の記事で紹介したWEBページを画像化する「Go Full Page」というGoogleのエクステンションを使用して、テキストをコピーできないページを一度画像化し、そこからOCR機能でページの文字情報を抽出するという方法で抽出する手順を紹介します。

以前に紹介しているこちらの記事と

画像の中のテキストの抽出(OCR化)はGoogleドライブ→ドキュメントがベスト

2021.05.29

こちらの記事

ワンクリックでウェブページを1枚の長い画像に!Go Full Pageのススメ

2021.05.30

を組み合わせてできる方法です。

コピーできないWEBページとは

たとえば、コピーができないページがどういうページなのかというと、歌詞などのような権利の関係上コピーができないページなどがあります。また、このようなページ以外でも技術系のページの中にもテキストや画像をコピーできないものもありました。

またページの中で文字が画像化されているものは、いずれにせよページからコピーでテキストを抽出できないようになっています。

コピーができないページというのはJavaScriptやCSSでコピーを防ぐように設定されています。ノンプログラマーの人はそのような技術的な部分はわからないので、今回はノンプログラマーでも簡単にテキストがコピーできる方法を紹介していきます。

コピーできないWEBページのテキストを抽出する方法

今回紹介する方法はノンプログラマーでも簡単にテキスト情報を抽出できる方法です。

ざっくりと説明するとGo Full Pageのエクステンションを使い、ページを丸ごと画像に変更、さらにその画像をGoogleドライブに移動し、Googleドキュメントで開くことでそのOCR機能を使ってテキスト抽出を行うという内容になります。

以前の2つの記事の手順をまとめる感じですね。基本的な使用方法としては上記で取り上げた2つの記事で仕上がりのイメージはできると思います。それでは、実際にこの方法でテキスト化を行ってどれくらい正確にコピーできるかを調べてみます。

今回はテキストをコピーできない歌詞の掲載されたこちらのサイトからテキストを抽出します。

とりあえず、TOPページからヒットしたこちら、SUPER BEAVERの「愛しい人」という曲の歌詞をコピーします。

ここからは以前の記事を見てもらえれば手順が分かるので省略しますが、このページをGo Full Pageで画像に変換し、Google Driveへアップロード、さらにGoogleドキュメントのOCR機能でテキストを抽出します。

今回は余分なテキストが多かったので、歌詞部分のみをMacの標準アプリ、「プレビュー」にてトリミングを行いました。

↓トリミングをした歌詞

この歌詞を抽出したものがこちらのテキストです。

ぱっと一言 じゃ言い表せないのが 愛だ 一体 あなたの何が好きなんだろう ぱっと一言 で 最初 は言えたのに 一緒 に居ればいるほど難しくなるんだ 増えて 変わって 深まるから 後悔 困難 いくつも 分かち合い 「好き」だけでは なくなって 他人にはとてもじゃないけど 見せたくない本性も 互いに知ってなお 寄り添い合えたなら それはもう恋 じゃなくてさ 惚れた腫れたなんて超えた 愛だ もう愛だ 死ぬまで味方でいよう ぱっと一言 じゃ 言い表せないほど 愛しい人 一体 あなたは何が好きなんだろう たった一言 で口喧嘩したりして 一生かけても多分 難しいんだろうな 全て解って 推し量るのは 「恋が愛に成るのは いつなのかな?」 人と人で向き合ったとき その応 えに触れた気がした 趣味など違っていいのさ 卑怯 なことは嫌だとか 似ている芯の部分 嬉しく思えたら それはもう理屈じゃなくてさ 思わず抱きしめたくなる 愛だ もう愛だ 死ぬまで味方でいよう ねえ、ぱっと一言 じゃ 伝えきれないけど 他人にはとてもじゃないけど 見せたくない本性も 互いに知ってなお 寄り添い合えたなら それはもう恋じゃなくてさ 惚れた腫れたなんて超えた 愛だ もう愛だ 死ぬまで味方でいよう ぱっと一言 じゃ言い表せないほど 愛しい人 ぱっと一言 じゃ 言い表せないな 愛は 増えて 変わって 深まるから

結果は、ばっちりコピーできています。

コピーできないWEBページのデータもこのような方法を使うとサクッとテキスト化することができます。まあなかなかデザインに直結する内容ではないかもしれませんんが、覚えておくとなにかに使えることもあるかもしれません。

まとめ

今回は、テキストをコピーできないWEBサイトからテキストをコピーする方法を、これまでの記事で紹介した技術を使って簡単に行う方法をまとめました。

特別な技術をつかうことなく、無料のエクステンション、サービス、標準のアプリでできる内容になります。必要な際にはぜひためしてみてください。

それでは、今回はこのへんで。

ABOUTこの記事をかいた人

現場のグラフィックデザイナーに有用なリアルな技術やスキルアップの方法などを発信しています。 デザイン制作会社に8年→現在は都内にある日用品メーカーのグラフィック系インハウスデザイナーとして7年(総デザイナー歴15年)。そのかたわらフリーでデザインをしています。ラクにできるところはラクに!という時短デザインを推奨しています