記事の詳細

このサイトではスクレイピングの方法をちょこちょこ書いてますが、今回はその逆です。
スクレイピングされないようにするための方法をいくつかご紹介していきます。

予防編

スクレイピングは主にRSSかDOM操作をベースに行われます。
ここにスポットをあてた対策をする事が効果的だと言えます。

RSSを配信しないorRSSの配信を遅らせるor全文配信しない
スクレイピングする手法は様々ですが、RSSから引っこ抜かれてしまうケースを想定してRSS配信を停止するか。もしくはRSSの配信のタイミングを記事公開より遅らせる方法です。
これと併用してgoogle先生推奨のPubSubHubbubを導入する事もおすすめです。
PubSubHubbubとは記事をいち速くGoogleにインデックスさせるための仕組みで、wordpessなんかはプラグインで簡単にインストールできますのでお試しください。

定期的に記事エリアclass名id名を変更する
スクレイピングはRSSの他にもdivのid名で指定して対象エリアを引っこ抜くパターン(DOM操作)もあるので、これも有効だと思います。ただcssと絡んでるとやっかいなので、cssを指定しないid名で記事エリアを囲って定期的に変更するっていうのも手です。

広告を貼りまくる
これはメディアサイトに有効な手段です。スクレイピングするサイトを選定する際に記事内に広告が貼りまくってあると、奇麗にスクレイピングできないため、牽制ぐらいにはなるでしょう
(画像やjava script記述の文字列を排除して整形するのはちょっと面倒なので)

metaカロニカルの指定
カロニカルですが、丸ごと引っこ抜かれた際のリスクヘッジとしていれておくのも重要です。
wwwのあり・なしを固定できるのでSEO的にも有効な手段かと

リファラーでリダイレクトさせる
力技なのですが、AというサイトのコンテンツをBというサイトで見るとリダイレクトするようなjava scriptを設置する方法。

スクレイピングされてもコンテンツを表示させないようにしておく
インラインCSSでdisplay:noneしておく方法です。
例えばHTMLで

という記述をCSSで

みたいにするとか。

コンテンツをアイフレームで埋め込む
スクレイピングされたくない箇所をアイフレームを使い、いざスクレイピングされちゃった時は iframeの中から表示しているページURLを取得して泥棒サイトを洗い出す!っていう

スクレイピングされちゃった後編

ホストのアクセス規制
根気のいる作業ですが、まぁまぁ効果はあるようです。間違えてもgooglebotは弾かないように!(戒め)

Google先生にチクる
サイトのコンテンツがパクられている!しかもインデックスされてるし!!!そんな時には通報しましょう!正常に処理されれば一週間以内には盗作ページが検索結果から弾かれるようになります。

お問い合わせ窓口から連絡をいれる
メールでバカヤローコノヤローと!書き殴りたい気持ちを押さえて紳士的に連絡を入れてみてください。

ブログ、サーバー提供元にクレームを入れる
記事転載でもブログ、サーバー提供元に発信者情報開示請求はできますので興味ある方は一読ください。

イジワルする
特定のホスト(サーバ)からのアクセスのみphpで切り分けてブラクラのリダイレクトをプレゼントしてあげましょう。あとは海外のウイルスサイトのリダイレクトを入れ込むとか(考え方が中学生)

まとめ

という感じで他サイトよりは具体例を書けた気がします。
私のブログはスクレイピング記事が多いので、斡旋しているかのような印象をもつ方もいらっしゃるかもしれません
本質は同意のもと行う事と、自身のコンテンツを横展させていく手段として活用していただく事ですが。
使い方によっては可能性を秘めすぎた技ではございますが、人道を外しては、どんな言い訳も通じません~
オテント様(googleせんせー)はチラチラ覗きにくるので、ある程度リスクがあるというは肝に銘じて知恵を絞って上手くスクレイピングと付き合っていけたらいいですね!

ではでは

関連記事

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

AIMERS CREATEとは

AIMERS CREATEは、東京都と福岡県うきは市を中心にホームページ制作・Webデザインを行っております。 お見積もりや運営などご不明な点がありましたら、お気軽にお問い合わせメールフォームからお申込下さい。迅速に対応します。 お問い合わせをいただきましたら、電話かメールにてご連絡を致します。 AIMERS CREATEをもっと詳しく

おすすめ記事

登録されている記事はございません。

ページ上部へ戻る