毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを拒絶!


隠蔽工作か? 問題発覚後アーカイブに記事が保管されない設定に…

まずはこの書き込みを見てください。
770 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:05:14 ID:GGa+C9Y90

ちょっとおもしろいもの発見したよ
Mainichi Daily Newsのサイトがクローラーをどういうふうに制御しているのかと思って
robots.txtを見てみたw

まず、このURLにアクセス
↓
http://mdn.mainichi.jp/robots.txt

そうすると、こういう文字列が出る
↓
User-agent: ia_archiver
Disallow: /culture

ia_archiverというのはInternet Archiveのクローラー。Disallowは文字通り、「許可しない」という意味。

要するに、「犯行」が行われていた http://mdn.mainichi.jp/culture/のディレクトリ以下の
アーカイブを参照不能にしたいんだねw

Internet Archive とは、その名の通り
ネット上の情報を機械的にアーカイブ化するサービスを提供しているサイト。
何年も前の過去のサイトもアーカイブ化されているので、現在は消えてしまっているページでも
アドレスをここに入力すると、過去のサイトを閲覧することができることがある。

http://mdn.mainichi.jp/culture/
とは、問題のコーナー「waiwai」があったディレクトリ。
つまり、この記述によって、waiwaiの記事が保存されないようになっていたことになる。
さらに面白い情報がある。IEなどで次の書き込みを試してみた。(2008/6/26 01:45)

819 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:21:55 ID:GGa+C9Y90
>>789
調べてみた。

robots.txtの更新の日付は2008年6月3日7時17分36秒(GMT)だな
どう見ても騒動が広がってからだw

調べ方も書いとく

http://mdn.mainichi.jp/robots.txt ←まずここへ行く

javascript:alert(document.lastModified) ←そのまま、アドレスバーにこれをペーストする

enterを押す


94 名前:可愛い奥様[] 投稿日:2008/06/26(木) 01:31:43 ID:HLvpa7Xy0
>>91のコピペ内容の「意味」を補足。
こういう設定は、企業の情報システム部とかの
組織レベルでセキュリティポリシーを決めて実行することなんで、
通常はイチ担当者レベルでこっそりやるようなことじゃないってこと。

つまり、会社ぐるみの確信犯ってことで、ほぼ確定。


2008年6月3日。J-CASTなどが事件を取り上げ始める以前に、
工作が完了していたことになる。

毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを完全に拒絶!


GoogleやYahooで記事を検索してもらっては困るとは、いったい、どういう報道機関なのか?
毎日新聞(MDN)の紙面は、検索されると困る記事だらけと自ら白状したのも同然。そう受け止められて当然だろう。

まず、このURLにアクセス
↓
http://mdn.mainichi.jp/robots.txt

すると、このような文字列が出る。
↓
User-agent: *

Disallow: /

これは、ルートディレクトリ以下の全てのページについてロボット型検索エンジンのクロールを禁止するという意味。
当然、Mainichi Daily Newsの記事は一切検索できなくなる。

このような設定に変更したのは2008年6月27日14時58分32秒(GMT)と見られる。

従来の設定→ http://nagamochi.info/src/up6867.jpg
現在の設定→ http://nagamochi.info/src/up6868.jpg 

874 :名無しさん@九周年:2008/07/09(水) 03:10:34 ID:WQE390jv0
 【撤退】毎日デイリーニュースはインターネットから撤退しました【白旗】
    〜 全ての検索エンジンを拒絶して真の引き籠もりに 〜

 Mainichi Daily News - Japan News  http://mdn.mainichi.jp/robots.txt

     --------------
     User-agent: *
     Disallow: /
     ---------------
┌───────────────────────────────────────┐

  【解説】ロボット排除
    http://www.asahi-net.or.jp/~ax2s-kmtn/ref/robots.html

   ロボットがサイトを訪問すると、「robots.txt」というファイルを最初にチェックします。
  このファイルが存在すれば、その記述に従った行動をします。
  このファイルはHTTPサーバの最上階層のディレクトリ(ルート・ディレクトリ)に置く必
  要があります。したがって、自分がWebサーバを管理していない場合には、サーバの管理者
  にお願いして置いてもらう必要があります。

  ・全てのロボットがサイト全体を訪問しないようにしたい場合
  User-agent: *
  Disallow: /

└───────────────────────────────────────┘

598 :名無しさん@九周年:2008/07/09(水) 22:18:34 ID:fp5Gej/10
さあ、JAROに訴えよう

Mainichi Daily News(英文毎日)広告メニューガイド
http://mainichi.jp/info/etc/pdf/MDN_Guide_0807-09.pdf
>日本関連情報のグーグル検索で頻繁に登場するなど、諸外
>国では「日本発の情報発信」サイトとしてすでに一般ユーザーに
>も広く知られた存在となっています。

>グーグル検索で頻繁に登場するなど
>グーグル検索で頻繁に登場するなど

http://mdn.mainichi.jp/robots.txt
User-agent: *
Disallow: / 

削除された?

7/24 に確認したところ、削除されているようです。
http://mdn.mainichi.jp/robots.txt
404 Not Found
The requested URL was not found on this server.
The specified page has been deleted or the URL has changed.
ブラウザで判断して偽装していないか等は確認していませんが、一応報告します。

この問題をとりあげたメディア

7/10


関連ページ

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2008年07月25日 18:35
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。