毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを拒絶!

「毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを拒絶!」の編集履歴(バックアップ)一覧はこちら

毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを拒絶!」(2008/07/25 (金) 18:35:28) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

#contents ---- *隠蔽工作か? 問題発覚後アーカイブに記事が保管されない設定に… まずはこの書き込みを見てください。 770 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:05:14 ID:GGa+C9Y90 ちょっとおもしろいもの発見したよ Mainichi Daily Newsのサイトがクローラーをどういうふうに制御しているのかと思って robots.txtを見てみたw まず、このURLにアクセス ↓ http://mdn.mainichi.jp/robots.txt そうすると、こういう文字列が出る ↓ User-agent: ia_archiver Disallow: /culture ia_archiverというのはInternet Archiveのクローラー。Disallowは文字通り、「許可しない」という意味。 要するに、「犯行」が行われていた http://mdn.mainichi.jp/culture/のディレクトリ以下の アーカイブを参照不能にしたいんだねw [[Internet Archive>http://www.archive.org/index.php]]とは、その名の通り ネット上の情報を機械的にアーカイブ化するサービスを提供しているサイト。 何年も前の過去のサイトもアーカイブ化されているので、現在は消えてしまっているページでも アドレスをここに入力すると、過去のサイトを閲覧することができることがある。 http://mdn.mainichi.jp/culture/ とは、問題のコーナー「waiwai」があったディレクトリ。 つまり、この記述によって、waiwaiの記事が保存されないようになっていたことになる。 さらに面白い情報がある。IEなどで次の書き込みを試してみた。(2008/6/26 01:45) 819 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:21:55 ID:GGa+C9Y90 >>789 調べてみた。 robots.txtの更新の日付は2008年6月3日7時17分36秒(GMT)だな どう見ても騒動が広がってからだw 調べ方も書いとく http://mdn.mainichi.jp/robots.txt ←まずここへ行く javascript:alert(document.lastModified) ←そのまま、アドレスバーにこれをペーストする enterを押す 94 名前:可愛い奥様[] 投稿日:2008/06/26(木) 01:31:43 ID:HLvpa7Xy0 >>91のコピペ内容の「意味」を補足。 こういう設定は、企業の情報システム部とかの 組織レベルでセキュリティポリシーを決めて実行することなんで、 通常はイチ担当者レベルでこっそりやるようなことじゃないってこと。 つまり、会社ぐるみの確信犯ってことで、ほぼ確定。 2008年6月3日。J-CASTなどが事件を取り上げ始める以前に、 工作が完了していたことになる。 *毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを完全に拒絶! GoogleやYahooで記事を検索してもらっては困るとは、いったい、どういう報道機関なのか? 毎日新聞(MDN)の紙面は、検索されると困る記事だらけと自ら白状したのも同然。そう受け止められて当然だろう。 まず、このURLにアクセス ↓ http://mdn.mainichi.jp/robots.txt すると、このような文字列が出る。 ↓ User-agent: * Disallow: / これは、ルートディレクトリ以下の全てのページについてロボット型検索エンジンのクロールを禁止するという意味。 当然、Mainichi Daily Newsの記事は一切検索できなくなる。 このような設定に変更したのは2008年6月27日14時58分32秒(GMT)と見られる。 従来の設定→ http://nagamochi.info/src/up6867.jpg 現在の設定→ http://nagamochi.info/src/up6868.jpg 874 :名無しさん@九周年:2008/07/09(水) 03:10:34 ID:WQE390jv0  【撤退】毎日デイリーニュースはインターネットから撤退しました【白旗】     〜 全ての検索エンジンを拒絶して真の引き籠もりに 〜  Mainichi Daily News - Japan News  http://mdn.mainichi.jp/robots.txt      --------------      User-agent: *      Disallow: /      --------------- ┌───────────────────────────────────────┐   【解説】ロボット排除     http://www.asahi-net.or.jp/~ax2s-kmtn/ref/robots.html    ロボットがサイトを訪問すると、「robots.txt」というファイルを最初にチェックします。   このファイルが存在すれば、その記述に従った行動をします。   このファイルはHTTPサーバの最上階層のディレクトリ(ルート・ディレクトリ)に置く必   要があります。したがって、自分がWebサーバを管理していない場合には、サーバの管理者   にお願いして置いてもらう必要があります。   ・全てのロボットがサイト全体を訪問しないようにしたい場合   User-agent: *   Disallow: / └───────────────────────────────────────┘ 598 :名無しさん@九周年:2008/07/09(水) 22:18:34 ID:fp5Gej/10 さあ、JAROに訴えよう Mainichi Daily News(英文毎日)広告メニューガイド http://mainichi.jp/info/etc/pdf/MDN_Guide_0807-09.pdf >日本関連情報のグーグル検索で頻繁に登場するなど、諸外 >国では「日本発の情報発信」サイトとしてすでに一般ユーザーに >も広く知られた存在となっています。 >グーグル検索で頻繁に登場するなど >グーグル検索で頻繁に登場するなど http://mdn.mainichi.jp/robots.txt User-agent: * Disallow: / *この問題をとりあげたメディア **7/10 livedoor ニュース [[毎日新聞が検索エンジンを拒否!? メディアの自殺行為か(PJニュース)(2008年07月10日08時20分)>http://news.livedoor.com/article/detail/3722811/]] INTERNET Watch [[やじうまWatch■ 「robots.txt」で、毎日新聞英語版が「Web引きこもり」設定中 (7月10日)>http://internet.watch.impress.co.jp/static/yajiuma/2008/07/10/]] ---- *関連ページ #related()
#contents ---- *隠蔽工作か? 問題発覚後アーカイブに記事が保管されない設定に… まずはこの書き込みを見てください。 770 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:05:14 ID:GGa+C9Y90 ちょっとおもしろいもの発見したよ Mainichi Daily Newsのサイトがクローラーをどういうふうに制御しているのかと思って robots.txtを見てみたw まず、このURLにアクセス ↓ http://mdn.mainichi.jp/robots.txt そうすると、こういう文字列が出る ↓ User-agent: ia_archiver Disallow: /culture ia_archiverというのはInternet Archiveのクローラー。Disallowは文字通り、「許可しない」という意味。 要するに、「犯行」が行われていた http://mdn.mainichi.jp/culture/のディレクトリ以下の アーカイブを参照不能にしたいんだねw [[Internet Archive>http://www.archive.org/index.php]]とは、その名の通り ネット上の情報を機械的にアーカイブ化するサービスを提供しているサイト。 何年も前の過去のサイトもアーカイブ化されているので、現在は消えてしまっているページでも アドレスをここに入力すると、過去のサイトを閲覧することができることがある。 http://mdn.mainichi.jp/culture/ とは、問題のコーナー「waiwai」があったディレクトリ。 つまり、この記述によって、waiwaiの記事が保存されないようになっていたことになる。 さらに面白い情報がある。IEなどで次の書き込みを試してみた。(2008/6/26 01:45) 819 名前:名無しさん@全板トナメ参戦中[] 投稿日:2008/06/26(木) 01:21:55 ID:GGa+C9Y90 >>789 調べてみた。 robots.txtの更新の日付は2008年6月3日7時17分36秒(GMT)だな どう見ても騒動が広がってからだw 調べ方も書いとく http://mdn.mainichi.jp/robots.txt ←まずここへ行く javascript:alert(document.lastModified) ←そのまま、アドレスバーにこれをペーストする enterを押す 94 名前:可愛い奥様[] 投稿日:2008/06/26(木) 01:31:43 ID:HLvpa7Xy0 >>91のコピペ内容の「意味」を補足。 こういう設定は、企業の情報システム部とかの 組織レベルでセキュリティポリシーを決めて実行することなんで、 通常はイチ担当者レベルでこっそりやるようなことじゃないってこと。 つまり、会社ぐるみの確信犯ってことで、ほぼ確定。 2008年6月3日。J-CASTなどが事件を取り上げ始める以前に、 工作が完了していたことになる。 *毎日新聞(MDN)が、ついにロボット型検索エンジンのクロールを完全に拒絶! GoogleやYahooで記事を検索してもらっては困るとは、いったい、どういう報道機関なのか? 毎日新聞(MDN)の紙面は、検索されると困る記事だらけと自ら白状したのも同然。そう受け止められて当然だろう。 まず、このURLにアクセス ↓ http://mdn.mainichi.jp/robots.txt すると、このような文字列が出る。 ↓ User-agent: * Disallow: / これは、ルートディレクトリ以下の全てのページについてロボット型検索エンジンのクロールを禁止するという意味。 当然、Mainichi Daily Newsの記事は一切検索できなくなる。 このような設定に変更したのは2008年6月27日14時58分32秒(GMT)と見られる。 従来の設定→ http://nagamochi.info/src/up6867.jpg 現在の設定→ http://nagamochi.info/src/up6868.jpg 874 :名無しさん@九周年:2008/07/09(水) 03:10:34 ID:WQE390jv0  【撤退】毎日デイリーニュースはインターネットから撤退しました【白旗】     〜 全ての検索エンジンを拒絶して真の引き籠もりに 〜  Mainichi Daily News - Japan News  http://mdn.mainichi.jp/robots.txt      --------------      User-agent: *      Disallow: /      --------------- ┌───────────────────────────────────────┐   【解説】ロボット排除     http://www.asahi-net.or.jp/~ax2s-kmtn/ref/robots.html    ロボットがサイトを訪問すると、「robots.txt」というファイルを最初にチェックします。   このファイルが存在すれば、その記述に従った行動をします。   このファイルはHTTPサーバの最上階層のディレクトリ(ルート・ディレクトリ)に置く必   要があります。したがって、自分がWebサーバを管理していない場合には、サーバの管理者   にお願いして置いてもらう必要があります。   ・全てのロボットがサイト全体を訪問しないようにしたい場合   User-agent: *   Disallow: / └───────────────────────────────────────┘ 598 :名無しさん@九周年:2008/07/09(水) 22:18:34 ID:fp5Gej/10 さあ、JAROに訴えよう Mainichi Daily News(英文毎日)広告メニューガイド http://mainichi.jp/info/etc/pdf/MDN_Guide_0807-09.pdf >日本関連情報のグーグル検索で頻繁に登場するなど、諸外 >国では「日本発の情報発信」サイトとしてすでに一般ユーザーに >も広く知られた存在となっています。 >グーグル検索で頻繁に登場するなど >グーグル検索で頻繁に登場するなど http://mdn.mainichi.jp/robots.txt User-agent: * Disallow: / *削除された? 7/24 に確認したところ、削除されているようです。 http://mdn.mainichi.jp/robots.txt >404 Not Found >The requested URL was not found on this server. >The specified page has been deleted or the URL has changed. ブラウザで判断して偽装していないか等は確認していませんが、一応報告します。 *この問題をとりあげたメディア **7/10 livedoor ニュース [[毎日新聞が検索エンジンを拒否!? メディアの自殺行為か(PJニュース)(2008年07月10日08時20分)>http://news.livedoor.com/article/detail/3722811/]] INTERNET Watch [[やじうまWatch■ 「robots.txt」で、毎日新聞英語版が「Web引きこもり」設定中 (7月10日)>http://internet.watch.impress.co.jp/static/yajiuma/2008/07/10/]] ---- *関連ページ #related()

表示オプション

横に並べて表示:
変化行の前後のみ表示:
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。