[PR]
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
robots.txtをトップディレクトリ内に設置してクローラーを制御する事は可能ですが、全てのクローラーにrobots.txtが通用するわけではありません。
robots.txtというのは検索エンジンのロボットのアクセスとクロールを制御する為のファイルです。
ク ローラーにアクセスやクロールをしてほしくないページURLがある場合は、このrobots.txtを設置しクローラーに、「サイト内の/seo/以下の コンテンツにはアクセスやクロールをしないで」だとか、「サイト内の/seoで始まるURLのコンテンツにアクセスやクロールはしないで」と伝える事が出 来ます。
robot exclusion standardに準拠している検索エンジンのロボットは、robots.txtの指定に従いアクセスやクロールが可能なコンテンツのみ辿って収集していきます。
このrobot.txtを使えば、インデックスして欲しくないページURLへのアクセスやクロールをブロックする事が可能になります。
但し、ブロックできるのはrobots.txtに従う検索エンジンのロボットのみです。
robot exclusion standardに準拠している検索エンジンはサイトを訪れた時に、最初にrobot.txtをチェックします。
そのrobots.txtに上記のような命令が記述されていた場合には、該当するディレクトやファイルなどにアクセスもクロールもしません。
アクセスというのは読み込みや書き込みのことです。
クロールは巡回・収集のことです。
robot exclusion standardのexclusionとは「排除」だとか「除外」という意味です。
日本語訳では「検索ロボット除外基準」・「検索クローラー排除基準」とするのが適当でしょう。
このrobot exclusion standardに準拠するかどうかは、各検索エンジンのロボット次第のため準拠していないロボットはrobot.txtの記述を無視してサイト内の全ページURLにアクセスもクロールもしてきます。
そのため、インデックスされたくないページが収集され、検索結果に表示されてしまいます。
全検索ロボットにインデックスさせたく無いページURLに関しては、別手段でロボットをブロックする必要があります。
この場合はWebサーバー自体にアクセス制限をかけるしかありません。