【SEO関係】robots.txtを書いてみよう！～難しいようで簡単なクローラー制御～【開発メモ】レンタルサーバー比較のつぼ！

【SEO関係】robots.txtを書いてみよう！～難しいようで簡単なクローラー制御～

2016/03/06

おはようございます、こんにちわ、こんばんわ。
東雲です。初めましての人はこれから宜しくお願いします。

さて、早速ですが前回の続きをしていきましょう。
今回は前回の最後に紹介したrobots.txtの中身を解説していきます。

ではもう一回コードを見てみましょう。

[code]
User-Agent:*
Disallow:/

Sitemap:http://example.com/sitemap.xml
[/code]

これがrobots.txtの基本形です。
この状態から色々と弄ることで設定を変えることが出来るわけですね。
では、一つ一つ見ていくことにしましょう。

どのクローラーの動きを制御するかを設定します。

検索エンジンごとに異なるクローラーを使っていますので、
〇〇のクローラーだけは弾きたいなぁ、となった時はそのクローラーの名前を記入します。

ですが殆どの場合は全部のクローラーを一括で制御するのが普通です。
なので此処には基本的に*（半角アスタリスク）を記入しておきましょう。
*を記入すれば全てのクローラーを対象に取ります。

さて、此処が一番気合を入れる部分です。
ここはアクセスを制御したいファイルを指定する場所です。
下記で紹介するのは一例ですが、大体どんな場合でも使えるテンプレートのようなものです。

・Disallow: /
サイト全体をブロックする時に使います。
公開前のサイト等に使うと良いでしょう。

・Disallow: /ブロックしたいディレクトリ名/
特定のディレクトリとその中身を全てブロックしたい時に使います。

・Disallow: /ブロックしたいページ名.html
特定のページをブロックしたい時に使います。

▽以下はUser-agent:にGooglebotを指定して行うものです。▽

・Disallow: /*?
疑問符（?）を含むすべてのURLへのアクセスをブロックしたい時に使います。
例）https://www.google.co.jp/search?q=rentub.com…

・Disallow: /*.xls$
*から$の間に書かれた名前で終わるすべてのURLをブロックします。
この場合、末尾が.xlsのファイルすべてが対象になります。

▽以下はUser-agent:にGooglebot-Imageを指定して行うものです。▽

・Disallow: /images/削除したい画像名
Google画像検索から特定の画像を削除したい時に使います。

・Disallow: /
    本来はサイト全体をブロックするのに使われますが、
    User-agent:Googlebot-Image と一緒に使うことで
    Google画像検索から全ての画像を削除できます。

サイトマップのURLを記入します。
これを記入しておくと、クローラーがサイトマップを積極的に読んでくれるようになります。

サイトマップを読むということは、
サイトの中身を詳しく把握してくれるということ。
必ず記入しておきましょう。

これで、robots.txtの中身の解説は終わりました。
これだけでも十分なのですが、次回はもう少し踏み込んでmetaタグとの組み合わせ等について語っていこうと思います。