robots.txtとは?メリットと書き方を解説

robots.txtとは?メリットと書き方を解説

robots.txtとは?

robots.txtとは、特定のディレクトリ・ページ・ファイルへ対して、検索エンジンのクローラーを許可または拒否する設定ができるファイルのことである。

よく混同されがちだが、robots.txtはあくまでもクローラーの制御であり、インデックスを拒否するものではないので注意しよう。

robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。 これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、ページをパスワードで保護します。

robots.txt の概要

robots.txtを設置するメリット

robots.txtを設置することで、クローラビリティ向上の効果がありSEO対策としてもメリットがある。

クローラビリティ向上

特定のディレクトリ・ページのクロールを拒否できる

robots.txtに特定のディレクトリ・ページを指定することで、Googleのクローラーを拒否することができる。これにより、より重要なページにクローラーのリソースを割くことができ、限りあるクロールバジェットを有効的に活用できる。

特定のメディアファイルのインデックスを拒否できる

robots.txtに画像・動画・PDFなどのメディアファイルを指定することで、インデックスを拒否することができる。robots.txtは「クローラーを拒否できるもの」と前述したが、メディアファイルにおいてはこの限りではない。メディアファイルにはnoindexの指定ができないため、robots.txtは唯一のインデックスを拒否できる方法とも言える。

XMLサイトマップを指定できる

robots.txtにXMLサイトマップ(sitemap.xml)を指定することで、クローラーに認識させることができる。XMLサイトマップはサイト構造を一覧化したものであるため、これをクローラーに認識させることはクローラビリティ向上に貢献する。

robots.txtの書き方

robots.txtの基本形

下記がrobots.txtの基本形の書き方だ。

User-agent:
Disallow:
Allow:
Sitemap:

robots.txtは下記の4つの構成からなる。

  • User-agent
  • Disallow
  • Allow
  • Sitemap

User-agent

User-agentは、どのクローラーに対しての制御なのかを指定する記述である。

すべてのクローラーを指定する場合。

User-agent: *

Googleのクローラーを指定する場合。

User-agent: Googlebot

Disallow

Disallowは、クローラーのアクセス拒否を指定する記述である。

特定のディレクトリを指定する場合。

Disallow: /hoge/

特定のページを指定する場合。

Disallow: /hoge.html

特定のファイルを指定する場合。

Disallow: /*.jpg$

Allow

Allowは、クローラーのアクセス許可を指定する記述である。基本的にはすべてに対してクローラーはアクセスする。そのため記述するケースはあまりないが、Disallowで指定した配下で特定のものだけ許可したい場合に用いる。

Disallow: /hoge/
Allow: /hoge/hoge.html

Sitemap

Sitemapは、XMLサイトマップを指定する記述である。DisallowやAllowが「/」から始まるパスに対して、Sitemapは絶対パスで記述する必要がある。

Sitemap: https://hiriluk.com/sitemap.xml
XMLサイトマップ(sitemap.xml)とは?必要性と作り方を解説

robots.txtの設置場所

robots.txtは下記のようにルートディレクトリ直下に設置する必要がある。ルートディレクトリ直下でない箇所に設置してしまうと正しく制御できないため注意しよう。

  • https://hiriluk.com/robots.txt

robots.txtの注意点

クローラーによってはrobots.txtで制御できない

Googleなどの主要な検索エンジンのクローラーは問題ないが、クローラーによってはrobots.txtを無視してクロールするものもあるため注意しよう。すべてのクローラーに対して制御をかけたい場合は.htaccessなどで対処する必要がある。

インデックスを拒否するものではない

robots.txtはあくまでもクローラーの制御であり、インデックスを拒否するものではないで注意しよう。インデックスを拒否したい場合はnoindexなどで対処する必要がある。

まとめ

  • robots.txtは、特定のディレクトリ・ページ・ファイルへ対して、検索エンジンのクローラーを許可または拒否する設定ができるファイル
  • クローラビリティ向上の効果がありSEO対策としてもメリットがある
  • 設置場所はルートディレクトリ直下
  • クローラーによってはrobots.txtで制御できない
  • インデックスを拒否するものではない

記事の著者

HIRILUK

HIRILUK編集長

HIRILUKの創設者。十数年に渡り一貫してSEO業務に携わる。年間12億PVのECサイトのSEO戦略室にてSEO対策を推進。その後もオウンドメディアの立ち上げ、SEOコンサルティング、SEOセミナーなどを多数経験。
HTML5プロフェッショナル認定試験取得、GAIQ(Googleアナリティクス個人認定資格)取得。

内部対策SEO・テクニカルSEOのおすすめ記事

あわせて読みたい記事