Google Search Consoleを利用していると、「『インデックスカバレッジ』の問題が新たに検出されました」というメールが届くことがあります。

今回は「送信された URL が robots.txt によってブロックされました」というエラー原因と改善方法について解説していきます。

インデックスカバレッジについてはこちらも参照して下さい

インデックスカバレッジの問題が新たに検出されましたの通知と対処法

インデックスカバレッジの問題は、Googleがそのページを正しくインデックスできていないことを意味しており、問題を解消しない限り、そのページはGoogleにインデックスされず、検索結果に表示されることもありません。

このページに書いてあること

送信された URL が robots.txt によってブロックされました

このエラーは、URLがrobots.txtに含まれていることが原因であることが多いです。

簡単にまとめると、

あなたが検索エンジンにサイトを巡回するように頼んだ(サイトマップの送信)のにも関わらず、検索エンジンに巡回されないような設定(robots.txtの記述)を行なっているので、正常に巡回できなかった

という状況です。

robots.txtとは、収集されたくないコンテンツをクロールされないように制御するファイルです。これにより検索エンジンのクローラーに自サイトにとって重要なコンテンツを中心にクロールさせたり、クロールが不要な部分についてはクロールをブロックしたりすることが可能です。

クロールについてはこちらの記事も参照ください。

【SEO基礎】検索エンジンの歴史や仕組み、アルゴリズムについて

SEOに限った話ではありませんが、歴史を知ることは重要です。なぜかと言うと、SEOには、『SEOを行う上でやったほうがいいことと、やってはいけないこと』があり、過去の経緯を知ることによって、なぜやった方がいいのか。やってはいけないのか。を理解することができるからです。SEOの歴史を知って、検索エンジンのしくみを理解することで、SEO対策を行う上で非常に重要です。まずは検索エンジンの歴史と基本的な動きを理解し、SEO対策に活用できるようにしてください。

送信された URL が robots.txt によってブロックされましたの改善方法

WordPressをお使いの方はまず、WordPressの管理画面左サイドメニュー[設定]>[表示設定]を開きます。
すると画像の「検索エンジンがサイトをインデックスしないようにする」という部分を探してください。

Webサイトを創設して日が浅い、もしくはコンテンツが少ないと「コンテンツや記事がまだ十分ではないから検索されないようにする」といった意図でチェックしていることが多いです。

なので、この項目にチェックが付いている場合はチェックを外しましょう。

次に、技術的な部分が分かる方に確認していただきたいポイントは robots.txt 内の「Disallow」の記述の部分です。
Disallowという記述はアクセスの拒否を行う際に使用します。

▼Disallowの記入例
Disallow : / 　→サイト内の全てのページをブロック(/はTOP配下全てを表す)
Disallow : 　　→ブロックなし
Disallow : /directory1/page1.html 　→ページ(/directory1/page1.html)のみブロック
Disallow : /directory2/ 　　　　　　　→ディレクトリ(/directory2/)配下全てのページをブロック
Allow : /directory2/page1.html　　　→ページ(/directory2/page1.html)のみクロール許可

このようにクロールの必要が無いページに対しては、Disallowを記述し、クロールの制御を行いましょう。よく行われている例としてはログインURLなどが対象になります。Wordpressの管理画面のURL（例123.com/wp-admin）をクロール拒否しているサイトは多数あります。

robots.txtの内容がちゃんと意図したものになっているかを確認し、サイトマップもしくはrobots.txtを修正して矛盾を解消しましょう。

そもそもrobots.txtとは？

robots.txtとは、収集されたくないコンテンツをGoogleといった検索エンジンによってクロールされないよう制御するファイルを指します。

一般的にはクローラーからクロールされることは良いと捉えられることから、「WEBページにある全てのコンテンツはクロールされた方がいいのでは？」というお話もあり、一概に正解不正解はありません。
ですが、登録をしている方のみ限定のコンテンツやショッピングカートなど、もしくはシステム的にどうしても自動で生成されてしまう重複ページなどはクロールさせることで、かえってサイト全体のSEOに影響が出ることがあるのです。

robots.txtの記述内容

主に、robots.txtは以下の要素から成り立っています。

先ほどお話をした「Disallow」の後に特定のページの場所、もしくは「/」(サイト全体を表す)が入っている場合は、そのページ(サイト全体)を検索エンジンに巡回させない設定になっているので、注意してください。

robots.txt作成時に注意すべき点

便利だし、大切なのはなんとなく分かったけど、どんなことに気をつけたらよいのでしょうか？

クロール拒否はnoindex目的で使用してはいけない

クロール拒否はnoindex（インデックスされない）目的で使用してはいけないことです。あくまでクロール拒否はクロールを拒否する役割であり、インデックスが防げるわけではないためです。

robots.txtにdisallowの指定をすると、クロールのアクセスを制御することができるため、基本的にはインデックスされることはありません。

しかし、他ページにdisallow対象のページへのリンクが設置されている場合に、インデックスされてしまう可能性があります。

クローラをブロックしているページでも他のサイトからリンクされていればインデックス登録が可能
Google では、robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報（該当ページへのリンクのアンカーテキストなど）が、Google の検索結果に表示されることもあります。特定の URL が Google 検索結果に表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex メタタグまたはレスポンスヘッダーを使用する（もしくは該当ページを完全に削除する）必要があります。

Google検索セントラル参照

ですので、インデックスをさせたくないページにはページのhead内に

noindexを促すrobotsメタタグ

 meta name="robots" content="noindex" Code language: JavaScript (javascript)

のように記述するかプラグイン等でnoindexの設定をしておきましょう。

重複コンテンツの正規化に利用しない

同じようなお話になりますが、重複コンテンツが発生している場合、robots.txtで片方のコンテンツページをブロックすれば重複コンテンツを正規化できると考える方がいますが、それは正しい方法ではありません。
重複コンテンツの場合は、canonicalや301リダイレクト、文章のリライトなど正しい方法で正規化すべきです。

処理の優先度は上から下ではない

少しテクニカルなお話ですが、robots.txtの処理の優先度は下記の二つを覚えておいてください。

・階層が深い方から処理される
・AllowがDisallowより優先される

例を挙げてみてみます。

User-agent:*
Disallow: /shop/tokyo
Allow: /shop/

この処理だと、下記処理のように見えますが違うんです。

・/shop/tokyoへのアクセスを禁止！
・やっぱり/shop/以下は全部入ってもいいよ。

このケースでは「/shop/tokyo」の方が深い階層にあります。
ですので、後から上の階層（/shop/）に対する「Allow」の処理を書いても階層が浅いため優先度が低く、処理されないということになってしまします。

まとめ

いろいろとお伝えしてきましたが、やはりrobots.txtの扱いは慎重に行いましょう。
クローラーが全ページアクセスできなくなってしまったら、順位が急落することもないとは言えません…

robots.txtそのものは簡単に作成できますので、その分怖いファイルとも言えます。
ですが、Web担当をやっていれば触れることも結構あるファイルになるのである程度の理解はしておきましょう。

わからない点はお気軽にご相談ください

急に警告メールが届いて不安に思った方もいらっしゃると思います。

この記事が多少なりとも、お役に立てばと思います。

記事を読んで不明な点等がありましたらお気軽にTwitter（@kaznak_com）などでご質問ください。

では失礼します。

中村一浩

twitter: @kaznak_com
株式会社ココログラフ代表取締役CEO。1982年生まれ。高校卒業後に携帯販売業界にて、インターネットとハードウェアの急速な進化に触れた後、ウェブの面白さに惹かれ、2009年に株式会社ジオコードに入社。SEOを中心にウェブマーケティングを学び、同時にウェブ制作部門、システム開発部門のマネジメントも兼務。幅広いウェブ運用知識を有する。2018年に独立・起業し、検索エンジンだけでなく検索ユーザーにまで最適化する、SEOの上位互換サービスSUOを提供。SEO / SUOの独自レポートツール、サチコレポート開発者。著書『現場のプロが教えるSEOの最新常識』

■得意領域
ウェブサイト改善
SEO対策
コンテンツマーケティング

RANKING

SUO・SEO対策

送信された URL が robots.txt によってブロックされましたのエラー原因と改善方法

送信された URL が robots.txt によってブロックされました

送信された URL が robots.txt によってブロックされましたの改善方法

そもそもrobots.txtとは？

robots.txtの記述内容

robots.txt作成時に注意すべき点

クロール拒否はnoindex目的で使用してはいけない

重複コンテンツの正規化に利用しない

処理の優先度は上から下ではない

まとめ

わからない点はお気軽にご相談ください

人気記事

このページに書いてあること

人気記事ランキング

ホーム

会社概要

サービス

採用情報

知識ノート

お知らせ

よくある質問

個人情報取扱方針

送信された URL が robots.txt によってブロックされました のエラー原因と改善方法

送信された URL が robots.txt によってブロックされました

送信された URL が robots.txt によってブロックされましたの改善方法

そもそもrobots.txtとは？

robots.txtの記述内容

robots.txt作成時に注意すべき点

クロール拒否はnoindex目的で使用してはいけない

重複コンテンツの正規化に利用しない

処理の優先度は上から下ではない

まとめ

わからない点はお気軽にご相談ください

人気記事

#ezw_tco-2 .ez-toc-title{ font-size: 120%; ; ; } #ezw_tco-2 .ez-toc-widget-container ul.ez-toc-list li a{ ; ; ; } #ezw_tco-2 .ez-toc-widget-container ul.ez-toc-list li.active{ background-color: #ededed; } このページに書いてあること

人気記事ランキング

送信された URL が robots.txt によってブロックされましたのエラー原因と改善方法

このページに書いてあること