トップ検索エンジンでのインデックス状況

検索エンジンでのインデックス状況

検索エンジンでのインデックス状況は、相互リンク先(被リンク)で最も重要な事の一つです。
どんなに他の要因でSEOに有効なサイトでも、検索エンジンにインデックスされなければ 『無い』 と同じです。

インデックス状況を確認する

Google他検索エンジンの検索窓で、下記を入力し検索します。

(例) site:相互リンク先のトップページのURL
site:http://mutual-link.net84.net/

検索エンジンに認識されているサイト内のページが表示されます。
これにより自分のサイトが登録されるページや階層がインデックスされているかが解ります。
申請後に新たなページが作成されるタイプのサイトの場合は、他のサイトのページがインデックスされているかを確認します。

(例) inurl:を使った確認方法
site:http://mutual-link.net84.net/ inurl:link_status

Googleではインデックス数をある程度制限して表示する場合があります。
site: コマンドだけでは表示されないページでも、
↑のように、inurl: をつける事でインデックス状況を確認できるときがあります。

念の為、ロボットテキストも確認する

ブラウザのアドレスバーから、相互リンク先の下記のページを開きます。

(例) 相互リンク先のトップページのURL/robots.txt
http://mutual-link.net84.net/robots.txt

検索エンジンのクローラーが巡回するページを制限したりするファイルです。
自分のサイトが登録されるページがロボットを禁止していないか確認します。
ファイルが存在しなければ、robots.txt では制限していないのでOKです。 確認完了です。

robots.txt の見方

User-agent: *
Allow: /

↑は、全てのロボットに、全てのファイルの巡回を 『許可』 しています。  これならOKです。

User-agent: *
Sitemap: http://mutual-link.net84.net/sitemap.xml
Disallow: /img/

↑は、全てのロボットに、xmlサイトマップのURLを教えていて、/img/ 以下だけを 『拒否』 しています。
ページは余すところなく検索結果に出してほしいけれども、画像検索には出したくない。 という感じです。  これならOKです。

User-agent: *
Disallow: /相互リンクしているサブディレクトリ/

もし↑のようになっていたら注意!
被リンクは検索エンジンに認識されないので、相互リンクを申請するのはやめましょう。
リンクがあるページの検索エンジンの巡回を拒否して、相手からのリンクだけ評価してもらうつもりだと思われます。
robots.txt は誰でも見れるのでバレバレなのですが、たまにこのようなサイトがあるので注意が必要です。

robots.txt の詳細

相互リンク先の robots.txt の見極め方としては、↑の確認で十分ですが、もっと詳しく知りたい方は↓をご覧下さい。

ソース意味用途
User-agent
User-agent: *
ロボットを指定しています。
* は全ての意味です。
XMLサイトマップの場所を教える。
独自の404エラーページや、画像、
無限パターンの検索結果ページを拒否など。
User-agent: Googlebot
Googleの全ての検索これらを拒否するとWEB八分。
デフォルトは、
Allow: /
なので、書かなくてもOKです。
User-agent: Slurp
Yahoo!検索
User-agent: bingbot
bing検索
User-agent: Googlebot-Image
Googleイメージ検索画像検索に載せたくないなら拒否など。
User-agent: Yahoo-MMCrawler
Yahoo!イメージ検索
User-agent: Googlebot-Mobile
Googleモバイル検索モバイル非対応のPCサイトなら拒否など。
User-Agent: Y!J-SRD/1.0
User-Agent: Y!J-MBS/1.0
Yahoo!モバイル検索
User-agent: baiduspider
Baidu検索頻繁に 動画 を探しに来る場合は、
クロール頻度の設定など。
User-agent: Yeti
NAVER検索
User-agent: baiduimagespider
Baiduイメージ検索頻繁に 画像 を探しに来る場合は、
クロール頻度の設定など。
User-agent: psbot
MSN picsearch
その他の検索エンジンのロボットは、よほど頻繁に来ない限り個別指定なしで問題ないと思います。
Allow
Allow: /
全てのファイル(ページ)を許可。
Allow:
許可するファイルは無い。 ※全て拒否と同じなので注意。
Allow: /example/
サブディレクトリ /example/ 以下を許可。
Allow: /*?$
疑問符で終わるURLを許可。
Disallow
Disallow: /
全てのファイルへのアクセスを拒否。
Disallow:
拒否するファイルは無い。 ※全て許可と同じなので注意。
Disallow: /example/
サブディレクトリ /example/ 以下を拒否。
Disallow: /example/foo.html
個別ファイルを指定して拒否。
Disallow: /example/*.html$
拡張子を指定して拒否。
Disallow: /example*/
example で始まるサブディレクトリ以下を拒否。
Disallow: /*?
疑問符を含むURLを拒否。
Sitemap
Sitemap: http://ドメイン/sitemap.xml
XMLサイトマップの場所。
Crawl-delay
Crawl-delay: 10
クロール頻度の設定。

bing、Baidu、NAVER では、『秒』 を設定します。

Yahoo!は独自仕様の為、分や秒ではなく、
始めは0.5~1で様子を見ながら、10を上限の目安に調整します。

Googleは robots.txt では設定できないので、
WEBマスターツールのクロール速度で設定します。