トップ 検索エンジンでのインデックス状況
検索エンジンでのインデックス状況は、相互リンク先(被リンク)で最も重要な事の一つです。
どんなに他の要因でSEOに有効なサイトでも、検索エンジンにインデックスされなければ 『無い』 と同じです。
Google他検索エンジンの検索窓で、下記を入力し検索します。
(例) site:相互リンク先のトップページのURLsite:http://mutual-link.net84.net/
検索エンジンに認識されているサイト内のページが表示されます。
これにより自分のサイトが登録されるページや階層がインデックスされているかが解ります。
申請後に新たなページが作成されるタイプのサイトの場合は、他のサイトのページがインデックスされているかを確認します。
site:http://mutual-link.net84.net/ inurl:link_status
Googleではインデックス数をある程度制限して表示する場合があります。
site: コマンドだけでは表示されないページでも、
↑のように、inurl: をつける事でインデックス状況を確認できるときがあります。
ブラウザのアドレスバーから、相互リンク先の下記のページを開きます。
(例) 相互リンク先のトップページのURL/robots.txthttp://mutual-link.net84.net/robots.txt
検索エンジンのクローラーが巡回するページを制限したりするファイルです。
自分のサイトが登録されるページがロボットを禁止していないか確認します。
ファイルが存在しなければ、robots.txt では制限していないのでOKです。 確認完了です。
User-agent: *
Allow: /
↑は、全てのロボットに、全てのファイルの巡回を 『許可』 しています。 これならOKです。
User-agent: *
Sitemap: http://mutual-link.net84.net/sitemap.xml
Disallow: /img/
↑は、全てのロボットに、xmlサイトマップのURLを教えていて、/img/ 以下だけを 『拒否』 しています。
ページは余すところなく検索結果に出してほしいけれども、画像検索には出したくない。 という感じです。 これならOKです。
User-agent: *
Disallow: /相互リンクしているサブディレクトリ/
もし↑のようになっていたら注意!
被リンクは検索エンジンに認識されないので、相互リンクを申請するのはやめましょう。
リンクがあるページの検索エンジンの巡回を拒否して、相手からのリンクだけ評価してもらうつもりだと思われます。
robots.txt は誰でも見れるのでバレバレなのですが、たまにこのようなサイトがあるので注意が必要です。
相互リンク先の robots.txt の見極め方としては、↑の確認で十分ですが、もっと詳しく知りたい方は↓をご覧下さい。
| ソース | 意味 | 用途 | |
|---|---|---|---|
User-agent | User-agent: * | ロボットを指定しています。 * は全ての意味です。 | XMLサイトマップの場所を教える。 独自の404エラーページや、画像、 無限パターンの検索結果ページを拒否など。 |
User-agent: Googlebot | Googleの全ての検索 | これらを拒否するとWEB八分。 デフォルトは、 Allow: /なので、書かなくてもOKです。 |
|
User-agent: Slurp | Yahoo!検索 | ||
User-agent: bingbot | bing検索 | ||
User-agent: Googlebot-Image | Googleイメージ検索 | 画像検索に載せたくないなら拒否など。 | |
User-agent: Yahoo-MMCrawler | Yahoo!イメージ検索 | ||
User-agent: Googlebot-Mobile | Googleモバイル検索 | モバイル非対応のPCサイトなら拒否など。 | |
User-Agent: Y!J-SRD/1.0 | Yahoo!モバイル検索 | ||
User-agent: baiduspider | Baidu検索 | 頻繁に 動画 を探しに来る場合は、 クロール頻度の設定など。 |
|
User-agent: Yeti | NAVER検索 | ||
User-agent: baiduimagespider | Baiduイメージ検索 | 頻繁に 画像 を探しに来る場合は、 クロール頻度の設定など。 |
|
User-agent: psbot | MSN picsearch | ||
| その他の検索エンジンのロボットは、よほど頻繁に来ない限り個別指定なしで問題ないと思います。 | |||
Allow | Allow: / | 全てのファイル(ページ)を許可。 | |
Allow: | 許可するファイルは無い。 ※全て拒否と同じなので注意。 | ||
Allow: /example/ | サブディレクトリ /example/ 以下を許可。 | ||
Allow: /*?$ | 疑問符で終わるURLを許可。 | ||
Disallow | Disallow: / | 全てのファイルへのアクセスを拒否。 | |
Disallow: | 拒否するファイルは無い。 ※全て許可と同じなので注意。 | ||
Disallow: /example/ | サブディレクトリ /example/ 以下を拒否。 | ||
Disallow: /example/foo.html | 個別ファイルを指定して拒否。 | ||
Disallow: /example/*.html$ | 拡張子を指定して拒否。 | ||
Disallow: /example*/ | example で始まるサブディレクトリ以下を拒否。 | ||
Disallow: /*? | 疑問符を含むURLを拒否。 | ||
Sitemap | Sitemap: http://ドメイン/sitemap.xml | XMLサイトマップの場所。 | |
Crawl-delay | Crawl-delay: 10 | クロール頻度の設定。 bing、Baidu、NAVER では、『秒』 を設定します。 Yahoo!は独自仕様の為、分や秒ではなく、 始めは0.5~1で様子を見ながら、10を上限の目安に調整します。 Googleは robots.txt では設定できないので、 WEBマスターツールのクロール速度で設定します。 |
|