SEO(検索エンジン最適化)とともに活用される、検索エンジン用サイトマップについての解説です。
サイトマップと言えば、サイトの案内ページの事を意味する場合が多いのですが、検索エンジン用のサイトマップとは、サイト内のURL一覧表の事となります。
グーグルをはじめとする検索エンジンはリンクを辿ってHTML文書を収集していきます。
と言う事は、作りたてのサイトなど、他者からのリンクがないサイトは、何時まで経っても検索エンジンにアクセスされないと言う事になります。
また、CGIやASPなど、検索エンジンのクローラにとって収集し難いURLと言うのがあり、リンクされている割になかなか検索エンジンにアクセスされないと言う事もあります。
こう言った問題点の解決策として、検索エンジンの最大手であるグーグルは検索エンジン用のサイトマップを考案し、他の大手検索エンジンもこれを採用するようになりました。
検索エンジン用のサイトマップはXMLで記述されたもので、URL情報の他クロール優先度, 更新頻度, 更新日時といった情報を附与する事も可能です。
尚、検索エンジン用のサイトマップにはXMLに依るフォーマットが定められておりますが、サイトマップ以外のURLデータ形式も多くの検索エンジンがサイトマップの代用としてサポートしております。
また、グーグルでは携帯電話向けの検索サーヴィスとして、携帯電話向けサイト限定の検索サーヴィスも行っておりますが、これに対応するために携帯電話専用のXMLサイトマップも用意しております。
実際の作成方法などについては全て別文書としました。
をそれぞれご覧ください。
ところで、サイトマップなどの情報を用意しても、それを検索エンジンが認識しなければ意味がありません。
サイトマップの送信にはいくつかの方法があります。
robots.txt とは、検索エンジンのクロールを制限するためのテキストファイルですが、これにサイトマップ関連の情報を加えます。
具体的には、当該テキストの任意の箇所に
Sitemap: サイトマップのURL
と言う行を記述します。
これで、検索エンジンがアクセスした際にサイトマップの存在を認識出来るようになります。
但し、robots.txt はルートディレクトリに置かなければなりませんので、一部のアカウント名をディレクトリ名としているようなサーヴァでは設置しても効果がありません。
また、検索エンジンがアクセスしなければやはり意味がありません。
加えて、サイトを更新しても、その事を認識させる事までは出来ません。
最も簡単な方法ですが、最も受動的な方法でもあるとも言えます。
能動的にサイトの更新などを知らせたいのであれば、各検索エンジンが運営しているサイト制作者向けサーヴィスを利用するのが良いでしょう。
と言ったサーヴィスがあるので、これを利用します。
これらのサーヴィスでは、サイトマップの送信だけでなく、クロール状況やインデックス状況などの情報を知る事も可能です。
検索エンジンが運営するサイト制作者向けサーヴィス以外にも、能動的にサイト更新を知らせる方法があります。
http://www.google.com/webmasters/tools/ping?sitemap=サイトマップのURLhttp://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=サイトマップのURLhttp://webmaster.live.com/webmaster/ping.aspx?siteMap=サイトマップのURLでアクセスすると、サイトマップが送信されます。
http:// から始め、適宜URLエンコードを行う必要があります。注意点としては、