検索エンジンに自分のサイトの収録コンテンツの存在を知らせるには、XMLに依るサイトマップを用いる事とされておりますが、この他にもいくつかの方法があります。
ウェブログなどに採用されているRSSフィードは検索エンジン向けのURL一覧としても有効です。
但し、グーグルではRSS 2.0とAtom 1.0のみをサポートし、RSS 1.0はサポートしておりません。
また、無償のウェブログなどでは最新の記事のURLのみ収録されている場合があり、そのようなフィードではサイト全体の情報を与える事が出来ません。
検索エンジンにサイトの情報を与えるもう一つの方法は、URLを列挙したテキストファイルを用いる事です。
テキストファイルでURL一覧を作成するには、単純にサイト内のURLを http:// から始まる絶対URLで記述するだけです。
具体的には、以下のように行います。
http://www.actress.uso/HORIKITA_Maki.htmlhttp://www.actress.uso/%E5%A0%80%E5%8C%97%E7%9C%9F%E5%B8%8C.html…
但し、実際には、非アスキィ文字は使えないため、シフトJISコードや日本語EUCしか使えないエディタであっても作成は可能です。
尚、URLに非アスキィ文字(特に漢字や仮名文字)が含まれる場合には、
アスキィ文字化する必要があります。
例えば、URLとして
http://www.アイドル.uso/堀北真希/
と言うURなら、
http://www.xn--ccke5ivf.uso/%E5%A0%80%E5%8C%97%E7%9C%9F%E5%B8%8C/
とエンコードします。
分かり易く言えば、URL一覧テキストから相対URLでアクセス出来るURLのみ記述出来ると言う事です。
例えば、URL一覧テキストのURLが http://www.uso800.uso/ であれば、
https://www.uso800.uso/…http://www2.uso800.uso/…http://uso800.uso/…などは全て記述出来ないURLとなります。
例えば、URL一覧テキストが http://www.uso800.uso/user/sitemap.xml 上にある場合、
http://www.uso800.uso/document.htmlなど、上位ディレクトリにある文書や
http://www.uso800.uso/user2/document.htmlなど、収納ディレクトリ外にある文書のURLは書けません。
これ以上の文書が入る場合には、URL一覧テキストを分割する必要があります。
URL一覧をテキストファイルで作成する方法の欠点は、以下のものがあります。
優先度, 更新頻度, 更新日時と言った情報を与える事が出来ません。
携帯電話向けサイトである情報もURL以外の情報ですので、当然加える事が出来ません。
携帯電話向けサイトには必ず専用のサイトマップを作成する必要があります。
このため、かつてはテキストファイルは非推奨とされておりました。
とは言え、簡単に作成出来る事や、XMLでないため文書エラーの心配もない事など、手書きで作成するのには一番簡単な方法でもあります。