Важность файла robots.txt в индексации сайта.

Важность файла robots.txt в индексации сайта.

Добавлено: 28.12.11, 08:20
Всё меньше и меньше дней остается до нового года...
Честно говоря, по магазинам я еще не бегаю (возможно сегодня пойду), хотя народу там должно быть предостаточно. Ну а пока есть время, я немного хочу рассказать о важности такого файлика на вашем сайте, как robots.txt .
Зачем же он нужен? Для правильной и точной индексации вашего сайта поисковиками. Создать файлик легко и просто, но вписать нужные команды, может не каждый. Сейчас я 'попытаюсь' вам рассказать о некоторых командах и их назначениях.
Любой robots.txt, начинается со строк (в конце статьи, я приведу понятный пример использования файла):
User-agent: * - Данная команда устанавливает имя поисковой системы, для которой запрещен доступ к ресурсу указанный в поле 'Disallow', где звездочка, означает всех ботов. Если вам нужно использовать данную команду только для определенного(ых) бота(ов), то нужно прописывать:
User-agent: Googlebot, однако при добавлении других ботов, нужно прописывать их так же с новой строки, изменив название с Googlebot на другой.
Поле Disallow: cache/mache - устанавливает адрес страницы, которую вы хотите сделать недоступной. Например для всех url, будет правильно применить знак '/' (без кавычек разумеется). Если вы хотите сделать запрет для какой либо одной страницы, то правильно будет прописать так:
Disallow: /loads/bylad - данная команда обозначает, что для всёх поисковых систем (или любой другой, которую вы указываете в user-agente'e) доступ к странице с адресом /loads/bylad/ запрещен.
Символ # - рассматривается поисковиками, как комментарий к инструкции.
Команда Sitemap: http://your-site.ru/sitemap.xml - адрес карты вашего сайта. Путь может быть любым, а 'your-site' заменяем url-адресом вашего сайта.
Для склейки доменов используется директива Host, которая идет после Disallow и Allow исходя из этого, при склейке доменных имен пишем следующее:
Host: site.ru - вместо site.ru, пишем новый домен (можно с www, если нужно). Применять нужно в основном для яндекса и рамблера.
---
Правильная карта сайта будет выглядеть так (разумеется, всё берется в примерах, и не нужно её копировать, во избежании исключения из поиска вашего сайта):
User-agent: YandexBot
Dissalow:
Sitemap: http://your-site.ru/sitemap.xml
Из вышепредложенных команд, составляем свой, правильный файл robots. В интернете есть уже готовые для популярных движков, таких как: Joomla, Wordpress, phpbb и т.п.
---
Как правильно работать с файлом robots.txt
Всё поисковики начинают исследование сайта именно с данного файла. Поэтому ошибки могут привести к неправильной индексации (частенько отображается на яндексе).
Файл robots.txt всегда прописывается в нижнем регистре (строчными буквами), и написание его, скажем ROBOTS.TXT будет являться неправильным.
Один домен - один robots.txt
В robots.txt , каждая команда (число которых неограничено, и пишутся они, только строчными буквами) должна прописываться в новой строке. Если оба поля содержат пустые строки, команда считается недействительной.
Файл должен находится в корневой папке вашего сайта.
Для поддоменов robots.txt тоже обязателен.
Желательно установить пароль на robots.txt , чтобы защитить информацию.
---
В интернете есть множество автоматизированных сервисов для создания данного файлика. Если же вам неохото их искать, то с данной задачей (создание файла), хорошо справляется и мини программа Sitemapgenerator.
P.S. Данную статью я написал из-за эмоций, которые появились, когда я вспомнил, что надо указать адрес карты сайта. В результате чего, мой блог быстро и практически полностью проиндексировал Яндекс.
Спасибо за внимание.

Просмотров: 222

Это может быть интересно:
+ Закрытие каталога Dmoz.org
+ Бэклинки...
+ Выбор стетчика(ов).
Комментарии