Файл robots txt

файл robots txt

Поисковые роботы, индексируя сайт, берут данные о запрете и разрешении на индексирование той или иной страницы сайта из файла robots txt, который размещается в корневом каталоге сервера.

Внесите в список запрещенные для индексации директории, в которых находятся интерактивные скрипты и те директории с файлами, которые Вы не считаете нужными для индексации.

Чем больше страниц поисковику предстоит проиндексировать, тем дольше пройдет процесс индексации сайта.

Формат записи в файле robots txt выглядит таким образом:

параметр: значение

Пробел между «параметр» и «значение» можно не ставить. Строка в файле robots txt, начинающаяся с символа «#», поисковый роботом будет проигнорирована и он воспримет ее, как комментарий.

В файле robots txt пустые строки считаются значащими: они разделяют разделы описания запретов и допусков, предназначенных для поисковых роботов.

Первой командой макроязыка файла robots txt является директива User-Agent. Каждый раздел файла robots txt, которые разделяются между собой пустой строкой, доложен начинаться с параметра User-Agent. Значением этого параметра является имя поисковой машины, для которой устанавливаются права для доступа к индексированию.

Если доступ к индексированию нужно указать для нескольких роботов, то их имена указываются через пробел. Если доступ к индексированию нужно указать для всех роботов, то вместо перечисления имен роботов ставят символ «*».

Второй командой является директива Disallow. На место ее значения подставляется относительный путь (url) файла или директории, которая не должна индексироваться, но ни в коем случае не абсолютный путь. Другими словами, ссылку на папку нужно записывать в виде «/home», но никак не в виде «http://www.mysite.ru/home».

Например, Disallow: /home запрещает индексировать файл home.html и директорию home, которые хранятся в корневой директории сайта, а команда Disallow: /home/ запрещает индексировать только директорию home и ее содержимое.

Если значения параметра Disallow не указано, то поисковый робот проиндексирует полностью весь сайт.

Строка Disallow: /, наоборот, запрещает индексировать сайт.

Ниже приведены примеры файла robots txt:

Пример №1.

User-Agent: Google
Disallow: /cgi-bin/
Disallow: /temp/folder/index
Disallow: /home/
Disallow: forbidden.html
Disallow: not_found.html

User-Agent: Yandex Google
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /temp/index.html
Disallow: not_found.html

Пример №2.

User-Agent: *
Disallow: /cgi-bin/
Disallow: /home/
Disallow: /images/
Disallow: forbidden.html

В файле robots txt не должно быть пустых строк, если только после разрыва строки первым не стоит параметр User-Agent. Стандарт исключений для поисковых машин запрещает использования масок, имеющих символы «*» и «?».

Так, запись Disallow: /home/*.html запрещает индексировать файлы не с расширением .html, а с именем *, которых не существует. В одной строке параметр Disallow должен иметь всего одну ссылку на директорию или файл. Для новой ссылки должна быть написана новая строка Disallow.

Создать файл robots txt можно в любом текстовом редакторе и затем закачать на сервер в главный каталог.

Управлять поисковыми роботами можно также при помощи мета-тега robots, который устанавливается между тегами head. Записывается следующим образом:

<meta name="robots" content="index,follow">

Свойства robots имеют следующие значения и разделяются запятой:

Если страница часто обновляется, то нет никакого смысла ее индексировать. В этом случае можно разрешить роботу отслеживать на странице гиперссылки и перейдя по ней, проиндексировать остальную часть сайта. Записывается это так:

<meta name="robots" content="noindex,follow">

Мета-тег robots имеет преимущество над файлом robots txt. Если, например, файл robots txt запрещает индексировать файлы в каком-либо каталоге, то мета-тег robots может разрешить их индексацию.

Участки веб-страницы, а также ссылки, которые не надо индексировать, можно ограничивать тегами <noindex> ... </noindex>. Кроме этого, для запрещения индексации ссылок можно в теге <a> прописать параметр rel="nofollow" (<a rel="nofollow" href="http://...">ссылка</a>).


Опубликовано: 23.02.2013 20:21

Просмотров всего: 840



Добавить комментарий:

Для обновления картинки кликните по ней.

Комментарии:

Нет комментариев.