Авторизация

 
Как правильно создать файл robots txt Печать
(0 голосов)
Автор Andrey   
29:05:2017 г.

robots.txt – это текстовый файл-стандарт, который ограничивает поисковым системам индексацию контента (файлы, каталоги или страницы) сайта. Впервые данный стандарт начал использоваться в 1994 году после январского консорциумом W3C 30, на котором собственно и был принят.

Robots имеет текстовое расширение и добровольно используется практически всеми современными поисковыми системами. В данной статье мы научимся создавать и настраивать robots.txt, а также добавлять в него директиву host.

Для чего нужен текстовый стандарт robots.txt

Стандарт robots.txt играет важную роль в поисковой оптимизации сайта. Он является своеобразным брандмауэром, который исключает из поиска не нужные или не содержащие полезной информации страницы. При этом нужно понимать, что для небольших сайтов с несложной структурой, ограничение поисковым системам индексации может быть не лучшим решением. Для маленьких сайтов куда лучше подойдут специальные директивы – host или sitemap.

как составить файл роботс тхт

Как создать файл robots.txt

Текстовый стандарт robots.txt можно создать при помощи обычного Блокнота или любой другой программы, в которой имеется возможность создания текстовых файлов. Инструкция в файле может касаться либо всех поисковых систем, либо какой-то одной отдельно.

Рассмотрим наиболее простую инструкцию, которая будет распространяться на все поисковые системы:

User-agent: *
Disallow: /admin/
Disallow: /music/

User-agent – здесь указывается поисковая система (поисковый робот), к которой обращается инструкция. В примере сверху указан знак звездочки, означающий, что данная инструкция относится ко всем поисковым системам. Т.е. администратор ограничил индексацию для всех поисковых ботов. Кстати, их перечень можно найти в специальной базе данных – http://www.robotstxt.org/db.html.

Disallow – это директива указывающая на директорию, которая подлежит запрету индексации. В приведенном примере запрету подлежат директории admin и music. При этом очень важным моментом является то, что каждая запрещенная директория должна прописываться отдельной строкой. Совмещение нескольких инструкций в одной строке является грубой ошибкой и может привести к сбоям при поисковой оптимизации сайта.

Приведем пример инструкции, которая запрещает индексацию только одной поисковой системе:

User-agent: Googlebot
Disallow: /admin/

В примере выше поисковому роботу Googlebot запрещено проводить индексацию директории admin, в которой хранятся важные для администратора файлы.

Также отдельно нужно рассмотреть директиву Allow, которая предоставляет доступ к дочернему разделу запрещенной директории. Т.е. поисковая система индексирует только указанный сектор директории. Пример robots.txt с использованием директивы Allow:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/music

В приведенном примере, поисковому роботу Googlebot запрещена индексация директории admin, но при этом разрешена индексация дочернего раздела music.

Директива Allow воспринимается не всеми поисковыми роботами. Возможность ее использования для разных ботов можно уточнить в ранее приведенной базе данных.

файл роботс

Как добавить директиву host в роботс.тхт

Для поисковой системы Яндекс, очень актуальной является директива host, которая указывает на основное зеркало сайта. Неважно будет ли указан тег распределенной системы www, поисковый робот все равно воспримет инструкцию. Пример robots.txt с использованием директивы host:

User-agent: Yandex
Disallow: /admin/
Host: site.ru

В примере сверху инструкция для директивы host указана без использования тега www, что никак не сказывается на работе поискового робота.

Директива host очень популярна для поисковой системы Яндекс, но возможность ее использования для других поисковых ботов нужно уточнять в базе данных.

Как настроить robots.txt

Настроить стандарт robots.txt можно как угодно. Сейчас мы рассмотрим разного рода инструкции, о которых будет полезно знать начинающему и опытному пользователю.

User-agent: *
Disallow: /

Одна из самых простых инструкций, которой может воспользоваться пользователь для запрета индексации всего сайта всем поисковым системам. Слеш в данном случае обозначает все директории сайта.

Приведенную сверху инструкцию можно изменять как угодно. Например, если убрать слеш, то все директории сайта будут доступны для индексации всем поисковым системам. Если же вместо звездочки прописать наименование конкретного поискового бота, то индексация всего сайта будет запрещена только одной поисковой системе, а всем остальным разрешена.

Также можно запретить индексацию сайта всем поисковым ботам, кроме одного. Например:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Ну и конечно, в стандарте robots.txt можно запретить индексацию конкретных файлов. Например:

User-agent: Googlebot
Disallow: /smile.php
Disallow: /mouse.html

В приведенном примере индексация таких файлов как smile.php и mouse.html запрещена для поискового бота компании Google.

google-joomla-robots-txt.jpg

Как ограничить индексацию участка текста в robots.txt

Для ограничения индексации определенного участка текста используется тег noindex. Сразу нужно заметить, что данный тег воспринимается только поисковыми системами Яндекс и Рамблер. Все остальные поисковые роботы просто игнорируют инструкцию noindex. Пример использования тега:

<!--noindex-->
Рассматривается проблема типологии «классического» тургеневского романа. Анализируются различные концепции жанра романа писателя, предлагаемые на разных этапах развития тургеневедения.
<!--/noindex-->

При этом для правильности работы тега noindex, его нужно замаскировать под комментарий, как это показано в примере.

Где лежит robots.txt

Созданный файл нужно размещать в корневой директории конкретного сайта. Само собой стандарт должен иметь соответствующее название – robots.

Правила, о которых нужно знать при написании стандарта robots.txt

  1. Инструкции, написанные в верхнем регистре, не будут восприниматься поисковыми ботами. Поэтому их нужно писать строго в нижнем регистре.
  2. Для каждой новой инструкции используется новая директива Disallow, которая в свою очередь записывается с новой строки.
  3. Директивы User-agent и Disallow нельзя менять местами, иначе инструкции не будут восприняты поисковыми ботами.
  4. Директива User-agent не должна оставаться пустой. Если запрет касается всех поисковых систем, то указывается звездочка. Если только одной, то указывается конкретное наименование поискового бота.
  5. При оформлении директивы host для Яндекса, адрес сайта нужно писать без протокола http:// и закрывающего слеша.
  6. Нельзя опускать директиву Disallow. Даже если ничего запрещаться не будет, директива должна быть вписана в файл robots.txt в пустом виде.
  7. При запрете индексации директории должны присутствовать открывающий и закрывающий слеши.
  8. Перед тем как добавить файл robots.txt в корневую директорию сайта, его нужно тщательно несколько раз проверить на наличие ошибок.

Стандарт robots.txt позволяет значительно оптимизировать индексацию сайта различными поисковыми системами. При этом, как можно заметить из статьи, создание самого файла не очень сложное и требует лишь немного времени. Почитать подробнее о продвижении сайтов в Нижнем Новгороде https://nn.semantica.in

 
« Скидки на хостинг, VPS, серверы: как не пропустить   Нагрузочное тестирование сайта »

Ваше мнение

Какой ОС вы пользуетесь в данный момент?