SEO

Что такое Robots.txt 

 

Вот столкнулся еще с одним вопросом при изучении Джумлы - robots.txt. Решил ответить для себя на вопрос, как должен выглядеть правильный robots.txt для Joomla.

Но сначала пришлось освоить основные понятия, которые надо знать при составлении правильного robots.txt для любого сайта на любом движке.

Постараюсь подробно и с примерами изложить их ниже.

Что из себя представляет robots.txt? robots.txt – это простой текстовый файл, созданный любым текстовым редактором. Содержание данного файла – это правила для поисковых ботов по индексированию сайта. Пример стандартного robots.txt для Джумлы:

                                                  User-agent: *
                                                  Disallow: /administrator/
                                                  Disallow: /cache/
                                                  Disallow: /components/

                                                  Disallow: /component/*
                                                  Disallow: /component/search/
                                                  Disallow: /component/content/
                                                  Disallow: /includes/
                                                  Disallow: /installation/
                                                  Disallow: /language/
                                                  Disallow: /libraries/
                                                  Disallow: /media/
                                                  Disallow: /modules/
                                                  Disallow: /plugins/
                                                  Disallow: /templates/
                                                  Disallow: /tmp/
                                                  Disallow: /xmlrpc/

 

Одно из главных условий для robots.txt является его обязательное нахождение в корневой папке сервера. Например http://Ваш сайт.ru/robots.txt. При ином расположении файла, поисковые боты его просто не найдут. Пустой файл robots.txt или его отсутствие разрешает проиндексировать весь сайт.

Разберем из чего состоит данный файл:

User-agent: - директива, указывающая имя поискового бота, для которого составлено данное правило индексирования сайта.

Пример названий ботов поисковых систем:

                                                 Google – «googlebot»;
                                                 Яндекс – «Yandex»;
                                                 Рамблер – «StackRambler»;
                                                 Yahoo – «Yahoo! Slurp»;
                                                 MSN – «msnbot».

Disallow: - директива, в которой прописывается путь к папке, файлу или статье на сайте, индексацию которой вы хотите запретить для поисковых систем. Существует правило: один Disallow - один запрет, через запятую папки (файлы) не прописываются.

Разберем несколько вариантов применения рассмотренной директивы.

User-agent: *
Disallow:

- разрешает ботам любой поисковой системы полностью индексировать весь сайт.

User-agent: *
Disallow: /

- запрещает ботам любой поисковой системы полностью индексировать весь сайт.

User-agent: Yandex
Disallow: /administrator/

- боту Яндекса запрещено индексировать папку administrator.

Crawl-delay: – директива, указывающая боту поисковой системы минимальную задержку времени (в секундах) между скачиванием страниц сайта на индексацию. Правда, не все поисковики поддерживают данную директиву, ее стоит указывать для Яндекса. Пример:

User-agent: Yandex
Disallow:
Crawl-delay: 5

- задаем задержку на индексацию в 5 секунд.

Request-rate: - деректива указывающая боту западной поисковой системы сколько можно проиндексировать страниц за определенный промежуток времени. Пример:

User-agent: *
Disallow:
Request-rate: 1/6
       
- за шесть секунд боту разрешено загружать на индексацию не более одной страницы

Visit-time: - деректива для ботов западной поисковой системы, которая определяет время индексирования сайта. Пример:

User-agent: *
Disallow:
Visit-time: 0200-0645

- поисковым системам разрешено индексировать сайт только в интервал времени с 2 ночи до 6:45 утра по Гринвичу.

Так же полезно будет знать, что некоторые поисковые системы используют дополнительные поля, например Яндекс использует поле Host для указания основного зеркала сайта:

User-agent: Yandex
Disallow: /administrator/
Host: www.Ваш сайт.ru

- указываем адрес сайта пишется с www или без

В сваю очередь Гугл в директиве Disallow: поддерживает следующие символы <$> и <*>. Символ <*> означает любую последовательность символов, а <$> - окончание строки ссылки. Пример их использования:

User-agent: Googlebot
Disallow: *.txt$

- запрещаем боту Гугла индексировать файлы формата txt.

Символ <#> - комментарии к дерективам:

Sitemap: http:// www.Ваш сайт.ru /sitemap.xml
#
вот в таком виде нужно прописать компонент “карта сайта” (если у вас на сайте он есть) в файле robots.txt

Немного разобравшись с самой структурой файла robots.txt, ответим на такой наболевший вопрос - зачем запрещать индексацию определенных страниц, папок, файлов?

Запрет на индексацию ненужного “мусора” на сайте, так или иначе, приведет к благосклонному отношению к нам поисковых систем. Вы исключите возможность попадания в интернет закрытой информации, разглашение которой может повредить не только вам, но и вашим пользователям, а если вы используете сайт для бизнеса, то и вашим непосредственным клиентам.
Еще вы увеличите шанс индексации нужных вам статей, а не никому ненужной технической информации.
Правда стоит помнить что правилами, которые прописаны в файле robots.txt, пользуются только так называемые “культурные” боты, а вместе с тем есть еще армия ботов, которые просто игнорируют правила исключения или даже не замечают файла robots.txt на сайте. Так что вам решать использовать его или нет.

В следующей статье я постараюсь подробно рассмотреть написание толкового robots.txt для Joomlа. 

P.S. Яна Джангирова: “Если дверь не заперта, это еще не значит, что она для вас открыта”. 

 

Комментарии 

 
0 # Корякина Анастасия 15.11.2010 14:26
Очень[size=x-small] [/size] (smotridrochi.ru)интересно почитать, жду продолжения, кстати я могу разместить эту статью на своем ресурсе?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Hifdin 17.11.2010 19:20
Если есть желания, размещайте. Я не против.
Ответить | Ответить с цитатой | Цитировать
 

Добавить комментарий


Обновления сайта на E-mail:

лента новостей сайта za-razum.com friendfeed twitter
Дешевый хостинг
Кто онлайн
Сейчас 14 гостей онлайн

PR-CY.ru
Анализ сайта online