Joomla

Robots.txt для Joomla

Предоставляю на ваше рассмотрение плод моего кропотливого труда над файлом robots.txt для joomla:  

 Robots.txt

                                           User-agent: *
                                           Disallow: /administrator/
                                           Disallow: /cache/
                                           Disallow: /components/
                                           Disallow: /includes/
                                           Disallow: /installation/
                                           Disallow: /language/
                                           Disallow: /libraries/
                                           Disallow: /media/
                                           Disallow: /modules/
                                           Disallow: /plugins/
                                           Disallow: /templates/
                                           Disallow: /tmp/
                                           Disallow: /xmlrpc/

                                           Disallow: /index2.php?option=com_content
                                           Disallow: /index.php?option=com_content

                                           Crawl-delay: 10
                                           Request-rate: 1/10         

                                           Visit-time: 0200-0545 
                                           Host: vashsite.com
                                           Sitemap: http://адрес_сайта/sitemap.xml

Чтоб закрепить знания по файлу robots.txt рассмотрим каждый пункт в отдельности. Все же дерективы файла robots.txt, с примерами, описаны в предыдущей статье - Что такое Robots.txt, рекомендую с нею ознакомиться до прочтения данного материала.

User-agent: *
- правила индексации сайта применяются к любому боту, для которого нет отдельной записи.

Disallow: /administrator/
- запрещаем ботам индексировать содержание папки administrator

Disallow: /cache/
- закрываем от индексации ботами папку, которая отвечает в Джумле за кэш страниц сайта

Disallow: /components/
- бот не может проиндексировать папку с компонентами Джумлы

Disallow: /includes/
- нет смысла индексации папки содержащей служебные РНР файлы

Disallow: /language/
- накладываем запрет на индексацию папки с языковыми файлами

Disallow: /libraries/
- папку с различными библиотеками, которые работают в Joomla также запретим индексировать

Disallow: /media/
- скажем нет индексации папки с мультимедиафайлами (клипы, звуки и т.п.)

Disallow: /modules/
- даем указание ботам не индексировать папку, содержащую модули, применимые для Джумлы

Disallow: /plugins/
- делаем тоже самое, но только уже для плагинов

Disallow: /templates/
- запрет индексации папки с шаблонами сайта

Disallow: /tmp/
- запрещаем индексацию папки для хранения временных файлов

Disallow: /xmlrpc/
- не индексируем папку с файлами которые реализуют доступ к нашему сайту по протоколу XML-RPC

Disallow: /index.php?option=com_content
- при использовании на сайте поддержки SEO, Joomla автоматически создает два вида ссылок на страницы сайта, поэтому запрещаем индексацию ссылок типа index.php?option=com_content&task=view&id=6&Itemid=7

Disallow: /index2.php?option=com_content
- боремся с дубликатами страниц

Crawl-delay: 10
- указываем для бота Яндекса минимальный интервал в секундах (в нашем случае 10 секунд) между запросами на загрузку страниц сайта для индексации (применяется для уменьшения нагрузки на сервер)

Request-rate: 1/10
- для западных ботов разрешена загрузка не более одной страницы для индексации за 10 секунд (уменьшает нагрузку на сервер)
       
Visit-time: 0200-0545 
 - разрешаем ботам западных поисковых систем загружать для индексации страницы вашего сайта с 2 утра до 5:45 по Гринвичу (способствует уменьшению нагрузки на сервер)

Host: vashsite.com
- указываем для Яндекса, что vashsite.com является главным зеркалом сайта.

Sitemap: http://адрес_сайта/sitemap.xml
- указываем боту поисковой системы путь к карте сайта в xml формате

Вот, пожалуй, и все. Не забываем менять vashsite.com на доменное имя вашего сайта. Если что-то пропустил, то совершенствовать и редактировать robots.txt буду постепенно, по мере поступления хороших идей в комментариях.

P.S. Яна Джангирова: “Запретные плоды не обязательно есть целиком – некоторые достаточно надкусить”.

 

 

Комментарии 

 
+3 # ch 05.11.2010 23:13
Просто отлична статья для сеошника. Про Visit-time, Request-rate и Crawl-delay - даже и не знал, возьму на карандаш.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Николай 02.12.2010 23:06
Огромное спасибо, вам за статью искал очень давно как запретить такие страницы index.php?option=com_content&task=view&id=6&Itemid=7
Ответить | Ответить с цитатой | Цитировать
 
 
+3 # Guest 03.12.2010 18:21
Хорошая статья
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Александра 06.12.2010 16:07
Уважаемые авторы, пожалуйста, ответте на вопрос: почему Вы не запретили индексировать содержимое папки images?

Заранее спасибо за ответ
Ответить | Ответить с цитатой | Цитировать
 
 
+1 # Hifdin 09.12.2010 16:45
Александра, это делается для того, чтоб поисковики могли проиндексировать ваши картинки, которые вы используете в своих статьях. В Джумле они хранятся в папке Vashsait\images\stories.
Например на данный момент в Google с нашего блога проиндексировы 22 картинки, что способствует привлечению дополнительных посетителей на блог.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # euGene 06.01.2011 04:23
Спасибо за отличную статью! Просто находка для меня )))
Ответить | Ответить с цитатой | Цитировать
 
 
+7 # GraD 11.01.2011 11:59
сами советуете а у самих robots такой:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://za-razum.com/index.php?option=com_xmap&sitemap=2&view=xml

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: za-razum.com
Sitemap: http://za-razum.com/index.php?option=com_xmap&sitemap=2&view=xml
Ответить | Ответить с цитатой | Цитировать
 
 
+1 # Hifdin 12.01.2011 01:32
Браво!!!!!! Ну хоть один человек нашелся, а не БОТ (не в обиду другим будет сказано). GraD спасибо вам за проделанный труд (это ж надо было еще проверить какой у меня robots), да и за стимул спасибо. Лень это великая сила. Статью написать то написал, а знания так и не задействовал. Буду исправляться!
P.S. А вам GraD как бонус – ссылка в любой статье на ваш блог(если он у вас есть), на сайт (конный завод Восход), на который ведет ваш ник, ставить не буду. И еще раз спасибо!
Ответить | Ответить с цитатой | Цитировать
 
 
+1 # Сергей 01.02.2011 13:15
Огромное спасибо, а то я недавно заметил появление в своем Robots.txt строки:

# Added by add_robots.sh
User-Agent: *
Crawl-Delay: 10
Request-rate: 1/10


После удаления они снова появились! Очень забеспокоился, я вначале подумал что это хакеры какие-то добавляют, может их хостер добавляет...

Благодарю, Вас, оказывается это очень полезные параметры!!!!!!! :-)
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Hifdin 03.02.2011 00:57
Всегда пожалуйста. Скорее всего хостер шалит, он же заинтересован в уменьшении нагрузки на хостинг.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Василий 22.02.2011 00:13
Подскажите, пожалуйста, как запретить индексацию таких страниц как эта - http://www.doza-sexa.ru/slu4ay/879-strast-v-tualete#comment-409
Т.е тех страниц которые заканчиваются на #comment-409
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Dante 22.02.2011 19:54
Лучше заказать у специалистов, которые знают свое дело. т.е. оптимизаторы, они составят уже правильно robots.txt, под Joomla 8)
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Дмитрий 27.02.2011 13:46
Спасибо,надеюсь индексация станет теперь лучше,а строки
# Added by add_robots.sh
User-Agent: *
Crawl-Delay: 10
Request-rate: 1/10

Мне тоже хостер накинул,сейчас нагрузка возросла немного.Зато товарищ Яндекс эту строку не понимает Request-rate: 1/10 написал такое:
Обнаружена неизвестная директива
И вообще на User-Agent: ему не по душе,интересно если удалить,хостер опять закинет?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Сергей 27.02.2011 16:19
После первого же захода Яндекса Хостер закинит, т.к. с Января месяца 2011 Робот Яндекса начал уж очень большую нагрузку на сервер давать...
Я пишу правила отдельно для Яндекс-робота

User-agent: Yandex
------------------
Crawl-Delay: 5
Host: portal.best-active.ru

Sitemap: ____http://portal.best-active.ru/component/option,com_xmap/lang,ru/sitemap,1/view,xml/

В параметре Host: указываем главное зеркало сайта (мойсайт.ru либо www.мойсайт.ru) БЕЗ http://

Длинное подчеркивание в строке Sitemap: НАДО убрать

А параметр Request-rate: 1/10, кстати, даже Робот Гугла не знает...
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Serg 07.03.2011 15:09
Спасибище! :)
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Ivan 18.03.2011 19:28
Статья действительно полезная. Спасибо.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # papa Karlo 23.03.2011 09:14
подскажите как убрать дубли c /index.php

что необходимо прописать ? очень буду признателен за ответ :sad:
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Олег 25.03.2011 19:22
Описание-огонь))
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Denis 27.03.2011 10:31
Я тоже проверил Ваш robots.txt и увидел, что теперь сапожник в сапогах ;-)

Скажите, имеет смысл прописывать отдельно правила для Yandex и Google?
Вот у меня вот так правильно?
Правильную карту сайта я указываю?: Sitemap: http://www.montenegrotoday.ru/karta-sayta-1.html
Благодарю!
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Denis 27.03.2011 11:13
Всё разобрался с картой сайта: http://www.montenegrotoday.ru/sitemap-xml.html?sitemap=1
Ответить | Ответить с цитатой | Цитировать
 
 
0 # newzon.ru 29.03.2011 15:12
а как же запретить ссылки типа:
/component/content/frontpage/frontpage.html?start=78 ?
директивы:
Disallow: /component/content/
Disallow: /frontpage/
Disallow: /content/
не работают
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Compline 26.05.2011 22:30
проверил Ваш роботс! пишите одно а у Вас другое, а где код Visit-time: 0200-0545, Request-rate: 1/10, Crawl-delay: 10 (Вот эти яндекс выдает как не известные директории!)
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Марина 02.06.2011 18:48
В чем может быть проблема, если яндекс вообще не индексирует сайт?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Дмитрий 02.06.2011 19:01
Цитирую Марина:
В чем может быть проблема, если яндекс вообще не индексирует сайт?

Если сайт новый и не с тыреным контентом,то обычно 2-3 дня на это уходит,если списывали у кого то от 2 недель до месяца,сам проверял.Ну если считаете что ваш контент уникальный и сами писали и прошло уже много времени,а страниц нет,то напишите Платону,то есть в сам Яндекс,там что то да ответят.При условии что в robot.txt у Вас не стоит для Яндекса запрет на индексирование,а если всё родное то должно без проблем. ;-)
Ответить | Ответить с цитатой | Цитировать
 
 
+1 # Piraman 03.06.2011 07:54
Я-кс может не видеть сайт вообще :) Пока его не пингануть, или не завести сайт в Я-админе.

Цитирую Марина:
В чем может быть проблема, если яндекс вообще не индексирует сайт?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Escritor 28.08.2011 18:52
Строка Disallow: /components/ привела к тому, что при установленном компоненте K2 страницы, кроме главной Яша не индексирует. Оказалось что в K2 контент храниться в component/k2/item!!!
Ответить | Ответить с цитатой | Цитировать
 
 
+1 # Сергей 04.09.2011 15:19
А папку images полностью стоит открывать? Или мб только конкретную подпапку где находятся добавленные картинки. Те базовые 100 стандартных картинок с жумлы не навредят?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Window 14.09.2011 12:33
а файл роботс можно исправить не захадя на ФТП
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Роман 13.10.2011 09:57
А я бы еще добавил запрет на индексацию ссылок вида site.ru/article.html#comments
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Максим 04.01.2012 08:26
Добрый день! Помогите пожалуйста настроить robots.txt для нашего магазина. Проблема заключается в дублях нам необходимо всех их закрыть. Сайт сначала индексировался в выдаче было около 4000 стр потом упало до 400. Нанимали людей с search и фриланса, но видимо с профессионализмом не угадали их. После их действий в индексе осталось только 40стр. Сам подкорректировал стало 200 с небольшим в yandex. Очень буду вам благодарен если посмотрите наш сайт.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Татьяна 08.01.2012 09:46
спасибо, информация хорошая. Так с картинками я не поняла, открывать или нет?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Новополоцкий 16.01.2012 07:57
Хотите чтобы картинки индексировались - открывайте, а если нет - то не открывайте.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 03.02.2012 22:12
Здравствуйте. Подскажите пожалуйста. Сформировал robots.txt

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.diplom-red.ru
Sitemap: http://www.diplom-red.ru/sitemap.xml

Яндекс не хочет сайт индексировать вообще.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 03.02.2012 22:28
Не SEO ссылки:
1. index.php/2012
-01-06-15-13-00
2. Дубли главной,
3. Потом роботс, закрыть все что видно в я-вебмастер и не ведет на целевые страницы
Кстати, в яндекс веб-мастере что видно, какие страницы в поиске?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 04.02.2012 08:34
Причина Количество
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.

Документ запрещен в файле robots.txt?
1

Ошибка по разделам
Раздел Количество

diplom-red.ru
1

Страницы с ошибкой

Яндекс одну страницу загружает и пишет, что в файле robots.txt запрещена индексация и не индексирует, даже одну страницу. Подскажите, пожалуйста, как грамотно составить файл robots.txt для всех страниц.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 04.02.2012 09:09
Пробуйте добавить директиву:
Allow: /
Потом в веб-мастере можно в настройках индексации проверить, доступны страницы сайта или нет.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 04.02.2012 09:16
Эта директива может открыть индексацию ко всему сайту? Ее надо добавлять в начале или в конце?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 04.02.2012 09:27
Думаю ставить ее можно и в начале, и в конце. Яндекс по моему без Allow: / считает Disallow: / - запрет на все.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 04.02.2012 09:36
User-agent: *
Allow: /
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /
Host: www.diplom-red.ru
Sitemap: http://www.diplom-red.ru/sitemap.xml

Выходит так?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 04.02.2012 09:44
Один раз. В Вашей первой версии директивы не было вообще
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 04.02.2012 10:05
Host: www.diplom-red.ru эта строка дублирует главную страницу, может ее убрать вообще?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 04.02.2012 10:17
Это указание главного домена, с www иле без него.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 04.02.2012 10:22
Большое спасибо за помощь.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # NnpctO 08.02.2012 12:52
А если Яндексом долго индексируются страницы эта команда не повредит "Crawl-delay: 10"??? У меня как раз, так и установлено сейчас.

Сервер быстрый, а робот, судя по всему очень редко заходит мож действительно кикнуть эту команду. Что скажете?

Кстати может из-за этой фишки гугли любят мой сайт? Потому что пишу пост утром, а вечером он уже в индексе.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 08.02.2012 13:15
У меня с яндексом последнюю неделю тоже не лады.
Смотрю сам что делать. Пока мыслей нет.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # NnpctO 08.02.2012 14:22
По сведениям ведущего сео сервиса SY-PR ком, Яндекс запустил новые поправки, которые для копипастеров будут заканчиваться плачевно от снижения рейтингов до вылета из топ или еще хуже БАН.

Но яндекс заявил, что на все про все вебмастерам дано время на исправление своих сайтов с тыренным контентом + - 2 недели, а потом АП и все.

За это мне бояться, конечно, ненужно, но вот может вялое настроение яшки как-то связанно с модернизацией и расчетом позиций вот он и думает кто чем и с какой последовательностью дышит.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 10.02.2012 20:15
Здравствуйте. Подскажите пожалуйста, как узнать дубли своих страниц и контента? Как правильно все это закрыть?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 10.02.2012 20:18
Это слишком глобально :)
На такой вопрос Вам никто не ответит внятно.
Нужна конкретика.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 10.02.2012 20:45
Сайт написал в Joomla, может создаться дублированная страница и попасть ан индексацию?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 10.02.2012 21:11
Джумла 1.5
Вам нужно вклучить СЕО, убрать index.php, прописать алиасы в соответствии с заголовками статей, разделов-категорий.
Нарастить контент, 18 страниц это очень мало, добавьте 0 как минимум=180.
После этого нарастить внешние ссылки.
На сайте всего 18 страниц?
Тогда нет причин для беспокойства. Все в порядке.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 10.02.2012 21:20
Как убрать index.php?
Ответить | Ответить с цитатой | Цитировать
 
 
0 # BlogAdmin 10.02.2012 21:24
Настройки джумла-включить СЕО, Установки
Справа, админчать настройки сайта:
Search Engine Optimization

Включить SEO Нет Да
Использовать mod_rewrite Нет Да
htaccess.txt в корне сайта переименовать = .htaccess =да=-да поставить точку.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Руслан 10.02.2012 21:50
Спасибо за помощь.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Karen 16.02.2012 22:40
А почему сайт http://www.yerkir.ru не индексирует яндекс
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Дмитрий 14.04.2012 13:18
Спасибо за полезную статью
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Бизнес 19.04.2012 00:26
Спасибо за познавательную для начинающих пользователей статью.
Ответить | Ответить с цитатой | Цитировать
 
 
0 # alaev 29.04.2012 15:00
Спасибоза статью, она действительно, полезная
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Евгений 30.04.2012 15:36
Подскажите, поставил компонент k2, импортировал материалы из Joomla стандартного, поставил Xmap, включил плагины в нем для content и к2. Теперь в карте сайта ссылки и те и те. Что отключить лучше, если 99% материала на сайте используется из к2? Или как лучше теперь сделать карту сайта чтоб поисковики читали и позиции не терять? Заранее спасибо за помощь!
Ответить | Ответить с цитатой | Цитировать
 
 
0 # Johnny 15.05.2012 12:06
Приветствую.
Забавный материал - дописал по нему стандартный роботс.ткст - однако сайт находится в индексе больше месяца, а в поисковиках проиндексировалась только главная страница, непонятно.

Так ли важна карта сайт и указание её в роботе ... *.xml , если её не публиковать на сайте - есть ли реальная польза для индексации сайта?
Ответить | Ответить с цитатой | Цитировать
 

Добавить комментарий


Обновления сайта на E-mail:

лента новостей сайта za-razum.com friendfeed twitter
Дешевый хостинг
Кто онлайн
Сейчас 14 гостей онлайн

PR-CY.ru
Анализ сайта online