| Joomla |
Robots.txt для Joomla
Предоставляю на ваше рассмотрение плод моего кропотливого труда над файлом robots.txt для joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content
Disallow: /index.php?option=com_content
Crawl-delay: 10
Request-rate: 1/10
Visit-time: 0200-0545
Host: vashsite.com
Sitemap: http://адрес_сайта/sitemap.xml
Чтоб закрепить знания по файлу robots.txt рассмотрим каждый пункт в отдельности. Все же дерективы файла robots.txt, с примерами, описаны в предыдущей статье - Что такое Robots.txt, рекомендую с нею ознакомиться до прочтения данного материала.
User-agent: *
- правила индексации сайта применяются к любому боту, для которого нет отдельной записи.
Disallow: /administrator/
- запрещаем ботам индексировать содержание папки administrator
Disallow: /cache/
- закрываем от индексации ботами папку, которая отвечает в Джумле за кэш страниц сайта
Disallow: /components/
- бот не может проиндексировать папку с компонентами Джумлы
Disallow: /includes/
- нет смысла индексации папки содержащей служебные РНР файлы
Disallow: /language/
- накладываем запрет на индексацию папки с языковыми файлами
Disallow: /libraries/
- папку с различными библиотеками, которые работают в Joomla также запретим индексировать
Disallow: /media/
- скажем нет индексации папки с мультимедиафайлами (клипы, звуки и т.п.)
Disallow: /modules/
- даем указание ботам не индексировать папку, содержащую модули, применимые для Джумлы
Disallow: /plugins/
- делаем тоже самое, но только уже для плагинов
Disallow: /templates/
- запрет индексации папки с шаблонами сайта
Disallow: /tmp/
- запрещаем индексацию папки для хранения временных файлов
Disallow: /xmlrpc/
- не индексируем папку с файлами которые реализуют доступ к нашему сайту по протоколу XML-RPC
Disallow: /index.php?option=com_content
- при использовании на сайте поддержки SEO, Joomla автоматически создает два вида ссылок на страницы сайта, поэтому запрещаем индексацию ссылок типа index.php?option=com_content&task=view&id=6&Itemid=7
Disallow: /index2.php?option=com_content
- боремся с дубликатами страниц
Crawl-delay: 10
- указываем для бота Яндекса минимальный интервал в секундах (в нашем случае 10 секунд) между запросами на загрузку страниц сайта для индексации (применяется для уменьшения нагрузки на сервер)
Request-rate: 1/10
- для западных ботов разрешена загрузка не более одной страницы для индексации за 10 секунд (уменьшает нагрузку на сервер)
Visit-time: 0200-0545
- разрешаем ботам западных поисковых систем загружать для индексации страницы вашего сайта с 2 утра до 5:45 по Гринвичу (способствует уменьшению нагрузки на сервер)
Host: vashsite.com
- указываем для Яндекса, что vashsite.com является главным зеркалом сайта.
Sitemap: http://адрес_сайта/sitemap.xml
- указываем боту поисковой системы путь к карте сайта в xml формате
Вот, пожалуй, и все. Не забываем менять vashsite.com на доменное имя вашего сайта. Если что-то пропустил, то совершенствовать и редактировать robots.txt буду постепенно, по мере поступления хороших идей в комментариях.
P.S. Яна Джангирова: “Запретные плоды не обязательно есть целиком – некоторые достаточно надкусить”.

Комментарии
Заранее спасибо за ответ
Например на данный момент в Google с нашего блога проиндексировы 22 картинки, что способствует привлечению дополнительных посетителей на блог.
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://za-razum.com/index.php?option=com_xmap&sitemap=2&view=xml
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: za-razum.com
Sitemap: http://za-razum.com/index.php?option=com_xmap&sitemap=2&view=xml
P.S. А вам GraD как бонус – ссылка в любой статье на ваш блог(если он у вас есть), на сайт (конный завод Восход), на который ведет ваш ник, ставить не буду. И еще раз спасибо!
# Added by add_robots.sh
User-Agent: *
Crawl-Delay: 10
Request-rate: 1/10
После удаления они снова появились! Очень забеспокоился, я вначале подумал что это хакеры какие-то добавляют, может их хостер добавляет...
Благодарю, Вас, оказывается это очень полезные параметры!!!!!!!
Т.е тех страниц которые заканчиваются на #comment-409
# Added by add_robots.sh
User-Agent: *
Crawl-Delay: 10
Request-rate: 1/10
Мне тоже хостер накинул,сейчас нагрузка возросла немного.Зато товарищ Яндекс эту строку не понимает Request-rate: 1/10 написал такое:
Обнаружена неизвестная директива
И вообще на User-Agent: ему не по душе,интересно если удалить,хостер опять закинет?
Я пишу правила отдельно для Яндекс-робота
User-agent: Yandex
------------------
Crawl-Delay: 5
Host: portal.best-active.ru
Sitemap: ____http://portal.best-active.ru/component/option,com_xmap/lang,ru/sitemap,1/view,xml/
В параметре Host: указываем главное зеркало сайта (мойсайт.ru либо www.мойсайт.ru) БЕЗ http://
Длинное подчеркивание в строке Sitemap: НАДО убрать
А параметр Request-rate: 1/10, кстати, даже Робот Гугла не знает...
что необходимо прописать ? очень буду признателен за ответ
Скажите, имеет смысл прописывать отдельно правила для Yandex и Google?
Вот у меня вот так правильно?
Правильную карту сайта я указываю?: Sitemap: http://www.montenegrotoday.ru/karta-sayta-1.html
Благодарю!
/component/content/frontpage/frontpage.html?start=78 ?
директивы:
Disallow: /component/content/
Disallow: /frontpage/
Disallow: /content/
не работают
Если сайт новый и не с тыреным контентом,то обычно 2-3 дня на это уходит,если списывали у кого то от 2 недель до месяца,сам проверял.Ну если считаете что ваш контент уникальный и сами писали и прошло уже много времени,а страниц нет,то напишите Платону,то есть в сам Яндекс,там что то да ответят.При условии что в robot.txt у Вас не стоит для Яндекса запрет на индексирование,а если всё родное то должно без проблем.
Цитирую Марина:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.diplom-red.ru
Sitemap: http://www.diplom-red.ru/sitemap.xml
Яндекс не хочет сайт индексировать вообще.
1. index.php/2012
-01-06-15-13-00
2. Дубли главной,
3. Потом роботс, закрыть все что видно в я-вебмастер и не ведет на целевые страницы
Кстати, в яндекс веб-мастере что видно, какие страницы в поиске?
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Документ запрещен в файле robots.txt?
1
Ошибка по разделам
Раздел Количество
diplom-red.ru
1
Страницы с ошибкой
Яндекс одну страницу загружает и пишет, что в файле robots.txt запрещена индексация и не индексирует, даже одну страницу. Подскажите, пожалуйста, как грамотно составить файл robots.txt для всех страниц.
Allow: /
Потом в веб-мастере можно в настройках индексации проверить, доступны страницы сайта или нет.
Allow: /
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /
Host: www.diplom-red.ru
Sitemap: http://www.diplom-red.ru/sitemap.xml
Выходит так?
Сервер быстрый, а робот, судя по всему очень редко заходит мож действительно кикнуть эту команду. Что скажете?
Кстати может из-за этой фишки гугли любят мой сайт? Потому что пишу пост утром, а вечером он уже в индексе.
Смотрю сам что делать. Пока мыслей нет.
Но яндекс заявил, что на все про все вебмастерам дано время на исправление своих сайтов с тыренным контентом + - 2 недели, а потом АП и все.
За это мне бояться, конечно, ненужно, но вот может вялое настроение яшки как-то связанно с модернизацией и расчетом позиций вот он и думает кто чем и с какой последовательностью дышит.
На такой вопрос Вам никто не ответит внятно.
Нужна конкретика.
Вам нужно вклучить СЕО, убрать index.php, прописать алиасы в соответствии с заголовками статей, разделов-категорий.
Нарастить контент, 18 страниц это очень мало, добавьте 0 как минимум=180.
После этого нарастить внешние ссылки.
На сайте всего 18 страниц?
Тогда нет причин для беспокойства. Все в порядке.
Справа, админчать настройки сайта:
Search Engine Optimization
Включить SEO Нет Да
Использовать mod_rewrite Нет Да
htaccess.txt в корне сайта переименовать = .htaccess =да=-да поставить точку.
Забавный материал - дописал по нему стандартный роботс.ткст - однако сайт находится в индексе больше месяца, а в поисковиках проиндексировалась только главная страница, непонятно.
Так ли важна карта сайт и указание её в роботе ... *.xml , если её не публиковать на сайте - есть ли реальная польза для индексации сайта?