Правильный Robot.txt для Joomla - профилактика от АГС

Не для кого не секрет что теперь сайты, а собенно сайт занимающиеся копипастом  и работающие на популярных системах попадают под АГС. Одна из причин порой лежит под ногами, это не правилдьно настроенный файл Robot.txt  в  этой статье я хочу вам рассказать, что такое Robot.txt и как его составить для Joomla.

 

Что такое Robot.txt

Файл Robot.txt — это текстовый файл, который должен находиться в корне вашего сайта. В этом файле находятся все инструкции для поисковых роботов. Его суть заключается в том, чтобы не давать поисковикам индексировать определенные страницы: дубликаты, не качественные статьи, копипаст и так далее.

После входа на ваш сайт поисковой робот находит файл Robot.txt (кстати его наличие не обязательно) и начинает индексацию по вашим правилам.

 

Правильное создание Robot.txt для Joomla

 

Правильное создание файла Robot.txt не менее важно, чем правильно составление семантического ядра вашего сайта. Чтобы создать Robot.txt, нужен простой текстовый файл, то есть блокнот (можно использовать Notepad2). Если вы не хотите запрещать какие-либо страницы для индексации, можно залить чистый (пустой) файл с именем robot.txt в корневую директорию вашего сайта.

В рунете самая популярная проблема, касающаяся Robot.txt — это его создание для Яндекса. Так как Яндекс — это самая популярная поисковая система в русскоговорящих странах и вторая в мире. Для этой поисковой системы важно правильное использование директивы «host».

 

Директива host и ее использование

 

Директива «host» существует для избежания возможных проблем с зеркалом сайта. Именно директива «host» указывает, какой сайт из группы, определенных автоматически как зеркала, считать главным. Обратите внимание, что директива «host» сработает только тогда, когда сайты будут идентифицированы как зеркала. И запомните раз и на всегда, что с директивой «Disallow» она никак не связана.

Пример использования директивы «host».

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru (либо site.ru)

HTML-тег <noindex>

Поисковые роботы Яндекса поддерживают html-тег noindex, которые не дает поисковикам индексировать определенные (заключенные в тег noindex) участки текста. Данные тег делится как и большинство других html-тегов на две части: открывающийся тег - <noindex>, и закрывающийся </noindex>. Чаще всего в тег noindex заключат гиперссылки, чтобы не передавать другому сайту свой вес. Но алгоритмы поисковых систем с каждым днем все умнее и умнее. Теперь использование тега noindex может плохо сказаться на ранжировании вашего сайта.

Пример использования html-тега <noindex>:

 

<noindex>текст, который нужно запретить от индексации</noindex>

Директив Disallow и Allow

Для того, чтобы запретить роботу посещать определенные участки вашего сайта, требуется использовать директиву «Disallow».

Пример использования директивы «Disallow»:

User-agent: Yandex
Disallow: / (блокирует доступ ко всему сайту)
Disallow: /administrator (блокирует доступ к страницах, начинающимся с "/administrator")

Вторую строку можно встретить в Robot.txt сайта, построенного на CMS Joomla. Таким образом блокируется доступ робота к админ-панели Joomla. Для WordPress используется следующая строка.

User-agent: Yandex
Disallow: /admin

Для того, чтобы сделать обратное, то есть открыть доступ роботу к определенным участком вашего сайта, требуется использовать директиву «Allow».

Пример использования директивы «Allow»:

User-agent: Yandex
Allow: /video
Disallow: /
#Запрещает доступ ко всему сайту, кроме страниц, начинающихся с "/video".

Виды роботов Яндекса

Я не стану расписывать виды роботов Яндекса, так как их знание никак не скажется на вашем сайте. Если вам все-таки интересно в них разобраться, то вы можете почитать о них в Яндекс.Помощь.

Директива Sitemap

Если вы используете для лучшей индексации вашего сайта «Карту сайта» в формате sitemaps.xml, то укажите путь к ней. Если их две, то укажите обе.

Пример использования директивы «Sitemap»:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/content/my_sitemaps1.xml
Sitemap: http://mysite.ru/content/my_sitemaps2.xml

Теперь вы знаете, как правильно составить Robot.txt для Joomla и WordPress. Если у вас возникнут вопросы, можете задавать их в комментариях. Я буду отвечать на них в течении нескольких часов. Или же вы всегда можете посетить раздел Яндекс.Помощь.



Правильный Robot.txt для Joomla - профилактика от АГС - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.

Блог

Календарь приёма объявлений

Небольшой пример из повседневной практики. Организация меняет реквизиты, и они вступят в силу через  пару недель. На сайте идет приём объявлений и объявления принимаются на несколько месяцев в...

Дырка в com_content

Сегодня у товарища, сайт которого находится на старой  Joomla 1.0.3, была сильная нагрузка на сервере, просматривая логи обнаружил не вежливый запрос такого порядка: http://сайт/index2...

Лечим вирус на сайте

  Первоначальный осмотр сайта обнаружил, что у клиента закрыт доступ по фтп, что сузило круг подозреваемых уязвимостей, стало быть отверстие в какомто скрипте движка joomla. Касперский яро...

Troj/JSRedir-MH

Снова грянул гром зарежения сайтов новым вирусом  Troj/JSRedir-MH.  И так в коротко по вирусу Troj/JSRedir-MH. Вирус или троян куда интереснее чем свои предшествиники, тепер...

Доработка расширения для рассылки Send Email JK

Сегодня поделюсь немного интересной информацией для владельцев сайтов собранных ан joomla.  Рано и поздно возникает задача подписки и рассылки информации с сайта, это может быть разная постановка зада...

Привет Ie 10 регулярка

И вот и мне пришлось столкнулся с проблемами перехода на win 8 в придачу с ie 10, некоторых постоянных пользователей моих сайтов. На многих сайтах  имеющих раздел по приёму объявлений, использ...

Kunena заменяем ссылку на профиль пользователя

Всем привет, снова снова кунена, получил задание на допиливание популярного форума Kunena, сегодня потребовалось поменять ссылку на профиль пользователя. Это связано с тем, что на сайте стоит социа...

Работает на Kunena - зачем на каждой странице?

  Все у кого стоит форум kunena мешает надпись с двумя ссылкам внизу форума "Работает на Kunena". Сея надпись висит на каждой странице форма, а также страница разработчиков содержит множество вн...

Kunena избавимся от лишних quote

Для тех кто действительно делает сайт для людей, моя следующая заметка. Расскажу вам, как избавиться от лишних quote в постах на форуме kunena. У меня несколько тематических сайтов с нормальной посеща...

Kunena решаем проблему с пропажей аватаров

Так и вот мы обновись до последней версии кунены, сразу видно компонент внутри сильно изменился, и вот незадача у некоторых пользователей пропали аватары, физически они есть но неотображаются. ...

Джомлавикам

Обработка параметров расширений joomla

При разработке расширений для CMS Joomla, таких как плагины, модули, компоненты или шаблоны, часто возникает необходимость получить параметры разрабатываемого или любого другого расширения. В этой ...

Кunena крамсаем шаблон

1. В папке \components\com_kunena\template\ваш_шаблон\ находим файл template.xml и вставляем в него такой кусок (чтобы была возможность выбора показывать это поле или нет): <param name="l...

Подключить свои классы и методы в Joomla?

Иногда случается, что набор собственных функций или библиотек нужно подключить в Joomla. Но иногда подключить их нужно так, чтобы они присутсвовали во всей системе, вне зависимо...

3 новых полезных класса в Joomla 2.5

В платформе Joomla 11.3 разработчики добавлил несколько полезных новых классов для разработчиков. Рассмотрю некоторый из них - JGrid (для построения HTML таблиц), JWebClient (для получения информац...

Репозиторий файлов на Joomla средствами Apache

Создадим две вложенные директории /files/files в корне сайта. Если вы пожелаете использовать другие имена директорий, то вам необходимо будет внести соответствующие правки в дальнейшем. ...