Правильный Robot.txt для Joomla - профилактика от АГС
Не для кого не секрет что теперь сайты, а собенно сайт занимающиеся копипастом и работающие на популярных системах попадают под АГС. Одна из причин порой лежит под ногами, это не правилдьно настроенный файл Robot.txt в этой статье я хочу вам рассказать, что такое Robot.txt и как его составить для Joomla.
Что такое Robot.txt
Файл Robot.txt — это текстовый файл, который должен находиться в корне вашего сайта. В этом файле находятся все инструкции для поисковых роботов. Его суть заключается в том, чтобы не давать поисковикам индексировать определенные страницы: дубликаты, не качественные статьи, копипаст и так далее.
После входа на ваш сайт поисковой робот находит файл Robot.txt (кстати его наличие не обязательно) и начинает индексацию по вашим правилам.
Правильное создание Robot.txt для Joomla
Правильное создание файла Robot.txt не менее важно, чем правильно составление семантического ядра вашего сайта. Чтобы создать Robot.txt, нужен простой текстовый файл, то есть блокнот (можно использовать Notepad2). Если вы не хотите запрещать какие-либо страницы для индексации, можно залить чистый (пустой) файл с именем robot.txt в корневую директорию вашего сайта.
В рунете самая популярная проблема, касающаяся Robot.txt — это его создание для Яндекса. Так как Яндекс — это самая популярная поисковая система в русскоговорящих странах и вторая в мире. Для этой поисковой системы важно правильное использование директивы «host».
Директива host и ее использование
Директива «host» существует для избежания возможных проблем с зеркалом сайта. Именно директива «host» указывает, какой сайт из группы, определенных автоматически как зеркала, считать главным. Обратите внимание, что директива «host» сработает только тогда, когда сайты будут идентифицированы как зеркала. И запомните раз и на всегда, что с директивой «Disallow» она никак не связана.
Пример использования директивы «host».
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru (либо site.ru)
HTML-тег <noindex>
Поисковые роботы Яндекса поддерживают html-тег noindex, которые не дает поисковикам индексировать определенные (заключенные в тег noindex) участки текста. Данные тег делится как и большинство других html-тегов на две части: открывающийся тег - <noindex>, и закрывающийся </noindex>. Чаще всего в тег noindex заключат гиперссылки, чтобы не передавать другому сайту свой вес. Но алгоритмы поисковых систем с каждым днем все умнее и умнее. Теперь использование тега noindex может плохо сказаться на ранжировании вашего сайта.
Пример использования html-тега <noindex>:
<noindex>текст, который нужно запретить от индексации</noindex>
Директив Disallow и Allow
Для того, чтобы запретить роботу посещать определенные участки вашего сайта, требуется использовать директиву «Disallow».
Пример использования директивы «Disallow»:
User-agent: Yandex
Disallow: / (блокирует доступ ко всему сайту)
Disallow: /administrator (блокирует доступ к страницах, начинающимся с "/administrator")
Вторую строку можно встретить в Robot.txt сайта, построенного на CMS Joomla. Таким образом блокируется доступ робота к админ-панели Joomla. Для WordPress используется следующая строка.
User-agent: Yandex
Disallow: /admin
Для того, чтобы сделать обратное, то есть открыть доступ роботу к определенным участком вашего сайта, требуется использовать директиву «Allow».
Пример использования директивы «Allow»:
User-agent: Yandex
Allow: /video
Disallow: /
#Запрещает доступ ко всему сайту, кроме страниц, начинающихся с "/video".
Виды роботов Яндекса
Я не стану расписывать виды роботов Яндекса, так как их знание никак не скажется на вашем сайте. Если вам все-таки интересно в них разобраться, то вы можете почитать о них в Яндекс.Помощь.
Директива Sitemap
Если вы используете для лучшей индексации вашего сайта «Карту сайта» в формате sitemaps.xml, то укажите путь к ней. Если их две, то укажите обе.
Пример использования директивы «Sitemap»:
User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/content/my_sitemaps1.xml
Sitemap: http://mysite.ru/content/my_sitemaps2.xml
Теперь вы знаете, как правильно составить Robot.txt для Joomla и WordPress. Если у вас возникнут вопросы, можете задавать их в комментариях. Я буду отвечать на них в течении нескольких часов. Или же вы всегда можете посетить раздел Яндекс.Помощь.
Правильный Robot.txt для Joomla - профилактика от АГС - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.