Joomla запрет индексирования некоторых страниц (файл robots.txt)

Поисковые системы эвалюционируют, борятся за посетителей, ставят задачу выдавать актуальные сайты в результатах запроса, но помимо наших нужных страниц есть дубляжи или системные страницы которые индексировать не нужно,  такая индексация  считается вредной для сайта.  Для того чтобы поисковая машина не индексировала некоторые страницы сайта, например, совсем не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации просто нет смысла.

 

Почему нужно иногда запрещать индексировать некоторые страницы? Предположим, для удобства пользователей вы создали:

"графическую" и текстовую (облегченную) версии сайта — обе версии находятся на одном сервере, просто в разных каталогах, и содержат одинаковый материал; две версии, написанные в разных кодировках.

joomla_71

Рис. 7.5. Редактирование шаблона сайта

Также нужно запретить индексировать CGI-скрипты, которые робот Яндекса индексирует наравне с другими документами. Следовательно, желательно, чтобы в любом случае в корневом каталоге вашего сайта был файл robots. txt такого содержания:

User-Agent: * Disallow: /cgi-bin/

Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow. Например, следующий файл robots.txt ничего не запрещает:

Disallow: /cgi-bin Disallow: /myforum/ forum/

Нужно переписать его так:

User-Agent: * Disallow: /cgi-bin/ Disallow: /myforum/forum/

Помните, что директиву Disallow можно использовать только с одним операндом, т.е. вы не можете написать Disallow /cgi-bin /myforum/fo-rum/ или Disallow   "/cgi-bin   /myforum/forum/". Для запрета индексирования N объектов нужно написать N директив Disallow — по одной на каждый объект.

В файле robots.txt пустые строки являются значимыми — они используются для разделения правил для разных роботов. Рассмотрим следующий пример.

User-Agent: * Disallow: /cgi-bin/

Disallow: /myforum/forum/

Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Рассмотрим еще один пример.

User-Agent: * Disallow: /cgi-bin/

User-Agent: yandex Disallow: /myforum/forum/

Индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога /myforum/ forum — только для робота yandex.

Чуть не забыл! В директиве Disallow вы можете использовать только относительные пути к объекту, т.е. вы не можете записать http: //server. com/cgi-bin/ или просто server. com/cgi-bin. Если вы установите следующую директиву

Disallow server.com/cgi-/bin/,

то она запретит индексирование каталога www.ваш_сервер.com/server. com/cgi-bin/. Ясно, что такого каталога на сервере у вас нет, следовательно, директива работать не будет.

Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы.

User-Agent: *

Disallow: /

Обратите внимание на то, что вы должны записать именно директиву Disallow: /, а не Disallow *. В последнем случае будет запрещена индексация файлов, имена которых начинаются с символа "*", а таких ведь в природе нет!

Предположим, что вы не можете создать или изменить файл robots. txt (у вас не хватает прав). Тогда контролировать поведение робота можно с помощью следующих МЕТА-тегов:

<META NAME="ROBOTS"    CONTENT=NOINDEX"> — запрет индексирования документа, в заголовке которого (тег HEAD) есть данный МЕТА-тег; <МЕТА   NAME="ROBOTS"    CONTENT="NOFOLLOW"> — если вы хотите запретить индексирование всего сайта, очень полезно вставить этот МЕТА-тег в главную страницу — index.html. Данный тег запрещает роботу следовать ссылкам с данной страницы; <МЕТА CONTENT="NOINDEX,NOFOLLOW"> — комбинированный вариант двух предыдущих тегов.

Да, работа рутинная: если в каталоге, который вы хотите запретить индексировать, скажем, 100 файлов, в каждый из них вам нужно добавить МЕТА-тег ROBOTS=NOINDEX. С помощью директивы Disallow проблему решила бы одна строка...

Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования:

<NOINDEX>

Текст

</NOINDEX>



Joomla запрет индексирования некоторых страниц (файл robots.txt) - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.

Блог

Календарь приёма объявлений

Небольшой пример из повседневной практики. Организация меняет реквизиты, и они вступят в силу через  пару недель. На сайте идет приём объявлений и объявления принимаются на несколько месяцев в...

Дырка в com_content

Сегодня у товарища, сайт которого находится на старой  Joomla 1.0.3, была сильная нагрузка на сервере, просматривая логи обнаружил не вежливый запрос такого порядка: http://сайт/index2...

Лечим вирус на сайте

  Первоначальный осмотр сайта обнаружил, что у клиента закрыт доступ по фтп, что сузило круг подозреваемых уязвимостей, стало быть отверстие в какомто скрипте движка joomla. Касперский яро...

Troj/JSRedir-MH

Снова грянул гром зарежения сайтов новым вирусом  Troj/JSRedir-MH.  И так в коротко по вирусу Troj/JSRedir-MH. Вирус или троян куда интереснее чем свои предшествиники, тепер...

Доработка расширения для рассылки Send Email JK

Сегодня поделюсь немного интересной информацией для владельцев сайтов собранных ан joomla.  Рано и поздно возникает задача подписки и рассылки информации с сайта, это может быть разная постановка зада...

Привет Ie 10 регулярка

И вот и мне пришлось столкнулся с проблемами перехода на win 8 в придачу с ie 10, некоторых постоянных пользователей моих сайтов. На многих сайтах  имеющих раздел по приёму объявлений, использ...

Kunena заменяем ссылку на профиль пользователя

Всем привет, снова снова кунена, получил задание на допиливание популярного форума Kunena, сегодня потребовалось поменять ссылку на профиль пользователя. Это связано с тем, что на сайте стоит социа...

Работает на Kunena - зачем на каждой странице?

  Все у кого стоит форум kunena мешает надпись с двумя ссылкам внизу форума "Работает на Kunena". Сея надпись висит на каждой странице форма, а также страница разработчиков содержит множество вн...

Kunena избавимся от лишних quote

Для тех кто действительно делает сайт для людей, моя следующая заметка. Расскажу вам, как избавиться от лишних quote в постах на форуме kunena. У меня несколько тематических сайтов с нормальной посеща...

Kunena решаем проблему с пропажей аватаров

Так и вот мы обновись до последней версии кунены, сразу видно компонент внутри сильно изменился, и вот незадача у некоторых пользователей пропали аватары, физически они есть но неотображаются. ...

Джомлавикам

Обработка параметров расширений joomla

При разработке расширений для CMS Joomla, таких как плагины, модули, компоненты или шаблоны, часто возникает необходимость получить параметры разрабатываемого или любого другого расширения. В этой ...

Кunena крамсаем шаблон

1. В папке \components\com_kunena\template\ваш_шаблон\ находим файл template.xml и вставляем в него такой кусок (чтобы была возможность выбора показывать это поле или нет): <param name="l...

Подключить свои классы и методы в Joomla?

Иногда случается, что набор собственных функций или библиотек нужно подключить в Joomla. Но иногда подключить их нужно так, чтобы они присутсвовали во всей системе, вне зависимо...

3 новых полезных класса в Joomla 2.5

В платформе Joomla 11.3 разработчики добавлил несколько полезных новых классов для разработчиков. Рассмотрю некоторый из них - JGrid (для построения HTML таблиц), JWebClient (для получения информац...

Репозиторий файлов на Joomla средствами Apache

Создадим две вложенные директории /files/files в корне сайта. Если вы пожелаете использовать другие имена директорий, то вам необходимо будет внести соответствующие правки в дальнейшем. ...