Удаление сайта из индекса Google

Удаление сайта из индекса Google. Удаление сайта целиком. Удаление части сайта.
Удаление фрагментов сайта. Удаление кэшированных страниц. Удаление
устаревшей (неработающей) ссылки. Удаление изображения из системы поиска
изображений Google. Система автоматического удаления URL-адресов
Полнота результатов поиска чрезвычайно важна для Google. Наша задача - предоставлять
пользователям результаты тщательного и объективного поиска, поэтому цензура для нас
неприемлема. Мы прекращаем индексировать страницы сайта
только по просьбе
ответственного за них веб-мастера
, а также если с этого сайта в наш индекс попадает
спам и по требованию закона. Такой политики требуется придерживаться, чтобы исключить
неправомерное удаление страниц из индекса.
Варианты удаления сайта
Выберите один из вариантов, чтобы ознакомиться с соответствующими инструкциями.
Удаление выполняется при очередном сканировании сайта роботом Google.
Удаление сайта целиком
Если хотите удалить из индекса Google сайт целиком, поместите в корневой каталог сервера
файл robots.txt. Это стандартный протокол, который соблюдает большинство сканеров; он
позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt
представлена на странице http://www.robotstxt.org/wc/norobots.html. Обратите внимание:
Google-бот не интерпретирует ответ 401/403 ("Нет прав"/"Доступ запрещен") на обращение к
файлу robots.txt как запрет на сканирование страниц сайта.

Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его
сканировать, разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: *
Disallow: /

Чтобы удалить сайт только из Google и запретить Google-боту в дальнейшем его сканировать,
разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: Googlebot
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если Вы
используете и http, и https, Вам потребуются отдельные файлы robots.txt для каждого из этих
протоколов. Например, чтобы разрешить Google-боту индексировать все страницы http и
запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

Для протокола http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Для протокола https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller.
Чтобы запустить этот
автоматический процесс,
веб-мастер должен сначала создать файл robots.txt и
разместить его на соответствующем сайте.


Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, сайт будет
временно, на 180 дней удален из
индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса.
После того как Вы это сделаете и воспользуетесь системой автоматического удаления
URL-адресов, каталоги, указанные в файле robots.txt, будут
временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки
запроса. (Если оставить файл robots.txt на том же уровне, потребуется удалять URL-адрес с
помощью автоматической системы каждые 180 дней).
Удаление части сайта
Вариант 1: Robots.txt
Чтобы удалить каталоги или отдельные страницы сайта, можно разместить файл robots.txt в
корневом каталоге сервера. О том, как создать файл robots.txt, говорится на странице
Стандарт исключений для роботов. При создании файла robots.txt не забывайте: при принятии
решения о том, какие страницы сканировать на том или ином хосте, Google-бот действует в
соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со
слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent
- "*". Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени.

Чтобы удалить все страницы того или иного каталога (например, lemurs), добавьте в файл
robots.txt такую запись:
User-agent: Googlebot
Disallow: /lemurs

Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot
Disallow: /*.gif$

Чтобы удалить динамически генерируемые страницы, добавьте в файл robots.txt такую
запись:
User-agent: Googlebot
Disallow: /*?
Вариант 2: Мета-теги
Другой стандарт, более удобный для работы со страницами, предусматривает использование
на HTML-странице тега <META>, запрещающего роботам индексировать страницу. Этот
стандарт описан на странице http://www.robotstxt.org/wc/exclusion.html#meta.

Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел <HEAD>
этой страницы следующий мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, <br />используйте следующий тег: <br /><META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним <br />ссылкам, используйте следующий тег: <br /><META NAME="ROBOTS" CONTENT="NOFOLLOW"><br /> </span></div> <div><span class="ts4">Примечание.
Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller.
Чтобы запустить этот
автоматический процесс,
веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы.
После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, эти страницы будут временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt или мета-теги после
обработки запроса.
Удаление фрагментов сайта
Фрагмент - это текст, который выводится под названием страницы в списке результатов
поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел <HEAD>
следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> <br /> </span></div> <div><span class="ts4">Примечание.
При удалении фрагментов удаляются также и кэшированные страницы.
Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller.
Чтобы запустить этот
автоматический процесс,
веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы.

Удаление кэшированных страниц
Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие
таких кэшированных версий позволяет конечным пользователям находить страницы, даже
если они недоступны (из-за временной неполадки на сервере, где размещена страница).
Пользователи видят кэшированные страницы в том виде, в каком они были в момент
сканирования роботом Google. Вверху страницы выводится сообщение о том, что это
кэшированная версия. Чтобы получить доступ к такой странице, пользователь должен
выбрать ссылку "Из кэша" на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в
раздел <HEAD> следующий тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> <br /> <br />Чтобы запретить выводить ссылку "Из кэша" только системе Google, а остальным разрешить,
используйте следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> </span></div> <div><span class="ts4">
Примечание.
Этот тег удаляет только ссылку "Из кэша" на соответствующую страницу.
Google продолжает индексировать страницу и выводить ее фрагмент.

Примечание.
Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller.
Чтобы запустить этот
автоматический процесс,
веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы.

Удаление устаревшей (неработающей) ссылки
Google регулярно автоматически обновляет весь индекс. Сканируя Интернет, мы находим
новые страницы, удаляем неработающие ссылки и автоматически обновляем изменившиеся.
Устаревшие ссылки, скорее всего, будут удалены из индекса при следующем сканировании.

Примечание.
Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Запрос об удалении
будет принят только в том случае, если в ответ на запрос к странице мы получим истинную
ошибку 404 через заголовки http. Проследите за тем, чтобы ответом на запрос была
инстинная ошибка 404, даже если на HTML-странице для посетителей выводится
какой-нибудь более понятный текст. Недостаточно просто вернуть страницу с надписью
"Файл не найден", если в заголовках http по-прежнему указан код состояния 200,
соответствующий нормальному состоянию.
Удаление изображения из системы поиска изображений Google
Чтобы удалить изображение из индекса изображений Google, разместите в корневом каталоге
сервера файл robots.txt. (Если это невозможно, разместите его на уровне каталога).
Пример. Если хотите удалить из индекса Google изображение dogs.jpg, размещенное на
Вашем сайте по адресу www.yoursite.com/images/dogs.jpg, создайте страницу
www.yoursite.com/robots.txt и введите туда следующий текст:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Чтобы удалить из индекса все имеющиеся на сайте изображения, разместите в корневом
каталоге сервера файл robots.txt следующего содержания:
User-agent: Googlebot-Image
Disallow: /

Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить
из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на
странице http://www.robotstxt.org/wc/norobots.html.

Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы
оставить изображения в формате .jpg, а в формате .gif удалить), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot-Image
Disallow: /*.gif$
Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller.
Чтобы запустить этот
автоматический процесс,
веб-мастер должен сначала создать файл robots.txt и
разместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, каталоги, указанные в файле robots.txt, будут
временно, на 180 дней удалены из индекса Google независимо от того, удалите ли Вы файл
robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне,
потребуется удалять URL-адрес с помощью автоматической системы каждые 180 дней).


Удаление сайта из индекса Google - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.

Блог

Календарь приёма объявлений

Небольшой пример из повседневной практики. Организация меняет реквизиты, и они вступят в силу через  пару недель. На сайте идет приём объявлений и объявления принимаются на несколько месяцев в...

Дырка в com_content

Сегодня у товарища, сайт которого находится на старой  Joomla 1.0.3, была сильная нагрузка на сервере, просматривая логи обнаружил не вежливый запрос такого порядка: http://сайт/index2...

Лечим вирус на сайте

  Первоначальный осмотр сайта обнаружил, что у клиента закрыт доступ по фтп, что сузило круг подозреваемых уязвимостей, стало быть отверстие в какомто скрипте движка joomla. Касперский яро...

Troj/JSRedir-MH

Снова грянул гром зарежения сайтов новым вирусом  Troj/JSRedir-MH.  И так в коротко по вирусу Troj/JSRedir-MH. Вирус или троян куда интереснее чем свои предшествиники, тепер...

Доработка расширения для рассылки Send Email JK

Сегодня поделюсь немного интересной информацией для владельцев сайтов собранных ан joomla.  Рано и поздно возникает задача подписки и рассылки информации с сайта, это может быть разная постановка зада...

Привет Ie 10 регулярка

И вот и мне пришлось столкнулся с проблемами перехода на win 8 в придачу с ie 10, некоторых постоянных пользователей моих сайтов. На многих сайтах  имеющих раздел по приёму объявлений, использ...

Kunena заменяем ссылку на профиль пользователя

Всем привет, снова снова кунена, получил задание на допиливание популярного форума Kunena, сегодня потребовалось поменять ссылку на профиль пользователя. Это связано с тем, что на сайте стоит социа...

Работает на Kunena - зачем на каждой странице?

  Все у кого стоит форум kunena мешает надпись с двумя ссылкам внизу форума "Работает на Kunena". Сея надпись висит на каждой странице форма, а также страница разработчиков содержит множество вн...

Kunena избавимся от лишних quote

Для тех кто действительно делает сайт для людей, моя следующая заметка. Расскажу вам, как избавиться от лишних quote в постах на форуме kunena. У меня несколько тематических сайтов с нормальной посеща...

Kunena решаем проблему с пропажей аватаров

Так и вот мы обновись до последней версии кунены, сразу видно компонент внутри сильно изменился, и вот незадача у некоторых пользователей пропали аватары, физически они есть но неотображаются. ...

Джомлавикам

Обработка параметров расширений joomla

При разработке расширений для CMS Joomla, таких как плагины, модули, компоненты или шаблоны, часто возникает необходимость получить параметры разрабатываемого или любого другого расширения. В этой ...

Кunena крамсаем шаблон

1. В папке \components\com_kunena\template\ваш_шаблон\ находим файл template.xml и вставляем в него такой кусок (чтобы была возможность выбора показывать это поле или нет): <param name="l...

Подключить свои классы и методы в Joomla?

Иногда случается, что набор собственных функций или библиотек нужно подключить в Joomla. Но иногда подключить их нужно так, чтобы они присутсвовали во всей системе, вне зависимо...

3 новых полезных класса в Joomla 2.5

В платформе Joomla 11.3 разработчики добавлил несколько полезных новых классов для разработчиков. Рассмотрю некоторый из них - JGrid (для построения HTML таблиц), JWebClient (для получения информац...

Репозиторий файлов на Joomla средствами Apache

Создадим две вложенные директории /files/files в корне сайта. Если вы пожелаете использовать другие имена директорий, то вам необходимо будет внести соответствующие правки в дальнейшем. ...