Удаление сайта из индекса Google

Удаление сайта из индекса Google. Удаление сайта целиком. Удаление части сайта.
Удаление фрагментов сайта. Удаление кэшированных страниц. Удаление
устаревшей (неработающей) ссылки. Удаление изображения из системы поиска
изображений Google. Система автоматического удаления URL-адресов

Полнота результатов поиска чрезвычайно важна для Google. Наша задача - предоставлять
пользователям результаты тщательного и объективного поиска, поэтому цензура для нас
неприемлема. Мы прекращаем индексировать страницы сайта только по просьбе
ответственного за них веб-мастера, а также если с этого сайта в наш индекс попадает
спам и по требованию закона. Такой политики требуется придерживаться, чтобы исключить
неправомерное удаление страниц из индекса.

Варианты удаления сайта

Выберите один из вариантов, чтобы ознакомиться с соответствующими инструкциями.
Удаление выполняется при очередном сканировании сайта роботом Google.

Удаление сайта целиком

Если хотите удалить из индекса Google сайт целиком, поместите в корневой каталог сервера
файл robots.txt. Это стандартный протокол, который соблюдает большинство сканеров; он
позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt
представлена на странице http://www.robotstxt.org/wc/norobots.html. Обратите внимание:
Google-бот не интерпретирует ответ 401/403 ("Нет прав"/"Доступ запрещен") на обращение к
файлу robots.txt как запрет на сканирование страниц сайта.

Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его
сканировать, разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: *
Disallow: /

Чтобы удалить сайт только из Google и запретить Google-боту в дальнейшем его сканировать,
разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: Googlebot
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если Вы
используете и http, и https, Вам потребуются отдельные файлы robots.txt для каждого из этих
протоколов. Например, чтобы разрешить Google-боту индексировать все страницы http и
запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

Для протокола http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Для протокола https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /

Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала создать файл robots.txt и
разместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, сайт будет временно, на 180 дней удален из
индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса.
После того как Вы это сделаете и воспользуетесь системой автоматического удаления
URL-адресов, каталоги, указанные в файле robots.txt, будут временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки
запроса. (Если оставить файл robots.txt на том же уровне, потребуется удалять URL-адрес с
помощью автоматической системы каждые 180 дней).

Удаление части сайта

Вариант 1: Robots.txt

Чтобы удалить каталоги или отдельные страницы сайта, можно разместить файл robots.txt в
корневом каталоге сервера. О том, как создать файл robots.txt, говорится на странице Стандарт исключений для роботов. При создании файла robots.txt не забывайте: при принятии
решения о том, какие страницы сканировать на том или ином хосте, Google-бот действует в
соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со
слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent
- "*". Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени.

Чтобы удалить все страницы того или иного каталога (например, lemurs), добавьте в файл
robots.txt такую запись:
User-agent: Googlebot
Disallow: /lemurs

Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot
Disallow: /*.gif$

Чтобы удалить динамически генерируемые страницы, добавьте в файл robots.txt такую
запись:
User-agent: Googlebot
Disallow: /*?

Вариант 2: Мета-теги

Другой стандарт, более удобный для работы со страницами, предусматривает использование
на HTML-странице тега <META>, запрещающего роботам индексировать страницу. Этот
стандарт описан на странице http://www.robotstxt.org/wc/exclusion.html#meta.

Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел <HEAD>
этой страницы следующий мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, <br />используйте следующий тег: <br /><META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним <br />ссылкам, используйте следующий тег: <br /><META NAME="ROBOTS" CONTENT="NOFOLLOW"><br /> </span></div> <div><span class="ts4">Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, эти страницы будут временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt или мета-теги после
обработки запроса.

Удаление фрагментов сайта

Фрагмент - это текст, который выводится под названием страницы в списке результатов
поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел <HEAD>
следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> <br /> </span></div> <div><span class="ts4">Примечание. При удалении фрагментов удаляются также и кэшированные страницы.

Удаление кэшированных страниц

Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие
таких кэшированных версий позволяет конечным пользователям находить страницы, даже
если они недоступны (из-за временной неполадки на сервере, где размещена страница).
Пользователи видят кэшированные страницы в том виде, в каком они были в момент
сканирования роботом Google. Вверху страницы выводится сообщение о том, что это
кэшированная версия. Чтобы получить доступ к такой странице, пользователь должен
выбрать ссылку "Из кэша" на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в
раздел <HEAD> следующий тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> <br /> <br />Чтобы запретить выводить ссылку "Из кэша" только системе Google, а остальным разрешить,
используйте следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> </span></div> <div><span class="ts4">
Примечание. Этот тег удаляет только ссылку "Из кэша" на соответствующую страницу.
Google продолжает индексировать страницу и выводить ее фрагмент.

Удаление устаревшей (неработающей) ссылки
Google регулярно автоматически обновляет весь индекс. Сканируя Интернет, мы находим
новые страницы, удаляем неработающие ссылки и автоматически обновляем изменившиеся.
Устаревшие ссылки, скорее всего, будут удалены из индекса при следующем сканировании.

Удаление изображения из системы поиска изображений Google

Чтобы удалить изображение из индекса изображений Google, разместите в корневом каталоге
сервера файл robots.txt. (Если это невозможно, разместите его на уровне каталога).
Пример. Если хотите удалить из индекса Google изображение dogs.jpg, размещенное на
Вашем сайте по адресу www.yoursite.com/images/dogs.jpg, создайте страницу
www.yoursite.com/robots.txt и введите туда следующий текст:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Чтобы удалить из индекса все имеющиеся на сайте изображения, разместите в корневом
каталоге сервера файл robots.txt следующего содержания:
User-agent: Googlebot-Image
Disallow: /

Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить
из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на
странице http://www.robotstxt.org/wc/norobots.html.

Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы
оставить изображения в формате .jpg, а в формате .gif удалить), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot-Image
Disallow: /*.gif$

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, каталоги, указанные в файле robots.txt, будут временно, на 180 дней удалены из индекса Google независимо от того, удалите ли Вы файл
robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне,
потребуется удалять URL-адрес с помощью автоматической системы каждые 180 дней).

Удаление сайта из индекса Google - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.

Удаление сайта из индекса Google

Блог

Календарь приёма объявлений

Дырка в com_content

Лечим вирус на сайте

Troj/JSRedir-MH

Доработка расширения для рассылки Send Email JK

Привет Ie 10 регулярка

Kunena заменяем ссылку на профиль пользователя

Работает на Kunena - зачем на каждой странице?

Kunena избавимся от лишних quote

Kunena решаем проблему с пропажей аватаров

Джомлавикам

Обработка параметров расширений joomla

Кunena крамсаем шаблон

Подключить свои классы и методы в Joomla?

3 новых полезных класса в Joomla 2.5

Репозиторий файлов на Joomla средствами Apache

Генератор расширений Joomla jCreator Программисту SEO Администрирование Вебмастеру J.CMS Расширения Joomla Блог