Удаление сайта из индекса Google
Удаление фрагментов сайта. Удаление кэшированных страниц. Удаление
устаревшей (неработающей) ссылки. Удаление изображения из системы поиска
изображений Google. Система автоматического удаления URL-адресов
пользователям результаты тщательного и объективного поиска, поэтому цензура для нас
неприемлема. Мы прекращаем индексировать страницы сайта только по просьбе
ответственного за них веб-мастера, а также если с этого сайта в наш индекс попадает
спам и по требованию закона. Такой политики требуется придерживаться, чтобы исключить
неправомерное удаление страниц из индекса.
Удаление выполняется при очередном сканировании сайта роботом Google.
файл robots.txt. Это стандартный протокол, который соблюдает большинство сканеров; он
позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt
представлена на странице http://www.robotstxt.org/wc/norobots.html. Обратите внимание:
Google-бот не интерпретирует ответ 401/403 ("Нет прав"/"Доступ запрещен") на обращение к
файлу robots.txt как запрет на сканирование страниц сайта.
Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его
сканировать, разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: *
Disallow: /
Чтобы удалить сайт только из Google и запретить Google-боту в дальнейшем его сканировать,
разместите в корневом каталоге сервера следующий файл robots.txt:
User-agent: Googlebot
Disallow: /
Для каждого порта должен быть создан собственный файл robots.txt. В частности, если Вы
используете и http, и https, Вам потребуются отдельные файлы robots.txt для каждого из этих
протоколов. Например, чтобы разрешить Google-боту индексировать все страницы http и
запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.
Для протокола http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Для протокола https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала создать файл robots.txt и
разместить его на соответствующем сайте.
Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, сайт будет временно, на 180 дней удален из
индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса.
После того как Вы это сделаете и воспользуетесь системой автоматического удаления
URL-адресов, каталоги, указанные в файле robots.txt, будут временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки
запроса. (Если оставить файл robots.txt на том же уровне, потребуется удалять URL-адрес с
помощью автоматической системы каждые 180 дней).
корневом каталоге сервера. О том, как создать файл robots.txt, говорится на странице Стандарт исключений для роботов. При создании файла robots.txt не забывайте: при принятии
решения о том, какие страницы сканировать на том или ином хосте, Google-бот действует в
соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со
слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent
- "*". Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени.
Чтобы удалить все страницы того или иного каталога (например, lemurs), добавьте в файл
robots.txt такую запись:
User-agent: Googlebot
Disallow: /lemurs
Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot
Disallow: /*.gif$
Чтобы удалить динамически генерируемые страницы, добавьте в файл robots.txt такую
запись:
User-agent: Googlebot
Disallow: /*?
на HTML-странице тега <META>, запрещающего роботам индексировать страницу. Этот
стандарт описан на странице http://www.robotstxt.org/wc/exclusion.html#meta.
Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел <HEAD>
этой страницы следующий мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, <br />используйте следующий тег: <br /><META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"><br /> <br />Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним <br />ссылкам, используйте следующий тег: <br /><META NAME="ROBOTS" CONTENT="NOFOLLOW"><br /> </span></div> <div><span class="ts4">Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, эти страницы будут временно, на 180 дней удалены
из индекса Google независимо от того, удалите ли Вы файл robots.txt или мета-теги после
обработки запроса.
поиска и описывает содержание страницы.
Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел <HEAD>
следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> <br /> </span></div> <div><span class="ts4">Примечание. При удалении фрагментов удаляются также и кэшированные страницы.
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы.
таких кэшированных версий позволяет конечным пользователям находить страницы, даже
если они недоступны (из-за временной неполадки на сервере, где размещена страница).
Пользователи видят кэшированные страницы в том виде, в каком они были в момент
сканирования роботом Google. Вверху страницы выводится сообщение о том, что это
кэшированная версия. Чтобы получить доступ к такой странице, пользователь должен
выбрать ссылку "Из кэша" на странице результатов поиска.
Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в
раздел <HEAD> следующий тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> <br /> <br />Чтобы запретить выводить ссылку "Из кэша" только системе Google, а остальным разрешить,
используйте следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> </span></div> <div><span class="ts4">
Примечание. Этот тег удаляет только ссылку "Из кэша" на соответствующую страницу.
Google продолжает индексировать страницу и выводить ее фрагмент.
Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала добавить нужные мета-теги в
HTML-код страницы.
Google регулярно автоматически обновляет весь индекс. Сканируя Интернет, мы находим
новые страницы, удаляем неработающие ссылки и автоматически обновляем изменившиеся.
Устаревшие ссылки, скорее всего, будут удалены из индекса при следующем сканировании.
Примечание. Если Вы считаете, что Ваш запрос срочный и дождаться следующего сеанса
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Запрос об удалении
будет принят только в том случае, если в ответ на запрос к странице мы получим истинную
ошибку 404 через заголовки http. Проследите за тем, чтобы ответом на запрос была
инстинная ошибка 404, даже если на HTML-странице для посетителей выводится
какой-нибудь более понятный текст. Недостаточно просто вернуть страницу с надписью
"Файл не найден", если в заголовках http по-прежнему указан код состояния 200,
соответствующий нормальному состоянию.
сервера файл robots.txt. (Если это невозможно, разместите его на уровне каталога).
Пример. Если хотите удалить из индекса Google изображение dogs.jpg, размещенное на
Вашем сайте по адресу www.yoursite.com/images/dogs.jpg, создайте страницу
www.yoursite.com/robots.txt и введите туда следующий текст:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Чтобы удалить из индекса все имеющиеся на сайте изображения, разместите в корневом
каталоге сервера файл robots.txt следующего содержания:
User-agent: Googlebot-Image
Disallow: /
Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить
из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на
странице http://www.robotstxt.org/wc/norobots.html.
Кроме того, Google позволяет использовать файл robots.txt более гибко за счет
использования звездочек. В шаблонах запрета "*" может означать любую
последовательность символов. Шаблон может оканчиваться символом "$", который
обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы
оставить изображения в формате .jpg, а в формате .gif удалить), добавьте в файл robots.txt
такую запись:
User-agent: Googlebot-Image
Disallow: /*.gif$
сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического
удаления URL-адресов: http://services.google.com/urlconsole/controller. Чтобы запустить этот
автоматический процесс, веб-мастер должен сначала создать файл robots.txt и
разместить его на соответствующем сайте.
Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не
будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу
сервера, можно разместить файл robots.txt на одном уровне с теми файлами, которые
требуется удалить. После того как Вы это сделаете и воспользуетесь системой
автоматического удаления URL-адресов, каталоги, указанные в файле robots.txt, будут временно, на 180 дней удалены из индекса Google независимо от того, удалите ли Вы файл
robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне,
потребуется удалять URL-адрес с помощью автоматической системы каждые 180 дней).
Удаление сайта из индекса Google - Генератор расширений Joomla и многое другое на нашем сайте посвященном работе расширений, компонентов, модулей, плагинов для линейки Joomla. Отправляйте ссылку на страницу своим друзьям и в социальные сети воспользовавшись графическими иконками выше.