Файл robots.txt
Содержание:
- Как закрыть страницу от индексации?
- Когда следует использовать режим обслуживания WordPress
- Ошибки, связанные с файлом robots.txt
- Что такое индексация сайта
- Robots.txt в Яндекс и Google
- Что такое индексация
- Как скрыть контент с помощью Ajax
- Как включить и отключить режим обслуживания в WordPress
- Способ 3: Кэш поисковых систем
- Установка плагина WP Maintenance Mode
- Вывод
Как закрыть страницу от индексации?
Если нужно скрыть только одну страницу, то в файле robots нужно будет прописать другой код:
User-agent: *
Disallow: /category/kak-nachat-zarabatyvat
Во второй строчке вам нужно указать адрес страницы, но без названия домена. Как вариант, вы можете закрыть страницу от индексации, если пропишите в её коде:
<META NAME=»ROBOTS» CONTENT=»NOINDEX»>
Это более сложный вариант, но если нет желания добавлять строчки в robots.txt, то это отличный выход. Если вы попали на эту страницу в поисках способа закрытия от индексации дублей, то проще всего добавить все ссылки в robots.
Как закрыть от индексации ссылку или текст?
Здесь тоже нет ничего сложного, нужно лишь добавить специальные теги в код ссылки или окружить её ими:
<noindex>
<a rel=»nofollow» href=»http://Workion.ru/»>Анкор</a>
</noindex>
Используя эти же теги noindex, вы можете скрывать от поисковых систем разный текст. Для этого нужно в редакторе статьи прописать этот тег.
К сожалению, у Google такого тега нет, поэтому скрыть от него часть текста не получится. Самый простой вариант сделать это – добавить изображение с текстом.
Скрывайте от поисковых роботов всё, что не уникально или каким-то образом может нарушать их правила. А если вы решили полностью переделать сайт, то обязательно закрывайте его от индексации, чтобы боты не индексировали внесенные изменения до того, как вы над ними поработаете и всё протестируете.
Вам также будет интересно: — Скорость сайта – важный фактор — Почему Яндекс не индексирует сайт? — Оригинальные тексты для защиты от Yandex
Когда следует использовать режим обслуживания WordPress
Каждый разработчик сам решает, в какие моменты лучше закрыть сайт на обслуживание. Несмотря на это, рекомендую все же ознакомиться с возможными причинами, из-за которых стоит переводить сайт в этот режим:
- Ребрендинг. В таких случаях попросту невозможно оставить сайт без профилактического режима.
- Внесение корректировок на популярных страницах. Когда проводятся изменения малопосещаемых страниц, то можно обойтись без их отключения, но когда это касается веб-страниц с большим трафиком, то лучше их обезопасить и отключить на время работы.
- Установка нового плагина. Если это расширение влияет на работу всего сайта, обязательно позаботьтесь о режиме обслуживания.
- Восстановление сайта после DDoS-атаки – вопросов возникнуть не должно.
«Скоро появится» – такую надпись часто можно встретить на тех страницах, которые находятся в стадии разработки. Если вы не планируете размещать новую страницу до ее появления, то уведомлять о профилактических работах не потребуется.
Все вышесказанное можно объединить в один тезис – капитальный ремонт. Проще говоря, если проводятся крупные работы над страницей, первым делом позаботьтесь о ее деактивации.
Ошибки, связанные с файлом robots.txt
Одна из самых распространенных ошибок – перевернутый синтаксис.
Неправильно:
User-agent: /
Disallow: Yandex
Правильно:
User-agent: Yandex
Disallow: /
Неправильно:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/
Правильно:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/
Если при обработке ошибки 404 (документ не найден), веб-сервер выдает специальную страницу, и при этом файл robots.txt отсутствует, то возможна ситуация, когда поисковому роботу при запросе файла robots.txt выдается та самая специальная страница, никак не являющаяся файлом управления индексирования.
Ошибка, связанная с неправильным использованием регистра в файле robots.txt. Например, если необходимо закрыть директорию «cgi-bin», то в записе «Disallow» нельзя писать название директории в верхнем регистре «cgi-bin».
Неправильно:
User-agent: *
Disallow: /CGI-BIN/
Правильно:
User-agent: *
Disallow: /cgi-bin/
Ошибка, связанная с отсутствием открывающей наклонной черты при закрытии директории от индексирования.
Неправильно:
User-agent: *
Disallow: dir
User-agent: *
Disallow: page.HTML
Правильно:
User-agent: *
Disallow: /dir
User-agent: *
Disallow: /page.HTML
Чтобы избежать наиболее распространенных ошибок, файл robots.txt можно проверить средствами Яндекс.Вебмастера или Инструментами для вебмастеров Google. Проверка осуществляется после загрузки файла.
Что такое индексация сайта
Опубликованный на страницах сайтов контент собирается заранее и хранится в базе данных поисковой системы.
Называется эта база данных Индексом (Index), а собственно процесс сбора информации в сети с занесением в базу ПС называется «индексацией».
Продвинутые пользователи мгновенно сообразят, получается, что если текст на странице сайта не занесен в Индекс поисковика, так эта информация не может быть найдена и контент не станет доступен людям?
Так оно и есть. Каждый день тысячи веб-мастеров публикуют на своих площадках новые статьи. Однако доступными для поиска эти новые публикации становятся далеко не сразу.
В плане индексации Google работает несколько быстрее нашего Яндекса.
- Публикация на сайте станет доступна в поиске Гугл через несколько часов. Иногда индексация происходит буквально в считанные минуты.
- В Яндексе процесс сбора информации относительно нового контента в интернете происходит значительно медленнее. Иногда новая публикация на сайте или блоге появляется в Яндексе через две недели.
Чтобы ускорить появление вновь опубликованного контента, администраторы сайтов могут вручную добавить URL новых страниц в инструментах Яндекса для веб-мастеров. Однако и это не гарантирует, что новая статья немедленно появится в интернете.
С другой стороны, бывают ситуации, когда веб-страница или отдельная часть контента уже опубликованы на сайте, но вот показывать этот контент пользователям нежелательно по каким-либо причинам.
- Страница еще не полностью доработана, и владелец сайта не хочет показывать людям недоделанный продукт, поскольку это производит негативное впечатление на потенциальных клиентов.
- Существует разновидностей технического контента, который не предназначен для широкой публики. Определенная информация обязательно должна быть на сайте, но вот видеть ее обычным людям пользователям не нужно.
- В статьях размещаются ссылки и цитаты, которые необходимы с информационной точки зрения, но вот находиться в базе данных поисковой системы они не должны. Например, эти ссылки выглядят как неестественные и за их публикацию в проект может быть подвергнут штрафным санкциям.
В общем, причин, почему веб-мастеру не хотелось бы, чтобы целые веб-страницы или отдельные блоки контента, ссылки не были занесены в базы поисковиков, может существовать много.
Давайте разберемся, как задачу управления индексацией решить практически.
Robots.txt в Яндекс и Google
У большинства оптимизаторов, которые первый раз сталкиваются с файлом robots.txt возникает вполне закономерный вопрос: «Почему нельзя указать User-agent: * и не прописывать для каждого робота одинаковые правила?». Конечно, так сделать можно, но возникает неопределенность. Во-первых, только Яндекс поддерживает директиву Host, которая указывает на главное зеркало сайта. Использование данной директивы для всех роботов бессмысленно (УСТАРЕЛО — https://yandex.ru/blog/platon/pereezd-sayta-posle-otkaza-ot-direktivy-host). Во-вторых, существует субъективное мнение, что поисковые системы Яндекс и Google приветствуют указание именно их робота в User-agent, а не использование директивы общего плана.
Кроме того, допустимый размер файла в 32 кб позволяет практически каждому сайту уместить необходимые для индексирования директивы в отдельных User-agent для разных поисковых систем. Нет смысла экспериментировать со своим сайтом, если можно прописать для каждого поискового робота персональные директивы, уложившись в ограниченный лимит. К слову, редко, но все же случаются такие ситуации, когда оптимизаторы хотят закрыть определенные страницы для одной поисковой системы, при этом оставить их доступными для другой. В этом случае без директивы User-agent просто не обойтись.
Что такое индексация
Индексация – это процесс, который подразумевает считывание всей информации вашего ресурса для дальнейшего занесения ее в базы ПС. Иными словами, это когда поисковики анализируют ваш сайт, чтобы потом выдавать его пользователям в поисковой выдаче. В процессе индексации учитывается абсолютно все: начиная от дизайна и заканчивая количеством текста в статьях.
В процессе индексации сайта ПС могут делать для себя определенные пометки. Например, если вы начнете размещать на своем веб-ресурсе копипаст, то ваш сайт может попасть под фильтр. В таком случае он больше не будет участвовать в поисковом ранжировании на равных условиях с другими проектами. Поисковик будет просто занижать ресурс в позициях либо вовсе уберет его из результатов.
То же касается и каких-то других аспектов SEO-продвижения. Во время индексации поисковые роботы анализируют все показатели, чтобы определить качество сайта и возможность размещения страниц по каким-то определенным запросам. Если на проекте отсутствует информация (статьи и страницы), то разместить его где-то либо не представляется возможным.
Такой веб-ресурс будет доступен только по прямому обращению с использованием специальных регулярных выражений. В общих результатах его не встретить.
Роботы ПС начинают индексацию всех открытых сайтов сразу же после их создания. Вы даже можете не добавлять свой проект в Яндекс.Вебмастер и Google Search Console, но роботы все равно придут на ваш ресурс и начнут аудит всей доступной информации. Если вы только что создали свой проект, естественно, вам подобная индексация не нужна. Например, очень часто при создании проектов люди пользуются шаблонами.
Чтобы лучше настроить внешний вид ресурса, они загружают специальные демо-конфигурации, которые в автоматическом режиме создают тестовые варианты статей. Это, как правило, копипастные материалы, которые нужны только для того, чтобы тема оформления выглядела должным образом. Согласитесь, настраивать шаблон намного проще, если ты сразу видишь, как это все будет выглядеть в конечном итоге. Когда ресурс пустой, настроить шаблон должным образом бывает очень сложно.
Это особенно актуально для проектов на WordPress, потому как тема на заполненном проекте и тема на пустом выглядят совершенно по-разному. Пользователи выгружают демо-контент, чтобы настроить внешний вид, и в случае, если проект не был закрыт от ПС, эти самые страницы с демо-контентом могут попасть в поисковую выдачу.
Естественно, они будут на самых последних страницах, но тем не менее это будет создавать негативный эффект для SEO-продвижения. По сути, это можно рассматривать как попадание мусорных страниц и документов в ПС. Потом вам придется удалять их все, на что может потребоваться определенное время.
Видимого негативного эффекта от этого, конечно, быть не должно. Однако некоторые трудности возникнут. Ваш веб-ресурс не будет классифицироваться как полностью уникальный, и в некоторых случаях поисковые роботы будут занижать позиции уже настоящих статей в выдаче. Даже после удаления всех этих демо-материалов эффект может держаться еще какое-то время.
Именно поэтому при начальной разработке проекта лучше закрыть его от индексации и открывать уже только после того, как он будет полностью готов. Причем это касается не только демо-контента, но и, вообще, любой разработки – дизайна, скорости загрузки и т. д. Если что-то на ресурсе не работает должным образом, лучше это на время скрыть от глаз пользователей и ПС.
Помимо закрытия на этапе разработки, есть и другие причины для того, чтобы исключить свой проект из поисковой выдачи. К примеру, это может понадобиться специализированным ресурсам, материалы которых не должны быть в общем доступе. Обычно это какие-то специальные закрытые проекты, информация на которых предназначена для ограниченного количества людей.
Естественно, если поисковые системы начнут считывать информацию с таких проектов, то ни о какой приватности речь идти не будет. Все данные будут доступны для изучения с помощью различных сервисов. Сами ПС сохраняют слепки сайтов, поэтому, даже если владельцы проекта решат удалить информацию, которая по ошибке попала в поисковик, где-то может остаться сохраненная копия.
Также закрытие проекта от индексации актуально для внутренних ресурсов различных компаний, которые создают такие сайты для своих сотрудников. Это могут быть специальные панели управления, страницы с расписанием и т. д.
В общем, причин для закрытия проекта от поисковых систем очень много. Да и способов реализации этого тоже.
Как скрыть контент с помощью Ajax
Иногда приходится скрывать от поисковых ботов
не только внешние ссылки, но и некоторую информацию на странице. Рассмотрим,
какие виды контента можно скрыть от поисковых ботов:
- ссылки на сайты партнеров;
- рекламный контент;
- часто повторяющийся текст.
Данная информация может послужить причиной
временной блокировки сайта пользователя.
В чем заключается сущность работы сервиса Ajax? Главная особенность заключается в том, что контент не просто скрывается от ботов, но переводится на ресурс AJAX в виде внешнего файла, а в нужный момент подключается к сайту по запросу пользователя. Кроме того, помните, что не следует обрабатывать при помощи Ajax:
- скрипты с внешних ресурсов;
- приложения счетчики.
Опасность заключается в том, что эти
программы могут перестать работать.
Как включить и отключить режим обслуживания в WordPress
Существует несколько способов активации режима обслуживания: с помощью кода, плагина либо через файл .htaccess. В данном разделе мы рассмотрим каждый из них, а в конце каждого метода разберем, как правильно деактивировать профилактический режим в зависимости от способа его подключения.
Способ 1: Через код
В данном случае нам потребуется открыть редактирование темы и внести в нее некоторые изменения. Для этого выполним следующее:
- Открываем административную панель WordPress и в левом меню выбираем «Внешний вид», затем переходим в раздел «Редактор тем».
- Следующим шагом в правой части отобразившегося окна нажимаем на «Функции темы».
Итак, мы попали в нужное нам окно – сюда и будем добавлять код. Выглядит он так:
// Activate WordPress Maintenance Mode function wp_maintenance_mode(){ if(!current_user_can('edit_themes') || !is_user_logged_in()){ wp_die('<h1 style="color:red">Website under Maintenance</h1><br />We are performing scheduled maintenance. We will be back on-line shortly!'); } } add_action('get_header', 'wp_maintenance_mode');
Прописываем блок кода в конце файла и не забываем сохраниться кнопкой «Обновить файл».
Теперь пользователи будут уведомлены, что на сайт находится на техобслуживании. Вы не сможете увидеть объявление, так как зарегистрированы на сайте. Чтобы увидеть его, откройте сайт в другом браузере или выйдете из учетной записи WordPress.
Чтобы закрыть техобслуживание, просто удалите код, вставленный ранее – главное, не очистить ничего лишнего. После этого откройте сайт так, как его видит обычный пользователь, и убедитесь, что техническая информация была удалена.
Способ 2: Плагин WP Maintenance Mode
В ходе статьи мы рассмотрим еще много различных плагинов, но детально разберем лишь один – WP Maintenance Mode. Это одно из самых популярных расширений, используемое многими разработчиками для активации режима техобслуживания. Он поставляется с готовыми темами, которые можно легко персонализировать – то есть вы устанавливаете плагин, выбираете необходимый внешний вид технической страницы, подключаете ее и готово. Давайте рассмотрим, как все это сделать.
Открываем в админке WordPress раздел «Плагины» и выбираем «Добавить новый».
Вводим запрос WP Maintenance Mode и устанавливаем необходимый нам плагин.
После успешной установки активируем расширение.
Теперь нам нужно его немного подредактировать – для этого на отобразившейся странице выбираем «Настройки».
Первым делом активируем работу расширения, а также отключаем индексацию поисковыми роботами
Здесь же обратите внимание на блоки «Доступ к панели управления» и «Доступ к сайту» – в них вы можете настроить доступность сайта во время технического обслуживания.
Следующая вкладка «Дизайн» – здесь мы можем полностью настроить визуальную составляющую страницы. Тут уже на ваше усмотрение, не забудьте только сохранить внесенные изменения.
Во вкладке «Модули» мы можем добавить новые блоки, например, установить обратный отсчет – пользователи будут видеть, сколько времени осталось до окончания профилактических работ.
Здесь же мы можем добавить обратную связь и включить отображение социальных сетей.
Раздел «Управление ботом» – отличный способ не дать заскучать пользователям, пока ведутся технические работы над сайтом.
Вкладка GDPR предназначена для настройки сбора информации о пользователях.
Как видите, настройки плагина многообразны, и в нем гораздо больше возможностей, чем в нескольких строчках кода, рассмотренных нами ранее.
Способ 3: Файл .htaccess
Последний способ, с помощью которого можно закрыть сайт на обслуживание в WordPress, – добавить код в файл .htaccess. Этот файл находится в корневом каталоге сайта, добраться до него можно следующим образом:
- Открываем личный аккаунт хостинг-провайдера и переходим в файловый менеджер. Затем заходим в папку с названием CMS и переходим в раздел «public_html». Там находим нужный нам файл и заходим в него двойным кликом.
- Осталось добавить несколько строчек кода. Для вашего удобства он расположен под картинкой – просто скопируйте его и вставьте в файл.
RewriteEngine On RewriteBase / RewriteCond %{REMOTE_ADDR} !^123.456.789.123 RewriteCond %{REQUEST_URI} !^/maintenance.html$ RewriteRule ^(.*)$ https://example.com/maintenance.html
Эти команды перенаправляют всех посетителей на новую домашнюю страницу maintenance.html. Предварительно создайте ее и настройте – шаблоны можете поискать в интернете, их довольно много.
Способ 3: Кэш поисковых систем
Пожалуй, оптимальный метод просмотра информации из закрытого аккаунта, включая фотографий, заключается в использовании кэша поисковых систем, которые хранят достаточно много информации о пользователях из ВКонтакте. Для этого можно прибегнуть к одному из популярных поисковиков, будь то Яндекс или Google, используя в качестве запроса имеющиеся у вас фотографии или идентификатор нужной страницы.
Яндекс
- Откройте стартовую страницу поисковой системы Яндекс и в текстовую строку вставьте адрес нужной страницы ВКонтакте. Можете использовать как идентификатор, так и пользовательскую ссылку.
Если поиск завершится успешно, в первых же строчках вы увидите ссылку на нужный профиль ВК. При этом в случае необходимости можно улучшить поиск, добавив в конец поискового запроса следующий код.
Теперь, чтобы ознакомиться со страницей и, следовательно, получить доступ к фотографиям, кликните по стрелочке под ссылкой на нужную страницу и выберите «Сохраненная копия».
После этого вы сможете просматривать фото человека, но только в ограниченном режим через блок «Фотографии» с удаленными комментариями.
- Поисковая система Google не сильно отличается от Яндекса в плане своей основной функции. Для начала перейдите на главную страницу сервиса и в текстовое поле вставьте URL-адрес нужной анкеты на сайте ВКонтакте.
В результате сразу отобразиться нужная ссылка. Если этого не произошло, и вы не можете найти подходящий вариант, через пробел после уже существующего запроса добавьте следующее:
Щелкните левой кнопкой мыши по значку стрелочки рядом с адресом страницы и через меню выберите «Сохраненная копия».
Здесь вы сможете просмотреть информацию, которая была сохранена поисковой системой в последнее время, включая изображения из ленты «Фотографии».
В отличие от Яндекса, поисковая система Google позволяет сразу ознакомиться с фотографиями, которые в той или иной степени связаны с указанной ваши ссылкой. Для ознакомления с ними после первого шага щелкните по вкладке «Картинки» под текстовым полем.
К большому сожалению, кэш в поисковых системах обновляется достаточно быстро, что не позволяет получать доступ к фотографиям в любом момент времени. Более того, индексируются далеко не все учетные записи ВКонтакте, а только те, в настройках которых выбран вариант «Все» в разделе «Кому в интернете видна моя страница».
Установка плагина WP Maintenance Mode
Данный плагин очень прост в настройке, имеет много различных возможностей и не нагружает ваш сайт.
Вы можете его активировать только тогда, когда он вам нужен, а если вы не используете данный плагин, то вы его просто деактивируете и он вообще не дает ни какой нагрузки на сайт.
- 1.Копируем его название и переходим в админку сайта.
- 2.Устанавливаем и активируем его как любой другой плагин.
- 3.И после его установки у вас в разделе «Настройки» появится пункт «Техническое обслуживание». Переходим в этот раздел, и мы видим, что все настройки данного плагина разбиты на несколько вкладок.
-
4.Прежде всего, что бы включить режим техобслуживания и закрыть ваш сайт для посетителей необходимо выставить здесь «Включено»
- 5.На этой же вкладке вы можете выбрать закрывать ли ваш сайт от индексации
-
6.Так же вы можете выбрать, пользователи с какими правами, а точнее ролями, могут иметь доступ к административной части вашего сайта.
Когда вы создаете нового пользователя или редактируете уже существующего, WordPress позволяет назначать этому пользователю определенную роль. Это может быть подписчик, участник, автор, редактор и администратор.
Так вот, в настройках данного плагина вы можете задать определенные группы пользователей с определенными ролями для доступа к панели управления сайтом и к фронт-энду сайта.
Если вам нужно просто временно закрыть ваш сайт для внесения определенных правок, то выставлять здесь ни чего не нужно.
Так же, здесь можно выставить мета тэг для роботов, но, опять таки, если вы кратковременно закрываете сайт, то все эти настройки вам не понадобятся.
Ещё у данного плагина есть возможность перенаправлять всех посетителей, зашедших по адресу вашего сайта на какую-то определенную страницу, или на какой-то другой сайт.
Здесь же можно добавить определенные исключения, то есть, что бы у посетителя был доступ к новостной ленте, архивам сайта, страницам, и так далее.
7.После того, как вы включаете режим технического обслуживания у вас, в административной части сайта, при редактировании каких-то страниц и установке плагинов, постоянно высвечивается предупреждение о том, что у вас включен режим технического обслуживания.
Это делается для того, что бы вы ни забыли его отключить после того, как внесете все необходимые правки. На вкладке «Общие» вы можете выбрать, высвечивать это предупреждение, или нет. Я рекомендую вам оставить здесь «Да».
8.Так же, при желании, на странице технического обслуживания вы можете добавить, либо не добавлять, ссылку для входа в панель управления.
9.После того, как все настройки заданы нажимаем на кнопку «Сохранить настройки».
Если я сейчас из админки перейду на страницу данного сайта, то для меня как для администратора, данный сайт будет, по-прежнему, доступен. Однако, если я, например, выйду из административной части сайта, или зайду на сайт через другой браузер, то я увижу вот такую картину:
Текст данного сообщения вы так же можете менять в настройках плагина.
Вывод
Контент закрытого типа бывает разных форм и размеров. Вы можете создавать разделы вашего сайта только для членов, скрывать электронные книги за подпиской по электронной почте и многое другое. Пока контент, который вы скрываете, достаточно ценен, этот подход должен помочь вам собрать больше потенциальных клиентов.
Добавить закрытый контент в WordPress просто, и вы можете сделать это в четыре шага:
- Создайте свой сайт следующим.
- Решите, что будет включать ваш закрытый контент.
- Используйте плагин, такой как Simple Membership, чтобы ограничить доступ к закрытому контенту.
- Скрыть ваш закрытый контент от поисковых систем.
У вас есть вопросы о том, как внедрить закрытый контент на ваш сайт WordPress? Задайте вопрос в разделе комментариев ниже!