Сайты — это фактически виртуальные места с файлами и контентом. Они расположены на хостингах и имеют уникальные адреса (домены). Для того, чтобы найти их в поиске, они должен быть «зарегистрированы» — проиндексированы в специальной базе данных поисковика. Что такое индексация и для чего она нужна? Ниже мы основательно разберемся в этом вопросе.
Что такое индексация
Индексация или индексирование страниц (веб-индексация, web-indexing) — это процесс сбора, проверки и ввода информации о содержимом сайта в базу данных поисковой системы. Эту сложную и трудоемкую работу поручают специальным роботам. Эти роботы обходят весь сайт и собирают информацию со страниц по прописанному алгоритму.
Для поисковых роботов, индексировать — значит обходить, изучать новые страницы и добавлять их в базу поисковика. Так как же работает индексация? При индексации учитываются внешние и внутренние ссылки, графические элементы, текстовый контент и т.д. Когда страница проверена, она включается в индекс поисковика и пользователи могут найти ее, введя нужные поисковые запросы.
Вся информация в базе данных собирается поисковыми роботами с сайтов в интернете. Пользователи обращаются в этот архив через поисковик и получают список сайтов с информацией по введенному поисковому запросу. Поисковые системы ранжируют сайты по собственным алгоритмам. Они учитывают полезность, тематику, поведенческие факторы посетителей и другие параметры. После просмотра краткой информации (заголовок + описание) о ресурсе, пользователь может нажать на ссылку в результатах поиска и перейти на выбранный сайт.
В конце 1990-х люди начали массово создавать сайты в интернете. На тот момент алгоритм поисковых систем только разрабатывался, поэтому индекс был аналогичен поиску по ключевым словам, найденным роботом на проверяемой странице. Поэтому в ТОПе поиска были сайты, которые чрезмерно оптимизированы и были совершенно бесполезны для пользователей. После 30 лет эволюции алгоритм поиска усложнился. Сегодня роботы обращают внимание не только на содержание и раскрытость темы, но и на ее качество, практичность для людей, доступность сайта для различных устройств, скорость загрузки и так далее.
На что влияет индексация
Благодаря индексированию в поисковых системах Яндекс и Google, сайт становится видимым для пользователей и потенциальных клиентов. Сами по себе лендинги, интернет-магазины или информационные сайты не имеют ценности. Их полезность определяет посетитель. При нахождении в индексе и регулярном обновлении, ресурсы растут в результатах поиска. Это увеличивает поток трафика и помогает развивать проекты. Боты поисковых систем оценивают не только качество контента, но и поведенческие факторы, посещаемость и участие. По этим показателям они могут определить полезность сайта. Чем лучше поведенческие факторы аудитории, тем выше рейтинг страницы. Первые 20 строк результатов поиска забирают 95% всего поискового трафика. Поэтому хорошая репутация в индексе поисковиков — залог успешного продвижения и высокой конверсии.
Как добавить сайт или страницу в индекс Яндекса и Гугла
Многие не понимают как открыть сайт для индексации поисковиками. На самом деле ее не нужно открывать, поисковые роботы сами найдут и добавят новую страницу, если она специально не закрыта (более подробно о закрытии страницы для индексации, читайте ниже). Для большинства пользователей Рунета индексация в поисковых системах означает добавление сайтов в базы данных Яндекс и Google. Обычно для развития своего проекта достаточно просто зарегистрировать ресурсы в этих поисковых системах. Индексирование, независимо от поисковой системы, выполняется двумя способами:
- Поисковый робот самостоятельно находит и проверяет созданный сайт или новую страницу. Многие эксперты считают этот вариант наиболее выгодным, поскольку если поисковая система сама хочет проиндексировать сайт, значит она признала его полезным. Как боты определяют полезность страницы: наличие актуальных входящих ссылок, трафика и вовлеченности посетителей. При соблюдении всех условий скорость индексации страниц сайта будет быстрее: от 24 часов до недели. В противном случае поисковый робот может полностью «забыть» новый ресурс. У них достаточно работы.
- Можно не ждать когда сайт найдут и проиндексируют поисковые роботы, а дать им адрес напрямую. Пользователь вручную отправляет сайт в очередь на индексацию, отправив заявку в поисковую систему. Созданные страницы добавляются в очередь на индексацию и ожидают когда поисковый робот заглянет на них, чтобы проиндексировать. Обычно добавляют URL-адрес домашней страницы, и робот сам сканирует весь ресурс, ориентируясь на карту сайта, меню и внутренние ссылки. Для ручного добавления сайтов в очередь на индексирование, используют Google Search Console и Яндекс.Вебмастер. Потребуется ввести URL сайта в форму и подтвердить права владельца. Этот вариант требует больше времени, но не требует финансовых затрат.
Для сканирования веб-сайтов используются разные поисковые роботы. Например, проверка новой страницы перед вводом в индекс выполняется основным роботом, который проверяет весь контент на ресурсе. Быстрый робот проверяет новую информацию на странице индекса в соответствии с планом обновления. Роботы также используются для сканирования лент новостей, графического контента и т.д.
Кто индексирует быстрее: Яндекс или Google
Алгоритм индексации и роботы Яндекса и Google имеют разную скорость обхода и страницы будут проиндексированы за разный промежуток времени. Специалисты считают, что Google быстрее проверяет страницы. Это связано с тем, что система сначала проводит всестороннее сканирование полезных и бесполезных страниц веб-сайта, но позволяет только высококачественным ресурсам попасть в результаты поиска. Следовательно, попадание в индекс Google не гарантирует место в поисковой выдаче.
Почему индексация сайта в Яндексе происходит долго? Поисковый робот проверяет только полезные материалы и отфильтровывает нежелательные страницы. Следовательно, индекс задерживается. В любом случае, проверка соответствия требованиям выполняется двумя системами: Яндекс выполняет ее сразу, а Google выполняет после добавления в индекс.
Как проверить индексацию
Три способа проверить индексацию сайта поисковиками:
- Используйте специальный оператор, введенный в строку поиска. Для Яндекс и Гугл нужно прописать значение site: и добавить домен ресурса после двоеточия. Например: site:vk.com. Таким образом можно узнать количество проиндексированных страниц. Если значения в Гугле и Яндексе сильно различаются, то скорее всего сайт попал под фильтр.
- Воспользуйтесь бесплатными инструментами для веб-мастеров, предоставляемыми поисковыми системами — Яндекс.Вебмастер или Google Search Console. Для Google: после подтверждения прав на сайт, откройте инструмент проверки URL и введите адрес сайта, индекс которого вы хотите проверить. Для Яндекс: после подтверждения прав на сайт, откройте раздел проверить статус URL в Яндекс.Вебмастере, введите адрес и нажмите «Проверить».
- Используйте расширения для браузера или специальные сервисы. Расширения для проверки индексации — это небольшие дополнения к вашему веб-браузеру, которые автоматически проверяют наличие страниц в индексе. Популярным решением является RDS Bar.
Как ускорить индексацию
Скорость, с которой страница появляется в результатах поиска, напрямую зависит от скорости, с которой робот поисковой системы проверяет наличие нового контента. Соответственно от этого зависит насколько быстро на сайте появятся посетители. Для поисковиков не все сайды одинаковы и грамотно настроенным сайтам поисковая система может отдавать предпочтение при индексации.
Скорость индексирования зависит от нескольких факторов:
- Авторитет сайта в интернете и его полезность для пользователей;
- Отсутствие ошибок при индексации;
- Качество и частота обновления контента;
- Наличие внутренних и внешних ссылок;
- Вложенные страницы;
- Правильно заполненные файлы sitemap.xml и robots.txt;
- Корректные ограничения в robots.txt.
Для ускорения индексации рекомендуются следующие действия:
- Выберите надежный и быстрый хостинг;
- Добавьте сайт в очередь на индекс через Яндекс.Вебмастер и Google Search Console;
- Правильно настройте robots.txt. В этом файле нужно запретить доступ к техническим и сервисным страницам, а также просматривать другую информацию, которая бесполезна для посетителей;
- Создайте файл sitemap.xml и сохраните его в корневом каталоге сайта. В нем робот проверяет структуру страниц и следит за обновлениями контента;
- Проверьте код на главной и других страницах на наличие ошибок и дубликатов.
- Проверьте текстовый контент на наличие ключевых слов и их количество;
- Регулярно публикуйте новый полезный контент на сайте;
- Установите внутренние ссылки между страницами сайта (перелинковку). Это простой и эффективный вариант увеличения участия пользователей в проекте и, соответственно, «роста» результатов поиска;
- Настройте навигацию так, чтобы переходов к нужной странице из главного меню не превышал 3 кликов. Сегодня требования к юзабилити сайта становятся все выше и выше, потому что это напрямую влияет на поведенческие факторы посетителей. Если расстояние до необходимой информации составляет 10-12 кликов, то 90% пользователей покинут такой сайт, так и не найдя то, что хотели;
- Разместите ссылки на ресурсы в социальных сетях, тематических форумах, досках объявлений и других сайтах для увеличения посещаемости.
- Уменьшите вес изображений, потому что «тяжелая» графика замедляет скорость загрузки страницы и отрицательно сказывается на дальнейшем улучшении индексации и продвижении сайта в поиске.
Как закрыть сайт или страницу от индексации?
Выше мы узнали, что такое индексирование страниц сайта, зачем она нужна и как ускорить этот процесс. Теперь поговорим о том, как скрыть информацию на странице для предотвращения проверки и когда это нужно делать. Как правило, роботам запрещается сканировать технические и служебные страницы, конфиденциальную информацию, ресурсы, находящиеся в разработке, копии и т.д., чтобы предотвратить их публичный просмотр. Другими словами, чтобы добиться качественного прогресса в поиске, вам необходимо знать, какие данные отображать, а какие скрывать.
Вы можете предотвратить сканирование сайта роботами несколькими способами:
- Используйте файл robots.txt. В документе можно запретить индексацию отдельных страниц и сайта целиком. Этот файл устанавливает правила для поисковых роботов. Для запрета используются два основных оператора: User-agent и Disallow. User-agent указывает адресата, а Disallow запрещает посещение. Например, чтобы скрыть сайт от поисковых роботов, вы можете написать в robots.txt следующий код: User-agent: * и следующую строку Disallow: /.
- Указать специальные теги в файле robots.txt. Обычно этот параметр используется, чтобы скрыть конкретную страницу и предотвратить ее сканирование. Это теги noindex и nofollow, которые запрещают роботам поисковых систем проверять страницу или часть контента. Например, вы можете запретить роботам Гугла сканирование, использовав следующий код: <meta name=»googlebot» content=»noindex, nofollow» />.
Подводя итог
Индексирование имеет простую цель и далеко идущие последствия — добавление информации о сайте в базу данных поисковой системы. Прочитав статью, вы узнали что такое индексация сайтов в поисковых системах. Вы изучили основные моменты добавления, проверки и ускорения индексации сайта в поисковых системах. Вы узнали как и почему ботам нужно запрещать сканировать определенные страницы. Надеюсь материал был вам полезен, индексируйте ваши страницы с умом!