В чем фишка Яндекс?
- Определение различных словоформ с учетом морфологических особенностей русского языка.
- Определение региональности.
- Высокая скорость ответной реакции на запросы пользователей.
- Устойчивая работу серверов.
- Обработка запроса пользователя происходит на менее загруженном сервере.
- Существование системы Метапоиск. Более подробно про него читайте тут
- Наличие алгоритма машинного обучения CatBoost — преемника MatrixNet
- Индексирует только полезные веб-страницы.
- Существование 3 типов независимых индексов.
Типы поисковых систем в интернете
Существует 2 основных типа систем.
- Системы, использующие веб-краулеры.
Краулер – это робот (программа), который «путешествует» по страницам в интернете, сканирует их и заносит в базу данных (поисковый индекс). Поэтому, иногда, индекс называют «малой» копией интернета.
Далее, человек вводит запрос. Поисковик обращается к своему индексу, сортирует документы по степени их соответствия информационным нуждам пользователя (релевантности) и выдаёт их на странице результатов поиска (по англ. SERP – search engine result page). К такому типу относятся: Яндекс, Mail.ru, Yahoo, Google, Rambler и другие.
- Каталоги данных с добавлением информации вручную.
Хорошим примером может служить библиотека. Пользователь вводит название книги или какую-либо другую идентифицирующую информацию, а система выдаёт ему список результатов.
Как устроен поиск в Яндекс?
Весь процесс работы можно описать в такой последовательности (как и в поисковой системе Google):
- Сканирование
- Индексирование
- Ранжирование
Если описывать более подробно, то процесс поиска и ранжирования веб-страниц сайтов устроен следующим образом:
Читайте также: Как бесплатно создать яндекс-кошелек и получить 150 руб. в подарок
- Собирается список ссылок для сканирования
- Планировщик определяет этот список
- Происходит сканирование или краулинг запланированных страниц по списку ссылок
- Далее происходит скачивание полезных документов и размещение их в сохраненной копии
- После этого индексация этих документов, определение его языка, слов и ссылок в нем
- И далее на страницу результатов поисковой выдачи
Как узнать, сколько страниц вашего сайта включено в индекс Яндекс и Google?
Есть два способа сделать это.
Откройте Google и используйте оператор site, затем наберите двоеточие «:», а затем ваше доменное имя. Таким образом вы узнаете, сколько и каких страниц находится в индексе поисковой системы.
Вот так это выглядит в Google:
А вот так в Яндексе:
Добавьте сайт в Google Search Console, подождите несколько дней, пока поисковик не обработает ваш сайт, после чего, вы сможете увидеть отчет Покрытие и, в частности, на Сведения по проиндексированным страницам.
В Яндекс Вебмастере также можно просмотреть, какие страницы находятся в индексе поисковика Яндекс.
Как устроен процесс ответа на запрос?
- Попадание запроса в Метапоиск, где он обрабатывается в режиме реального времени.
- Если есть ответ в сохраненной копии — запрос является частозадаваемым — то Метапоиск формирует результаты.
- Если сохраненных результатов нет, то Метапоиск передает запрос на Базовый поиск, где ответ на запрос реализуется по разным серверам.
- Каждый из серверов отдает список веб-страниц, в которых есть слова из запроса, назад в Метапоиск.
- В Метапоиске они объединяются и ранжируются с помощью технологии CatBoost (улучшенный МатриксНет).
- CatBoost выдает результаты на запрос.
Как видно, Яндекс использует логи для определения полезности документа — если на него был клик из поисковой выдачи, значит такой документ нужно оставить в поиске.
И ссылки с такого документа, вероятнее всего, ведут тоже на полезные документы, поэтому поисковый робот Яндекса скачивает такие ссылки и ставит страницы, которые ведут на них, в приоритет обхода.
Перед тем, как выдать пользователю поисковые результаты, запрос проходит через три поиска по:
Читайте также: Правила размещения объявлений на досках объявлений — JCat.Работа
- Страницам
- Картинкам
- Видео
После этого запрос опускается еще ниже в поисковую базу, разделенную на большое количество кластеров и оттуда на SERP — поисковую выдачу.
Prowebagents рекомендует проставить полезные контекстные ссылки с трафиковых страниц на сайте или реализовать перелинковочные блоки на таких страниц, в которых указать ссылки на документы, которые еще не находятся в индексе поисковой системы, чтобы они быстрее попали в поисковую базу Яндекса.
Как работают поисковые системы.
Поисковые системы представляют собой сложные компьютерные программы.
Прежде чем они даже позволят вам ввести запрос и выполнить поиск в Интернете, им необходимо проделать большую подготовительную работу, чтобы при нажатии «Поиск» вы получили набор точных и качественных результатов, отвечающих на ваш вопрос или запрос.
Что включает в себя «подготовительная работа»? Два основных этапа. Первый этап — это процесс обнаружения информации, а второй этап — организация информации таким образом, чтобы ее можно было использовать позже в целях поиска.
Эти этапы широко известным в мире Интернате как сканирование (или краулинг) и индексирование.
Шаг 1: Сканирование.
Поисковые системы имеют ряд компьютерных программ, называемых поисковыми роботами (или веб-паук, веб-краулер), которые отвечают за поиск информации, доступной в Интернете.
Чтобы упростить сложный процесс, вам достаточно знать что работа этих роботов состоит в сканировании Интернета и поиске серверов, также называемых веб-серверами, на которых размещаются веб-сайты.
Поисковые роботы создают список всех веб-серверов для сканирования, определяют количество сайтов, размещенных на каждом сервере, и затем начинают работу.
Они посещают каждый веб-сайт и, используя различные методы, пытаются выяснить, сколько у них страниц, на которых размещено различное содержимое, такое как текст, изображения, видео или любой другой формат (CSS, HTML, javascript и так далее).
Зачем нужно заботиться о процессе сканирования?
Ваша первая задача при оптимизации сайта для поисковых систем состоит в том, чтобы гарантировать, что поисковики могут получить к нему правильный доступ. В противном случае, если они не смогут «прочитать» ваш сайт, то вам не стоит ожидать высокого рейтинга в поисковиках.
Сканерам предстоит много работы, и вам следует постараться сделать их работу проще.
Есть несколько вещей, которые нужно сделать, чтобы программы сканеры могли без проблем обнаружить и получить доступ к вашему веб-сайту.
Используйте файл Robots.txt, чтобы указать, какие страницы вашего сайта не должны попасть в поиск. К таким страницам относятся различные служебные страницы, такие как панель управления сайтом и ряд других страниц, которые, по различным причинам, не должны попасть в поисковую выдачу.
Читайте также: Рейтинги сайтов и блогов — куда стоит добавить свой сайт, блог или форум
У крупных поисковых систем, таких как Яндекс и Google, есть инструменты (также называемые инструментами для веб-мастеров), которые вы можете использовать для предоставления им дополнительной информации о вашем сайте (количество страниц, структура и так далее.). Тогда поисковым роботам не придется искать ваш сайт самостоятельно.
Используйте XML-карту сайта, чтобы перечислить все важные страницы вашего сайта. Тогда поисковые роботы будут знать, на каких страницах нужно отслеживать изменения, и какие страницы игнорировать.
При посещении сайта, помимо учета количества страниц, они также переходят по любым ссылкам (указывающим на страницы вашего сайта или на внешние сайты) и, таким образом, обнаруживают все больше и больше страниц.
Поисковые роботы делают это постоянно, а также отслеживают изменения, внесенные на веб-сайт, чтобы они знали, когда новые страницы добавляются или удаляются, когда обновляются ссылки и тому подобную информацию.
Если принять во внимание, что сегодня в Интернете насчитывается более сотни миллиардов отдельных страниц и ежедневно публикуются еще миллионы новых страниц, то можно представить, насколько это большая работа.
Шаг 2: Индексирование
Одного сканирования недостаточно для создания поисковой системы.
Информация, собранная поисковыми роботами, должна быть упорядочена, отсортирована и сохранена, чтобы ее можно было обрабатывать алгоритмами поисковой системы до того, как она станет доступной для конечного пользователя.
Этот процесс называется индексированием.
Поисковые системы не хранят всю информацию найденную на странице в своем индексе, но они хранят такие вещи, как: когда она была создана или обновлена, заголовок и описание страницы, тип контента, связанные ключевые слова, входящие и исходящие ссылки и большое количество других параметров, которые необходимы для их алгоритмов.
Зачем заботиться о процессе индексации?
Это очень просто, если страницы вашего сайта не находятся в индексе поисковых систем, то страницы не будут отображаться в поисковой выдаче.
Это также означает, что чем больше страниц у вас в индексе поисковой системы, тем больше у вас шансов появиться в результатах поиска, когда кто-то набирает свой запрос в поисковой строке.
Обратите внимание, что я упомянул слово «появится в результатах поиска», что означает любую позицию. Но само появление в поиске, еще не означает, что страницы сайта будут отображаться на верхних строках в Яндекс и Google.
Для того, чтобы сайт появился на первых 5 позициях в поисковой выдаче, вы должны оптимизировать свой сайт для поисковых систем, используя процесс под названием поисковая оптимизация или SEO.
Какие есть алгоритмы поиска Яндекс?
Особенность алгоритмов Яндекса в том, что большинство из них названы как города.
- Catboost — алгоритм машинного обучения, запатентованный Яндекс, используемый для улучшения результатов ранжирования в поиске. Используется и в других сервисах этой поисковой системы.
- Калининград и Дублин — персонализация результатов поиска.
- Амстердам — формирование объектного ответа справа от результатов поисковой выдачи.
- Минусинск — акцент на большом количестве SEO-ссылок (санкции).
- Многорукий бандит Яндекса — направлен на подбрасывание в выдачу новых результатов для дальнейшего определения их полезности и корректировки SERP. Побрасываются только релевантные запросу документы (оценка rel+). Принцип его работы с формулой указаны в этом докладе сотрудника Яндекс. Характеризуется тем, что резко проседают или подымаются позиции на 5-30 мест. Изменения более чувствительны к коммерческим запросам, нежели информационным. Применяется ко всем видам запросов по частотности. Благодаря этому алгоритму есть возможность новому сайту проявить себя.
- Владивосток — направлен на повышение позиций в результатах поиска оптимизированных для мобильных устройств сайтов.
- Палех — направлен повышение качества результатов поиска для редких запросов c помощью анализа Title страниц.
- Королев — как и Палех, применяется для улучшения поисковой выдачи, при этом анализируется не только заголовой страницы, но весь контент на ней.
- Баден-Баден — акцент на переоптимизированных текстов на сайте. Применяется ко всему сайту (хосту). Как выйти из-под этого хостового фильтра Баден-Баден, читайте в этом кейсе.
- Андромеда — еще большее обновление поиска. Появление иконок для сайта в поиске, улучшение быстрых ответов в поиске, появление FAQ-сервиса Яндекс.Знатоки, улучшение сервиса Яндекс.Коллекции, переходы с которого влияют на ранжрование, понижение сайтов с большим количеством рекламы на страницам (если ее больше, чем основного контента) и увеличение веса для отзывов пользователей в результатах поиска (поиск стал понимать, какие отзывы накручены).
- Переспам — применяется к запросу и уменьшает релевантность страницы по нему.
- Переоптимизация — применяется ко всей странице и уменьшает ее значение.
- Новый фильтр — применяется к запросу и понижает его позицию более чем на 50 мест.
- Внешний и внутренний Непот — исключение из ранжирования ссылок. Внешний применяется соответственно к внешним бэклинкам, а внутренний — к ссылкам из спамной внутренней перелинковки.
- Накрутка поведенческих факторов — санкции за искусственную накрутку ПФ. Как результат, сайт отображается только по витальным запросам.
- Кликджекинг — штраф за размещение на странице сайта невидимых элементов (обман пользователей), с которыми взаимодействует пользователь, даже не подозревая этого.
- Аффилированность — удаление из выдачи сайтов одного владельца, которые продвигаются в одной тематике и по одинаковым запросам. Оставление только одного сайта в зоне видимости. Рекомендую ознакомиться с этой шутливой, но поучительной статьей, про сайты-аффилиаты.
- За одинаковые сниппеты — склейка страниц сайтов, у которых одинаковые фрагменты страниц — title и description. Для устранения делайте уникальные сниппеты со вставкой названия компании или сайта.
Язык запросов
- Исключение/включение определенных слов. Оператор «+» и «-»
- Перечисление альтернатив. Оператор «|»
- Поиск слова в заданной форме. Оператор «!»
- Поиск по цитате. Оператор Кавычки «
- Ограничение по адресам. Символ «#url»
- Задание расстояния между словами. Оператор «/n»
- Поиск ссылок. Оператор «#link»
Например, Вы желаете найти сайты на которых есть анекдоты про Вовочку, но при этом вы не выносите анекдоты, в которых злые люди называют Путина Вовочкой. Тогда в запросе пишите следующее: «+анекдот+Вовочка-Путин». Исключаемое слово должно размещаться в конце поискового запроса. Это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «Вовочка», однако отсутствует слово «Путин».
Вертикальная черта задает альтернативы: поисковая система найдет хотя бы одно из поставленных слов. Будут найдены документы, где будет хотя бы одно из слов в запросе: «кот», «мышь» или «собака». Если Вы хотите найти страницы, где встречается одно из слов «кот», «мышь», «собака», поисковый запрос выглядит так: «кот | мышь | собака». Оператор разделяется пробелом.
Поисковая система обычно ищет все словоформы написанного слова, даже если оно задано полностью. Например, если в запросе будет введено слово «брюнетка», то в выдаче первыми будут страницы, где будет именно «брюнетка», но далее в выдаче окажется «брюнетки», «брюнеткой», «брюнеткою», «брюнеткам» и так далее. Для того, чтобы Вам найти только одну конкретную форму – «брюнетка», то задавайте в поиск так: «!брюнетка».
Поиск документов, содержащих слова запроса в заданной последовательности и форме. Найдутся документы, содержащие данную цитату. Если Вам нужна точная фраза «сухогрузный теплоход», а не «сухогрузный теплоход, включающий в себя темно-зеленые сигнальные огни в пупырышках» — тогда при поиске заключите фразу в кавычки: «”сухогрузный теплоход“», и в этом случае в результате появятся только те страницы, где эти слова располагаются строго рядом.
Если Вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов, либо же наоборот – поиск, который исключает конкретные адреса или группы адресов, — можно воспользоваться командой «#url=” адрес или группа“». Например, если Вы хотите найти все страницы, на которых встречается слово «автор», исключив сайт www.vladimirturikov.ru, дайте следующую команду: «автор— #url=”www.vladimirturikov.ru”».
Для поиска всех вариантов сочетания слов «черная [любое слово] болонка» — можно применить знак «/», означающий «не превышало», и указания числа допустимого количества слов, цифра 1 – это значит отсутствие слов. Пример запроса. «черная/+2болонка» означает команду искать все сочетания, где между «черная» и « болонка» не больше 1 слова. То есть «черная болонка» — подойдет, 2большая лохматая болонка» — тоже подойдет, а «большая лохматая и злая болонка» — уже нет. Символ «+» значит, что слово (слова) должны быть справа, а «-» — слева. Таким образом, запрос «черная/(-24) болонка» определяет, что «черная» должно находиться от «болонка» в интервале расстояний от 2 слов слева до 4 слов справа.
Бывает, что владельцы своих страничек интересуются какие сайты делают ссылки (помещают гиперссылку) на тот или иной адрес. Для поиска необходимо набрать символы: «#link=”адрес”».
Пример:
Команда «#link=”www.vladmirturikov.ru”» откроет все документы, где имеются ссылки на www.vladmirturikov.ru.
Я перечислил только основные возможности языка запросов в поисковой системе Yandex. Эти параметры похожи и в других поисковых системах, хотя перед использованием желательно посмотреть описание на конкретном поисковике.
Читайте также: Как сделать карту в конструкторе Яндекса и разместить ее на сайте
Какие действия нужны для эффективного SEO в Яндекс?
- Важным фактором ранжирования являются ссылки на определенные продвигаемые страницы-сайта.
- Не так важен объемный (раскрывающий тему) контент, как в Google. Важно не переспамить его ключами и не переоптимизировать страницу по ним.
- Текстовая оптимизация страницы более требовательна, чем под Google. Нужно учитывать вхождения в разные зоны документа, что мы и делаем при заказе семантического ядра
- Не учитывается атрибут alt при ранжировании изображений
- Микроразметку лучше внедрять в формате schema.org, а не json
- Сниппет в результатах поиска (фрагмент текста со страницы) чаще всего подтягивается из текста страницы, который релевантный запросу
- Есть возможность задать город продвижения.
- У Яндекса есть фильтры, в отличие от Google, у которого только алгоритмы
- Работают в плюс больше анкорные ссылки.
- Больший акцент при продвижении на коммерческих факторах (больший ассортимент) и поведенческих (клика на выдаче, длина клика и последний клик). Поведенческие факторы, по словам Google, не учитываются. Но это SEO-миф. Читайте № 19.
- Не такой ярко выраженный акцент на ссылочных факторах при продвижении, как в Google.
Релевантность
Термин релевантность – это степень соответствия документа запросу. Степень соответствия в свою очередь это то, что Вы получили на выходе и это та информация, которую хотели.
Как система определяет релевантность, то есть страницы, в которых содержится запрос:
- Количество кликов на эту страничку (индекс цитируемости). Чем больше на эту страничку ставят гиперссылку другие, тем выше вероятность того, что Вы ищете.
- Релевантность запроса зависит от размера шрифта, стиля набранного текста запроса. Набранный запрос, жирный или крупный шрифт является признаком более релевантным данной странички.
- Проверяет количество слов (словосочетаний) встречающихся на выбранных страницах по тематике.
- Проверяет интервал между словами при введении в поиск всей фразы.
- Учитывает возраст сайта. Релевантность лучше у сайтов, которые созданы раньше других.
Из вышесказанного следует, что правильная интерпретация влияет на уровень релевантности.
Поисковая база
Сформированные на прошлом этапе индексы добавляются в поисковую базу. Через программную платформу мапредьюс все индексы конвертируются в файлы и хранятся в системе. На данный момент Яндекс хранит файлы общим объемом 50 петабайт.
Раз в неделю вся база обновляется. Именно в этот момент поисковый робот яндекс принимает решение добавить полученный контент в результаты поиска.
Более того, специалист по поисковому продвижению Игорь Ашманов уверяет, что полнота поисковой базы Яндекса в разы лучше западного конкурента Googlе.
Индексация
Когда страница опознана поисковым роботом, происходит индексация контента. Индексация — это процесс добавления основной информации о странице в базу Яндекс. К основным данным относится:
- Язык
- Список ссылок на внутренние страницы
- Содержание мета-тегов
- Информация о поведенческих факторах
Последняя собирается с помощью логов Яндекса. Они определяют, как пользователь ведет в себя результатах поиска и на самой странице: на что кликает, а на что не кликает. Кстати, логи Яндекса используются не только на этапе индексации. Они применяются поисковиком и при ранжировании результатов поиска. Из всех собранных данных затем формируется индекс сайта.
Принципы ранжирования результатов поиска
После передачи запроса на выполнение поиска по индексу на его основе строится выборка из базы, содержащая ссылки на страницы, которые полностью удовлетворяют всем заданным условиям. Как правило, эта выборка весьма внушительна даже для продуманно составленных поисковых фраз и может содержать сотни и тысячи страниц. Выдать ее в таком необработанном виде пользователю – значит обречь его на сложный ручной поиск и анализ наиболее подходящего результата. Поэтому после формирования выдача ранжируется по достаточно сложной технологии.
Ранжирование, или сортировка ссылок на страницы в Интернете, в порядке убывания их полезности для пользователя – это достаточно сложный и постоянно совершенствующийся процесс. Его главная задача – дать потребителю максимально полезную информацию, которая полностью ответит на его запрос.
Именно технологии ранжирования оказывают максимальное влияние на интернет-маркетинг, напрямую определяя позицию сайта в поисковой выдаче. Стоит отметить, что применение таких технологий в «Яндексе» началось с 2009 года и постоянно развивается путем внедрения новых алгоритмов. Каждая модернизация может привести к резкой смене позиции сайта, особенно если предыдущая позиция была занята не благодаря качественному информационному наполнению, а путем использования исключительно технических методов SEO-продвижения.
Справка:
с ноября 2009 года в «Яндексе» использовался метод машинного обучения «Матрикснет», запущенный в алгори. С 2012 года применяется платформа «Калининград», разработанная на основе «Матрикснета». В 2016 году появился алгори, в 2017-м – «Баден-Баден» и «Королев».
Современные алгоритмы ранжирования способны учитывать тысячи различных параметров, начиная от статистических характеристик текста и заканчивая поведенческими факторами на сайте и его смысловым наполнением.
Весь процесс сортировки страниц по соответствию поисковой фразе делится на два этапа:
- Отбираются наиболее релевантные страницы сайта, информация с которого должна попасть в выдачу.
- Выбранные страницы еще раз сортируются по релевантности запросу.
Такой подход обеспечивает попадание в конечную выдачу обычно не более одной страницы с веб-ресурса, что облегчает для пользователя задачу выбора наиболее интересного сайта из нескольких. В противном случае страницы с одного тематического ресурса могли бы заполнить всю выдачу. Однако в некоторых ситуациях пользователь может заметить в выдаче несколько страниц с одного сайта.
Конечное численное значение релевантности, которое используется в сортировке, определяется по сложным формулам и алгоритмам, которые в большей части известны только компании – владельцу поисковой системы. Также на ранжирование влияет и региональная принадлежность ресурса, что особенно актуально для коммерческих запросов.
После завершения предварительной сортировки отобранные страницы проходят еще через ряд более строгих фильтров, среди которых есть и система санкций, понижающих значимость страницы в выдаче. Санкции, или пессимизация, могут применяться как к ресурсам целиком, так и к отдельным страницам за нарушение правил публикации контента, плагиат, использование технологий накрутки и ряд других факторов.
После завершения всех этапов алгоритма определения релевантности найденные страницы сортируются от более релевантных к менее релевантным и отправляются пользователю на экран в виде выдачи поисковой системы.
Факторы ранжирования
Стоит отметить, что поисковые системы не раскрывают до конца все критерии ранжирования сайта и технологии определения релевантности. Даются лишь общие рекомендации, главная суть которых – улучшение качества контента, его содержательности и полезности для конечного пользователя. К числу основных факторов относятся следующие:
- внутренние
– текст, его оформление, графические элементы, перелинковка внутри сайта; - внешние
– ссылки на страницы сайта с других ресурсов, активность в социальных сетях (лайки, ретвиты, репосты и др.); - поведенческие
– показатель отказов, время пребывания на сайте, глубина просмотра и т. д.
Тем не менее часто на первой странице выдачи можно наблюдать материалы, которые далеки от таких требований и занимают их благодаря использованию технологий «черного SEO». Однако такие ресурсы обычно исключаются из выдачи с применением санкций при очередной модернизации алгоритмов ранжирования. Впрочем, нередки и ситуации, когда внедрение нового алгоритма приводит к понижению позиций качественных ресурсов, что требует постоянного внимания к ним со стороны их владельцев и своевременного реагирования оптимизаторов на изменение ситуации, чтобы не допустить потери прибыли из-за снижения потока клиентов от поисковых систем.