Конференции
Нью-Йорк, США
28
Июль
Санкт-Петербург, Россия
28
Июль
Санкт-Петербург, Россия
29-30
Июль
Санкт-Петербург, Россия
30
Июль
Нью-Йорк, США
04-05
Август
Денвер, США
26
Август
Ивиса, Испания
31-02
Август -
Сентябрь
Будапешт, Венгрия
01-04
Сентябрь
Будапешт, Венгрия
03
Сентябрь
Будапешт, Венгрия
04-05
Сентябрь
Лимассол, Кипр
11-12
Сентябрь
Лиссабон, Португалия
16-18
Сентябрь
Прага, Чехия
26
Сентябрь
Марбелья, Испания
06
Октябрь
Москва, Россия
21-22
Октябрь
Лондон, Великобритания
22-23
Октябрь
г.Ташкент, Узбекистан
13-14
Ноябрь
Мехико, Мексика
22
Ноябрь
Италия
23-26
Ноябрь
Коломбо, Шри-Ланка
30-02
Ноябрь -
Декабрь
Бангкок, Таиланд
03
Декабрь
Бангкок, Таиланд
04-05
Декабрь

Утечка данных в Google: как устроено ранжирование в поиске Google


В Google произошла утечка документа Google API Content Warehouse, содержащего ссылки на частные репозитории и внутренние страницы корпоративного сайта Google. Документ на 2500 страниц подробно раскрывает механизмы работы поисковой системы Google. SEO-специалисты активно изучают полученные данные.

Исходя из информации, представленной в документации, Google использует более 14 тысяч функций для ранжирования сайтов. Среди которых важная роль отведена использованию кликов и поведению после клика, т.е. поведенческому фактору. По мнению SEO-специалистов, изучивших новые данные, клики и навигация по сайту сейчас гораздо значимее, а контент и ссылки вторичны.

Google подтвердил подлинность документов прокомментировав это следующим образом:

«Мы предостерегаем от некорректных предположений о поиске на основе информации, вырванной из контекста, устаревшей или неполной. Мы поделились обширной информацией о том, как работает поиск и какие факторы учитывают наши системы, одновременно работая над защитой целостности наших результатов от манипуляций.»

Алгоритмы ранжирования в поиске Google

Эта утечка данных Google, наряду с другими утечками и с недавними показаниями в антимонопольном деле Министерства юстиции США, пролила свет на многие аспекты их алгоритмов ранжирования, которые ставят под сомнение некоторые публичные заявления компании. Вот несколько ключевых моментов, которые расходятся с их заявлениями о методах ранжирования и представляют большой интерес для SEO-специалистов:

  • Поведение пользователей на сайте: Важный компонент ранжирования — NavBoost использует данные, основанные на кликах, для повышения или понижения рейтинга сайта. NavBoost анализирует клики пользователей по результатам поиска, учитывая такие параметры, как «хорошие клики» (goodClicks), «плохие клики» (badClicks), длительность кликов (lastLongestClicks) и другие. Это позволяет Google понимать, какие результаты поиска наиболее удовлетворяют пользователей и какие страницы стоит поднимать в ранжировании. NavBoost также учитывает поведение пользователей, такое как pogo-sticking (быстрое возвращение к результатам поиска после клика на результат, который не удовлетворил запрос пользователя). Анализируется длина кликов (длительность пребывания на странице), что помогает определять полезность и релевантность страницы.
  • Использование данных браузера Chrome: Утечка показала, что Google собирает обширные данные о поведении пользователей, которые используются для оценки страниц и доменов. Например, Google может использовать количество кликов на страницах в браузере Chrome для определения самых популярных URL на сайте, что влияет на создание Sitelinks.
  • Белые списки сайтов: Google имеет белые списки для сайтов, касающихся путешествий, COVID и выборов. Это позволяет Google контролировать результаты поиска для контроверсионных или потенциально проблемных запросов, обеспечивая показ только проверенных и надежных источников.
  • Авторитет домена (Domain Authority): Google неоднократно заявлял, что не использует метрику авторитета домена (Domain Authority) в своих алгоритмах. Однако утечка данных показала, что существует метрика siteAuthority, которая используется в системе Q* для оценки авторитета сайта. Это указывает на наличие внутреннего эквивалента метрики авторитета домена.
  • «Песочница»: Google утверждал, что «песочницы» не существует, и новые сайты не подвергаются специальным ограничениям. Однако в утечке упоминается атрибут hostAge, который используется для «песочницы свежего спама». Это подтверждает, что Google действительно использует некоторую форму «песочницы» для новых или подозрительных сайтов.
  • Данные из EWOK: EWOK — это внутренняя платформа Google, используемая для оценки качества поиска, где живые люди просматривают страницы результатов поиска и оценивают их на основе ряда критериев, таких как релевантность, полезность и доверие к источнику. Данные от оценщиков качества могут быть использованы для прямого влияния на ранжирование страниц.
  • Учет размера бренда: Популярные и известные бренды имеют приоритет в ранжировании. Google использует различные способы для идентификации и ранжирования брендов, в том числе и размер бренда, определение которого происходит не только по самому сайту, но и по упоминанию этого сайта в интернете (даже без ссылок). 

Дополнительные важные моменты

  • Дата имеет значение: Google активно ассоциирует даты с контентом, используя bylineDate (указанная дата на странице), syntacticDate (извлеченная дата из URL или заголовка) и semanticDate (дата, полученная из содержания страницы).
  • Оригинальный контент и ключевые слова: Краткий контент оценивается на оригинальность, и это влияет на его ранжирование. Заголовки страниц должны соответствовать запросам пользователей, что остается важным фактором.
  • Font Size имеет значение: Google отслеживает средний взвешенный размер шрифта терминов в документах и ссылках, что также влияет на ранжирование.
  • PageRank домашней страницы учитывается для всех страниц: Каждый документ имеет свой PageRank домашней страницы. Вероятно, PageRank и siteAuthority используются в качестве прокси для новых страниц, пока для них не рассчитан свой собственный PageRank.
  • Google может специально опускать небольшие сайты в выдаче: У Google есть специальный флаг, указывающий на то, что сайт является «небольшим персональным сайтом». Определения таких сайтов нет, но Google легко может повысить или понизить их рейтинг.
  • Уровень индексирования влияет на ценность ссылок: Метрика под названием sourceType показывает связь между местом индексации страницы и ее ценностью. Для справки: индекс Google разделен на уровни, где наиболее важный, регулярно обновляемый и доступный контент хранится во флэш-памяти. Менее важный контент хранится на твердотельных накопителях, а нерегулярно обновляемый — на обычных жестких дисках. То есть, чем выше уровень, тем ценнее ссылка. Страницы, которые считаются «свежими», также считаются более качественными. Это частично объясняет, почему высокорейтинговые и новостные страницы дает лучшие показатели ранжирования.

Понижение (Demotion) в алгоритмах ранжирования Google

Понижение (demotion) — снижение позиций веб-страниц в результатах поиска из-за наличия определенных факторов, которые негативно влияют на их качество или релевантность. Утечка данных показала, что Google использует множество различных алгоритмических механизмов для понижения страниц. Вот некоторые из них:

  • Anchor Mismatch — когда ссылка не соответствует целевому сайту, на который она ссылается, сайт понижается в ранжировании.
  • SERP Demotion — сигнал, указывающий на потенциальную неудовлетворенность пользователей страницей, и вероятно, измеряющийся кликами.
  • Nav Demotion- это понижение применяется к страницам, демонстрирующим неудобную навигацию или плохой пользовательский опыт.
  • Exact Match Domains Demotion — специальная функция для понижения за точное совпадение доменов (например, buy-cheap-shoes.com), если они не обеспечивают качественный контент.
  • Product Review Demotion (Понижение по отзывам о товарах) — конкретной информации по этому вопросу нет, но вероятно, оно связано с недавним обновлением отзывов о товарах в 2023 году.
  • Location Demotion — есть указание на то, что «глобальные» страницы могут быть понижены в выдаче. Это говорит о том, что Google пытается ассоциировать страницы с местоположением и ранжировать их соответствующим образом.
  • Porn demotion — понижение за демонстрацию порнографии.
  • Other link demotions — понижения из-за ссылок

Архитектура системы ранжирования

Функционал и взаимосвязь различных систем в Google по их внутренним названиям.

Краулинг 

  • Trawler — система веб-краулинга. Она имеет очередь сканирований, отражает скорость сканирования и понимает, как часто происходит переход по страницам.

Индексирование

  • Alexandria — основная система индексирования.
  • SegIndexer — система, которая размещает документы по ярусам в индексе.
  • TeraGoogle — система вторичного индексирования для документов, которые долго хранятся на диске.

Рендеринг

  • HtmlrenderWebkitHeadless — система рендеринга для страниц JavaScript.

Обработка

  • LinkExtractor — Извлекает ссылки из страниц.
  • WebMirror — Система управления канонизацией и дублированием.

Ранжирование

  • Mustang — основная система оценки, ранжирования и обслуживания сайтов.
  • Ascorer — основной алгоритм ранжирования
  • NavBoost — система повторного ранжирования, основанная на журналах кликов и поведении пользователей.
  • FreshnessTwiddler — система ранжирования документов на основе их свежести.
  • WebChooserScorer — определяет названия объектов, используемых при скоринге сниппетов.

Обслуживание

  • Google Web Server (GWS) — это сервер, с которым взаимодействует фронтенд Google. Он получает данные для отображения пользователю.
  • SuperRoot — это мозг Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов.
  • SnippetBrain — система, генерирующая сниппеты для поисковых результатов.
  • Glue — Система для объединения универсальных результатов с учетом поведения пользователей.
  • Cookbook — система для генерации сигналов.

Что такое Твиддлеры?

Твиддлеры — это функции повторного ранжирования, которые начинают работать после выполнения основного алгоритма ранжирования — Ascorer. Твиддлеры могут корректировать оценку информационного поиска документа или изменять его рейтинг, а также вводить определенные ограничения по категориям.

Предположительно, любая из функций с суффиксом Boost работает с использованием фреймворка Twiddler. Вот некоторые Boosts, описанные в документации:

  • NavBoost
  • QualityBoost
  • RealTimeBoost
  • WebImageBoost 

Изложенные выше факторы, показывают, как именно Google ранжирует сайты. Стоит отметить, что информация может пополняться новыми данными, так как документация совсем недавно появилась в сети и детально изучается специалистами.

CPARIP


Like it? Share with your friends!
0 Комментариев
Партнерка - Наша оценка
Вертикали
Мин. сумма
Сайт
Vavadapart обзор
Партнёрская программа онлайн-казино Vavada. Это прямой рекламодатель. На рынке с 2017 года. Сотрудничают по RevShare (до 50%) и CPA.
1000 рублей/$20/€20 выплата
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
Наша партнерская программа c офферами по Gambling и Betting вертикалям. Выплаты в день запроса от $20.
$20 выплата
фото
806 шт
Перейти к офферам
V.Partners обзор
Прямой рекламодатель популярных в Европе казино и беттинг брендов: Vulkan Vegas, ICE Casino, VERDE Casino, Vulkan Bet и Hit'N'Spin. Партнерка основана в 2016 году. Работают по СРА, RevShare, Hybrid и принимают трафик с более чем 55 стран.
€100 выплата
фото
фото
фото
фото
фото
фото