В сеть утекло более 2 500 страниц алгоритма работы поисковика Google. Он противоречит публичным заявлениям компании и сортирует сайты по «авторитету»

У Google произошла крупная утечка данных, в результате которой достоянием общественности стали более 2500 страниц внутренней документации компании. Содержание документов показывает закулисное устройство поискового алгоритма Google. Информацию об этом передаёт платформа SparkToro.

Google — крупнейшая поисковая система в мире, контролирующая подавляющую часть поискового трафика, проходящего через Интернет. Вместо того, чтобы напрямую обнародовать алгоритмы поисковой системы, компания публиковала рекомендации по содержанию для сайтов.

Google всегда настоятельно советовал создавать «контент, ориентированный на людей», то есть контент для конечных пользователей, а не контент для поисковой системы. Компания предлагала оставить тяжелую работу по ранжированию алгоритмов поиска и просто сосредоточиться на создании контента.

При этом на протяжении многих лет владельцы веб-сайтов жаловались, что их трафик снижается, несмотря на соблюдение всех передовых методов создания «ориентированного на людей» контента, опубликованных в рекомендациях компании.

Как утверждается в отчёте SparkToro, документация компании случайно попала на GitHub в марте 2024 года, однако вскоре была удалена. При этом сохранённые копии v0.4.0 и v0.5.0 google_api_content_warehouse можно обнаружить на Hexdocs.

Рэнд Фишкин и другие эксперты из SparkToro, которые ознакомились с информацией, утверждают, что она показывает — компания не была полностью честна в вопросах о том, как работает её поисковый алгоритм. По их мнению, компания намеренно скрывала некоторые аспекты с целью ввести в заблуждение конкурирующие друг c другом сайты.

Утечка якобы проливает свет на данные, собираемые Google, предпочтения в ранжировании сайтов по чувствительным темам, и особенности работы с небольшими сайтами. Данные из браузера Chrome упоминаются в контексте создания дополнительных ссылок для сайтов, хотя ранее Google утверждала, что Chrome не используется для ранжирования страниц.

Google также неоднократно отрицал использование метрики «авторитет домена» для измерения значимости сайта. Однако утёкшие документы подтверждают существование внутренней метрики «siteAuthority», используемой компанией.

Слитая документация также поднимает вопрос о роли метрики E-E-A-T (опыт, экспертиза, авторитетность и надёжность) в ранжировании. Google заявляла, что эта метрика не является фактором ранжирования, однако в документах она фигурирует.

E-E-A-T позволяет понижать выдачу при ссылках на нерелевантный сайту контент, отсутствие привязки по геолокации, а также при публикации сомнительного контента. Эксперты рассказали, что Google собирает данные об авторе со страницы и верифицирует его. Не факт, что авторство играет роль в ранжировании, однако Google, по крайней мере, отслеживает этот атрибут.

Несколько бывших сотрудников Google сообщили, что код и документация очень похожи на настоящие. Эту же информацию подтвердил и Майк Кинг, основатель iPullRank, и один из ведущих технических специалистов по поисковой оптимизации в мире.

«“Лгали” — резко, но это единственное верное слово, которое здесь можно использовать», — заявил Майк Кинг в своём обзоре.

Вместе с тем эксперт по цифровому маркетингу Роджер Монтти заявил, что «нет веских доказательств того, что эти "утёкшие" данные взяты из Google Search». По его мнению, есть вероятность того, что эти данные представляют собой всего лишь «внешний API для создания хранилища документов» и никак не связаны с тем, как веб-сайты ранжируются в поиске Google.

Google пока не прокомментировала утечку и не подтвердила подлинность документов. Как отмечается, в свете антимонопольного дела, заведённого против Google в США, эта информация может стать важной частью доказательной базы, раскрывающей внутренние процессы компании.