Принципы работы алгоритмов Google Поиска

При том огромном объеме информации, который есть в Интернете, находить нужные сведения практически нереально без какого-то решения, которое помогало бы упорядочить их. Чтобы пользователи за доли секунды получали актуальные и полезные результаты, инструменты ранжирования Google упорядочивают сотни миллиардов страниц в поисковом индексе.

Эти системы ранжирования включают целый ряд алгоритмов. Чтобы дать вам наиболее полезную информацию, они учитывают множество факторов, включая ваш поисковый запрос, релевантность и удобство найденных страниц, их надежность, а также ваше местоположение и настройки. Вес каждого фактора варьируется в зависимости от характера вашего запроса. Например, дате публикации контента придается большее значение, когда вы ищете актуальные новости, и меньшее, если вас интересует определение из словаря.

Чтобы алгоритмы поиска отвечали самым высоким стандартам, мы придерживаемся установленной процедуры онлайн-тестирования, к которому привлекаются тысячи сторонних специалистов по оценке качества результатов поиска, представляющие разные страны и прошедшие дополнительную подготовку. Они следуют точным инструкциям, которые отражают наши цели в отношении поисковых алгоритмов и доступны для ознакомления всем желающим.

Ниже приведены дополнительные сведения о ключевых факторах, от которых зависят результаты поиска.

  • Анализ слов и выражений

    Анализ слов и выражений

    Чтобы подобрать страницы, содержащие релевантные сведения, прежде всего необходимо проанализировать значение слов в запросе. Мы разрабатываем языковые модели, позволяющие определять, какие сочетания слов следует искать в индексе.

    Для этого выполняется ряд действий – от интерпретации орфографических ошибок до определения типа введенного запроса на основе результатов последних исследований в области понимания естественного языка. Например, даже если у введенного вами слова несколько значений, Google Поиск определит верное. Это стало возможным благодаря специальной системе синонимов, которая создавалась пять лет и позволяет существенно увеличить качество результатов по более чем 30% запросов на разных языках.

    Мы также стремимся понять, какого рода сведения ищет пользователь. Нужна ли ему особая или, наоборот, расхожая информация? Содержит ли запрос слова, позволяющие заключить, что пользователю требуются сведения определенного типа, например "обзор", "изображения" или "часы работы"? Ввел ли пользователь популярные ключевые слова, указывающие на то, что его интересуют последние новости? Хочет ли он узнать адрес магазина, заведения или отделения компании в своем городе?

    Классифицируя запросы таким образом, мы уделяем особое внимание тому, важна ли пользователю актуальность контента. Если выполнить поиск по популярным на текущий момент ключевым словам, то наши специальные алгоритмы будут считать приоритетной актуальную информацию. Другими словами, если вы введете запрос "матчи Лиги Европы УЕФА", "шоу ледниковый период" или "доходы газпрома", то увидите последние новости.

  • Подбор подходящих страниц

    Подбор подходящих страниц

    Затем мы подбираем страницы, содержащие информацию, которая соответствует запросу. Обычно, когда пользователь вводит запрос, наши алгоритмы ищут в индексе подходящие страницы, а также определяют, как часто ключевые слова встречаются на странице и в каких ее разделах (например, в заголовке или основном тексте).

    О релевантности информации в первую очередь говорит наличие на странице тех же ключевых слов, что и в поисковом запросе. Если они действительно есть, например в заголовках или основном тексте, значит информация с большей вероятностью соответствует введенному запросу. В дополнение к этому релевантность оценивается на основе обобщенных и анонимизированных данных о том, как пользователи взаимодействуют с результатами поиска. Мы преобразовываем эти данные в сигналы, которые позволяют нашим алгоритмам, использующим машинное обучение, лучше справляться с такой оценкой.

    Наши алгоритмы не только сопоставляют ключевые слова, но и определяют, насколько полная информация содержится в предполагаемых результатах поиска. Например, пользователя, указавшего запрос "собаки", вряд ли интересует страница, в которой сотни раз повторяется это слово. Мы стараемся убедиться в том, что та или иная страница содержит сведения по запросу, а не просто дублирует его. Так, алгоритмы Поиска определят, представлен ли на страницах нужный контент, например изображения собак, видео с их участием или список пород. Наконец, пользователю в первую очередь будут показаны страницы на том же языке, на котором введен запрос.

    Обратите внимание, что при оценке релевантности наши системы учитывают только сигналы на основе измеримых объективных характеристик, к которым не относятся выраженные на странице взгляды, политические предпочтения и т. д.

  • Ранжирование релевантных страниц

    Ранжирование релевантных страниц

    В большинстве случаев информацию, которая соответствует запросу, содержат тысячи или даже миллионы страниц. Мы разрабатываем алгоритмы, позволяющие оценивать релевантность страниц, чтобы наиболее подходящие из них показывались первыми.

    Чтобы предоставлять наиболее актуальную информацию, эти алгоритмы оценивают сотни самых разных факторов – от новизны контента и количества повторов запроса до удобства просмотра страницы. Для выявления источников достоверных и актуальных сведений по той или иной теме мы отслеживаем наиболее популярные ресурсы среди пользователей, указывающих похожие запросы. Если на страницу ссылаются авторитетные в своей области сайты, это означает, что на ней вероятно представлен качественный контент.

    В Интернете существует множество сайтов, содержащих спам. Их владельцы стараются обеспечить для них высокие позиции в результатах поиска, используя различные способы, такие как повтор ключевых слов и покупка ссылок, которые учитываются системой PageRank. Поскольку большинство подобных мошеннических или опасных сайтов не приносят посетителям никакой пользы, мы разрабатываем алгоритмы, позволяющие выявлять спам и исключать из результатов поиска сайты, нарушающие рекомендации для веб-мастеров.

    Контент в Интернете и информационная экосистема в целом непрерывно меняются, поэтому мы снова и снова оцениваем работу своих алгоритмов, чтобы поддерживать равновесие между релевантностью и надежностью информации и не терять ваше доверие.

  • Показ наиболее подходящих результатов

    Показ наиболее подходящих результатов

    Прежде чем показывать результаты поиска, мы оцениваем всю найденную информацию в комплексе. Это позволяет определить, идет ли речь об одной теме или нескольких и не относится ли большинство страниц к чрезмерно узкой трактовке поискового запроса. Мы стремимся предоставлять пользователям разнообразную информацию в наиболее удобной для них форме. По мере развития Интернета мы оптимизируем свои системы ранжирования так, чтобы результаты по максимальному числу запросов были как можно более релевантными.

    Эти алгоритмы определяют, все ли пользователи могут перейти на сайт, в частности нормально ли он работает в разных браузерах, подходит ли для просмотра на устройствах всех типов и размеров, включая компьютеры, планшеты и смартфоны, и достаточно ли быстро загружаются страницы при низкой скорости подключения к Интернету.

    Поскольку владельцам сайтов под силу улучшить свои страницы, мы стараемся заранее информировать разработчиков о важных изменениях в алгоритмах Поиска, чтобы они успели принять необходимые меры. Например, в январе 2018 года мы сообщили о том, что собираемся ввести новый критерий – скорость загрузки страниц. Тогда до реализации этого изменения ещё оставалось шесть месяцев. Мы предоставили в помощь владельцам сайтов подробные руководства и необходимые инструменты, такие как PageSpeed Insights и WebPagetest. В результате владельцы получили возможность узнать, нужно ли им дополнительно оптимизировать свои сайты для мобильных устройств, и если да, то как.

    Подробнее об инструментах и рекомендациях от Google

  • Учет сведений о пользователях

    Учет сведений о пользователях

    Чтобы предоставлять пользователям наиболее подходящую и актуальную информацию, мы учитываем сведения об их местоположении, предыдущих запросах, настройках Google Поиска и т. д.

    Мы показываем результаты поиска, исходя из сведений о стране и местоположении пользователей. Например, если житель Чикаго вводит запрос "футбол", ему в первую очередь будут показаны сведения об американском футболе и клубе "Чикаго Беарз". Если же запрос "футбол" указывает пользователь из Москвы, на более высоких позициях окажутся результаты, связанные с обычным футболом и Российской футбольной премьер-лигой. Кроме того, при подборе наиболее подходящих результатов учитываются настройки Поиска, в частности язык и использование Безопасного поиска (этот инструмент позволяет исключать откровенные результаты).

    В некоторых случаях мы учитываем историю поиска пользователей, чтобы предоставлять им персонализированные результаты. Например, если вы ранее вводили запрос "Ростов против Спартака", а затем указали "Ростов", вероятно, вам нужны сведения не о городе, а о футбольном клубе. Чтобы указать, какие сведения из вашей истории поиска мы можем использовать и какие данные могут сохраняться в вашем аккаунте Google, перейдите на страницу myaccount.google.com.

    Некоторые функции Поиска также дают возможность персонализировать результаты на основе данных о действиях пользователя в аккаунте Google. Так, по запросу "мероприятия рядом" могут быть показаны те мероприятия, которые относятся к потенциально интересным вам категориям. При этом наши алгоритмы не определяют расу пользователя, его религию, принадлежность к политической партии и прочие признаки, раскрытие которых нежелательно.

    Чтобы указать, какие сведения из вашей истории поиска мы можем использовать и какие данные могут сохраняться в вашем аккаунте Google, перейдите на страницу myaccount.google.com. Если вы хотите отказаться от персонализации результатов с учетом действий в аккаунте, отключите функцию "История приложений и веб-поиска".