Назад

Особенности алгоритма Яндекса Королев

В конце августа Яндекс провел презентацию нового алгоритма. Он стал первым алгоритмом российского поисковика, который использует по-настоящему мощные нейронные сети для определения семантических настроек документов. На презентации, состоявшейся в Московском планетарии, многие отметили, что Королев во многом напоминает алгоритм Палех. Разве что, у него больше возможностей для анализа из-за развитой НС.

Принцип работы алгоритма Королев

Сначала система анализирует семантические векторы новой страницы и документов на сайте. Затем Яндекс сохраняет эти данные в отдельном индексе. Когда пользователь создает поисковый запрос в системе, он также анализируется яндексом по семантическим векторам. Затем показатели запроса сопоставляются с показателями сайтов и в выдачу попадают те страницы и документы, которые подходят лучшим образом.

Принципиальные отличия от Палеха

Спустя месяц стало очевидно, что в основе нового алгоритма заложена система Палех, представленная около года назад. Однако Королев существенно обходит предшественника по вычислительным мощностям. Например, Палех мог анализировать данные только в заголовках страницы, а само сопоставление данных проходило на последней стадии ранжирования. При этом в индекс попадало около 150-170 документов.

Королев может вычислять семантические векторы уже на стадии индексирования и обрабатывать более 200 000 документов/страниц на один запрос пользователя. Далее все результаты хранятся в поисковом индексе.

Поменялась и сама архитектура нейронной сети. Так, для Палеха использовалась трехуровневая нейронная сеть. На каждом скрытом уровне находилось по 150, 300 и 300 нейронов. Нейронная сеть Королева построена по клиновидной архитектуре. На каждом уровне при этом есть 500, 500 и 40 нейронов. Благодаря этому вычислительные ресурсы стали использоваться намного эффективнее.

Пользовательские сигналы и Королев

В начале 2017 года Яндекс начал с особым трепетом относиться к накрутке поведенческих факторов и после первой волны проверки под санкции попали 300 сайтов. И это неспроста, ведь новый алгоритм считает пользовательские сигналы важным критерием для ранжирования.

Алгоритм будет отслеживать поведение пользователя после перехода на сайт, анализировать время, проведенное на ресурсе, среднее время пребывания на странице. Яндекс берет в учет и другие данные, если на сайте установлена система статистики. Кроме того, Королев берет в учет пользовательские оценки, которые выставляются в системе Яндекс. Толока. Это ресурс, где простые пользователи оценивают качество сайта за небольшое вознаграждение.