ОСНОВНОЕ

WORDPRESS

Операционные системы

Базы данных

Фреймворк Bootstrap

Листьям в дубравах древесных подобны сыны человеков (Гомер).

Мы фанаты машинного обучения. Часть 3.

FavoriteLoadingДобавить в избранное
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Пост опубликован: 20 июня 2013

Яндекс новости

Мы фанаты машинного обучения. Часть 2.

Как выглядит пользователь для «Яндекса»? Это просто набор запросов, посещенных сайтов и тому подобного или же это что-то вроде «мужчина от 20 до 30, неженатый, любящий котиков»?

На самом деле и то, и другое. Что касается социальной демографии, то для нее была разработана технология «Крипта». Она основана на том же машинном обучении «Матрикснет», о котором мы говорили ранее. В качестве обучающей выборки использовались поисковые запросы миллиона людей из «Моего круга», где мы знаем пол и возраст человека и эти данные с большой вероятностью соответствуют действительности.

«Крипта» позволяет с неплохим результатом предсказывать пол и возраст человека, и это важно для рекламы, где она и используется. Но каким-то чудесным образом вся эта социальная демография не очень помогает ранжированию. История запросов оказывается здесь гораздо важнее. Она во много раз больше говорит о том, что человек сейчас хочет, чем его пол и возраст.

Очень показательные примеры мы видели с путешествиями. Если, например, человек некоторое время ищет слова «Турция», «Тунис», то потом машина понимает, что при запросе «Мадагаскар» он имеет в виду не фильм, а остров. Все потому, что словам из запроса сопоставляются некие категории в дереве «Матрикснета». С этой точки зрения пользователь «Яндекса» выглядит как разреженное пространство из слов запроса, категорий сайтов, которые он посещал.

Вы недавно запустили технологию так называемой мгновенной персонализации, когда история запросов влияет на ранжирование в пределах одной сессии. Вообще, как соотносится ширина временного окна с релевантностью?

Точно мы этого не знаем, но, по нашим оценкам, 30 процентов профита от персонализации дает учет «длинной» истории поиска, а 70 процентов —учет короткой истории, в пределах одного дня.

Вообще, в исторической перспективе, как менялось качество поиска, если посмотреть на большие времена, скажем, на 10 лет. Были ли в нем, например, всплески, связанные с введением новых технологий?

Качество поиска в человеческом понимании этого словосочетания и у нас, и в мире постоянно растет. Но это плавный рост, никаких особенных всплесков в нем нет. Связано это с тем, что качество прежде всего зависит от наличия в интернете той информации, которую ищет пользователь. Интернет растет, информации становится больше, вместе с ним растет и качество. Я думаю, за последние пять лет даже без учета улучшения технологии поиска значительно выросла вероятность того, что ответ на вопрос пользователя найдется в интернете. Качество самого алгоритма работы поисковых машин тоже растет. У кого-то быстрее, у кого-то чуть медленнее. Но у нас быстрее (смеется).

А нет ли тут эффекта вычерпывания: с каждым разом простых способов улучшения качества поиска становится все меньше и меньше.

Модели, конечно, стали гораздо более сложными, и то, что раньше нам казалось чем-то из ряда вон, сейчас делают стажеры на полставки. Тем не менее каким-то чудесным образом темп роста удается выдерживать. Мы постоянно вносим новые факторы и одновременно с этим совершенствуем систему машинного обучения. Сочетание того и другого дает постоянный рост — с 2011 года, например, качество поиска росло вообще почти линейно. В 2009 году было исключение, заметный скачок, связанный с внедрением «Матрикснета».

Если смотреть на большие времена, то надо понимать, что и само понимание качества поиска и качества ранжирования сильно меняется.

То есть факторы ранжирования, которые вы находите, имеют весьма ограниченный срок годности?

Конечно. Например, существуют поисковые оптимизаторы, люди, которые пытаются обмануть поисковую машину и поднять определенный URL в выдаче. У нас есть целый отдел для борьбы с таким явлением. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла.

Но главное — что мир меняется, потребности людей сильно меняются. Хорошее ранжирование по сложной формуле образца 2013 года будет плохим для пользователя образца 2005 года. Достаточно сравнить то, как в последние годы поменялись запросы вроде «приложения для телефона». Пользователи меняются, им нужно разное, поэтому и ранжирование будет разным.

Предыдущие части:


Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Читайте также

Простая логическая игра "Поймай кота". Задача игры окружить кота точками так, чтобы он не смог убежать с поля. Постигла неудача - начни игру снова!

Заполните форму и наш менеджер перезвонит Вам в самое ближайшее время!

badge
Обратный звонок 1
Отправить
galka

Спасибо! Ваша заявка принята

close
galka

Спасибо! Ваша заявка принята

close