Мы фанаты машинного обучения. Часть 3.

Время чтения: 4 мин.

Как выглядит пользователь для «Яндекса»? Это просто набор запросов, посещенных сайтов и тому подобного или же это что-то вроде «мужчина от 20 до 30, неженатый, любящий котиков»?

На самом деле и то, и другое. Что касается социальной демографии, то для нее была разработана технология «Крипта». Она основана на том же машинном обучении «Матрикснет», о котором мы говорили ранее. В качестве обучающей выборки использовались поисковые запросы миллиона людей из «Моего круга», где мы знаем пол и возраст человека и эти данные с большой вероятностью соответствуют действительности.

«Крипта» позволяет с неплохим результатом предсказывать пол и возраст человека, и это важно для рекламы, где она и используется. Но каким-то чудесным образом вся эта социальная демография не очень помогает ранжированию. История запросов оказывается здесь гораздо важнее. Она во много раз больше говорит о том, что человек сейчас хочет, чем его пол и возраст.

Очень показательные примеры мы видели с путешествиями. Если, например, человек некоторое время ищет слова «Турция», «Тунис», то потом машина понимает, что при запросе «Мадагаскар» он имеет в виду не фильм, а остров. Все потому, что словам из запроса сопоставляются некие категории в дереве «Матрикснета». С этой точки зрения пользователь «Яндекса» выглядит как разреженное пространство из слов запроса, категорий сайтов, которые он посещал.

Вы недавно запустили технологию так называемой мгновенной персонализации, когда история запросов влияет на ранжирование в пределах одной сессии. Вообще, как соотносится ширина временного окна с релевантностью?

Точно мы этого не знаем, но, по нашим оценкам, 30 процентов профита от персонализации дает учет «длинной» истории поиска, а 70 процентов —учет короткой истории, в пределах одного дня.

Вообще, в исторической перспективе, как менялось качество поиска, если посмотреть на большие времена, скажем, на 10 лет. Были ли в нем, например, всплески, связанные с введением новых технологий?

Качество поиска в человеческом понимании этого словосочетания и у нас, и в мире постоянно растет. Но это плавный рост, никаких особенных всплесков в нем нет. Связано это с тем, что качество прежде всего зависит от наличия в интернете той информации, которую ищет пользователь. Интернет растет, информации становится больше, вместе с ним растет и качество. Я думаю, за последние пять лет даже без учета улучшения технологии поиска значительно выросла вероятность того, что ответ на вопрос пользователя найдется в интернете. Качество самого алгоритма работы поисковых машин тоже растет. У кого-то быстрее, у кого-то чуть медленнее. Но у нас быстрее (смеется).

А нет ли тут эффекта вычерпывания: с каждым разом простых способов улучшения качества поиска становится все меньше и меньше.

Модели, конечно, стали гораздо более сложными, и то, что раньше нам казалось чем-то из ряда вон, сейчас делают стажеры на полставки. Тем не менее каким-то чудесным образом темп роста удается выдерживать. Мы постоянно вносим новые факторы и одновременно с этим совершенствуем систему машинного обучения. Сочетание того и другого дает постоянный рост — с 2011 года, например, качество поиска росло вообще почти линейно. В 2009 году было исключение, заметный скачок, связанный с внедрением «Матрикснета».

Если смотреть на большие времена, то надо понимать, что и само понимание качества поиска и качества ранжирования сильно меняется.

То есть факторы ранжирования, которые вы находите, имеют весьма ограниченный срок годности?

Конечно. Например, существуют поисковые оптимизаторы, люди, которые пытаются обмануть поисковую машину и поднять определенный URL в выдаче. У нас есть целый отдел для борьбы с таким явлением. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла.

Но главное — что мир меняется, потребности людей сильно меняются. Хорошее ранжирование по сложной формуле образца 2013 года будет плохим для пользователя образца 2005 года. Достаточно сравнить то, как в последние годы поменялись запросы вроде «приложения для телефона». Пользователи меняются, им нужно разное, поэтому и ранжирование будет разным.

Предыдущие части:

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Просмотров поста: 28

Редактор: AndreyEx

Рейтинг: 4 (1 голос)

Поделиться в соц. сетях:

Тэги: Категории: НовостиIT

Мы фанаты машинного обучения. Часть 2.

Негативные ключевые слова

Оставить комментарий Отменить ответ

Обзоры

Рекомендуем

Обзоры

Популярное

Рекомендуем

Thanks!

Our editors are notified.