Конкурс Netflix Prize был объявлен почти три года назад. Задача состояла в предсказании рейтингов оценки фильмов пользователями на основании известной истории оценок. Точность предсказания оценивалась по алгоритму RMSE. Исходная выборка была разделена на 3 части – обучающая, квалификационная (Quiz) и тестовая. Обучающая выборка была доступна конкурсантам. Значение функционала на квалификационной публиковалось на сайте конкурса после сабмита результата. Тестовая же выборка предназначена для подведения итогов для соревнования и значение функционалов на ней недоступно для участников. Это сделано для того, чтобы нельзя было обучаться на ответах. Интересно, что дальше? »
Говорят, что на прошедшей выставке MacWorld была представлена обновленная версия программы iPhoto, в которой появилась функция классификации изображений по изображенным на них людяи. Насколько я понял из публикаций (честно, я могу ошибаться, я не изучал досконально этот вопрос по первоисточникам, но вроде так), работает она как классификатор с дообучением. Программа обучается на уже отмеченных фотографиях и делает попытку определить, кто находится на новой фотографии. После решения пользователя о корректности определения новый прецедент пополняет обучающую совокупность. Построенную таксономию можно использовать как дополнительный индекс в поиске (например, поиск по людям или все фото с таким-то человеком).
Кто-нибудь знает подобную прогамму или сервис, но не Маковский?
Мне навскидку в голову приходит только Flickr, но там делается подсказка тегов. На эту тему у них даже был доклад Flickr Tag Recommendation based on Collective Knowledge на WWW2008.
В блоге Data Mining: Text Mining, Visualization and Social Media, который ведет Matthew Hurst, исследователь в Microsoft’s Live Labs и сооснователь BlogPulse (один из сервисов Яндекса удивительным образом похож на него даже названием:)) опубликована статья об актуальных задачах, связанных с поиском и блогами. Статья предназначена для доклада на конференции ACM по Information and Knowledge Management.
В статье подчеркивается, что сейчас в этой области можно выделить три основных задачи:
- Find out what are people thinking or feeling about X
over time. //По-русски говоря, анализ отношения к какому-то объекту (например, продукту) с течением времени. Выделение из текстов отношения к описываемому.- Find good blogs/authors to read. //Кто бы мог подумать? Да ведь это же наша задача, наш проект! Вывод – потенциальный конкурент становится явным.
- Find useful information that was published in blogs sometime in the past. //По сути, поиск по архиву записей.
Грег Линден в своем дневнике опубликовал ссылку на статью с конференции WWW 2008. Статья “Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph” (PDF) описывает новый рекомендательный алгоритм, который анализирует все дерево просмотра YouTube пользователями и в соответствии с этим предлагает пользователю потенциально интересные видео.
Создатели алгоритма указывают, что их задача сильно отличается от задачи NetFlix. В их случае число items намного больше, а матрица еще более разрежена. И алгоритм заточен под эту особенность.
В настоящее время они исследуют применимость алгоритма для смежных областей: направленная реклама, подбор товаров, подбор меток для изображений и выделение трендов в потоке новостей.
Видимо, этот алгоритм и положен в основу недавно запущенного на YouTube алгоритма поиска рекомендаций.
Recent Comments