Нашел интересный сайт, на котором можно найти много интересных книг по Data Mining и CS.
Конкурс Netflix Prize был объявлен почти три года назад. Задача состояла в предсказании рейтингов оценки фильмов пользователями на основании известной истории оценок. Точность предсказания оценивалась по алгоритму RMSE. Исходная выборка была разделена на 3 части – обучающая, квалификационная (Quiz) и тестовая. Обучающая выборка была доступна конкурсантам. Значение функционала на квалификационной публиковалось на сайте конкурса после сабмита результата. Тестовая же выборка предназначена для подведения итогов для соревнования и значение функционалов на ней недоступно для участников. Это сделано для того, чтобы нельзя было обучаться на ответах. Интересно, что дальше? »
Яндекс объявил конкурс по решению задачи ранжирования документов методами Machine Learning.
Подробное описание задачи и данные можно взять на странице конкурса.
ИМХО, задачу можно рассматривать как регрессию или классификацию на 2 класса (хороший/плохой).
Говорят, что на прошедшей выставке MacWorld была представлена обновленная версия программы iPhoto, в которой появилась функция классификации изображений по изображенным на них людяи. Насколько я понял из публикаций (честно, я могу ошибаться, я не изучал досконально этот вопрос по первоисточникам, но вроде так), работает она как классификатор с дообучением. Программа обучается на уже отмеченных фотографиях и делает попытку определить, кто находится на новой фотографии. После решения пользователя о корректности определения новый прецедент пополняет обучающую совокупность. Построенную таксономию можно использовать как дополнительный индекс в поиске (например, поиск по людям или все фото с таким-то человеком).
Кто-нибудь знает подобную прогамму или сервис, но не Маковский?
Мне навскидку в голову приходит только Flickr, но там делается подсказка тегов. На эту тему у них даже был доклад Flickr Tag Recommendation based on Collective Knowledge на WWW2008.
В преддверии выборов в США Microsoft Live Labs выпустила продукт Political Streams. Судя по веб-адресу, это только первый продукт из целой линейки. Сейчас он умеет выделять из потока новостей политические, а из их содержания выделять дискусии политиков и показывать соответствующие тренды. Кроме самих политиков, он выделяет места, которые упоминаются в новостях. Кроме того, рядом с новостью он может показыватьдополнительную информацию, агрегированную из других источников.
Разгребая RSS ленту, наткнулся на очень интересную статью от сотрудников Yahoo! Research. В статье Bo Pang и Lillian Lee “A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts” делается попытка распознать отношение автора кусочка текста (например, комментария в блоге или рецензии к фильму) к анализируемому объекту. Отношение является бинарным: либо нравится, либо не нравится. Интересно, что дальше? »
между прочим, эта глубокая мысль – начало аннотации к статье David Vengerov “Stock Market Pattern Recognition with Neural Networks”.
В блоге Data Mining: Text Mining, Visualization and Social Media, который ведет Matthew Hurst, исследователь в Microsoft’s Live Labs и сооснователь BlogPulse (один из сервисов Яндекса удивительным образом похож на него даже названием:)) опубликована статья об актуальных задачах, связанных с поиском и блогами. Статья предназначена для доклада на конференции ACM по Information and Knowledge Management.
В статье подчеркивается, что сейчас в этой области можно выделить три основных задачи:
- Find out what are people thinking or feeling about X
over time. //По-русски говоря, анализ отношения к какому-то объекту (например, продукту) с течением времени. Выделение из текстов отношения к описываемому.- Find good blogs/authors to read. //Кто бы мог подумать? Да ведь это же наша задача, наш проект! Вывод – потенциальный конкурент становится явным.
- Find useful information that was published in blogs sometime in the past. //По сути, поиск по архиву записей.
Грег Линден в своем дневнике опубликовал ссылку на статью с конференции WWW 2008. Статья “Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph” (PDF) описывает новый рекомендательный алгоритм, который анализирует все дерево просмотра YouTube пользователями и в соответствии с этим предлагает пользователю потенциально интересные видео.
Создатели алгоритма указывают, что их задача сильно отличается от задачи NetFlix. В их случае число items намного больше, а матрица еще более разрежена. И алгоритм заточен под эту особенность.
В настоящее время они исследуют применимость алгоритма для смежных областей: направленная реклама, подбор товаров, подбор меток для изображений и выделение трендов в потоке новостей.
Видимо, этот алгоритм и положен в основу недавно запущенного на YouTube алгоритма поиска рекомендаций.
Recent Comments