Методы коллаборативной фильтрации и тематического моделирования

Save this PDF as:
 WORD  PNG  TXT  JPG

Размер: px
Начинать показ со страницы:

Download "Методы коллаборативной фильтрации и тематического моделирования"

Транскрипт

1 Методы коллаборативной фильтрации и тематического моделирования К. В. Воронцов Этот курс доступен на странице вики-ресурса «Машинное обучение (курс лекций, К.В.Воронцов)» ноябрь 2011 К. В. Воронцов Методы коллаборативной фильтрации 1 / 38

2 Содержание Постановка задачи и приложения 1 Постановка задачи и приложения Постановка задачи Примеры приложений Модели коллаборативной фильтрации 2 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости 3 К. В. Воронцов Методы коллаборативной фильтрации 2 / 38

3 Определения и обозначения Постановка задачи Примеры приложений Модели коллаборативной фильтрации U множество субъектов (клиентов, пользователей: users); R множество объектов (ресурсов, товаров, предметов: items); Y пространство описаний транзакций; D = (u i,r i,y i ) m i=1 U R Y транзакционные данные; Агрегированные данные: F = f ur матрица кросс-табуляции размера U R, где f ur = aggr { (u i,r i,y i ) D u i = u, r i = r } Задачи: прогнозирование незаполненных ячеек f ur ; оценивание сходства: ρ(u,u ), ρ(r,r ), ρ(u,r); одновременная кластеризация множеств U и R; выявление латентных интересов p(t u), q(t r) относительно заданного либо неизвестного набора тем t = 1,...,T. К. В. Воронцов Методы коллаборативной фильтрации 3 / 38

4 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 1. Рекомендательная система по посещениям U пользователи Интернет; R ресурсы (сайты, страницы, документы, новости, и т.п.); f ur = [пользователь u посетил ресурс r]; Основная гипотеза Web Usage Mining: Действия (посещения) пользователя характеризуют его интересы, вкусы, привычки, возможности. Задачи персонализации предложений: выдать оценку ресурса r для пользователя u; выдать пользователю u ранжированный список рекомендуемых ресурсов; построить список ресурсов, близких к ресурсу r. К. В. Воронцов Методы коллаборативной фильтрации 4 / 38

5 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 2. Рекомендательная система по покупкам U клиенты интернет-магазина (amazon.com и др.); R товары (книги, видео, музыка, и т.п.); f ur = [клиент u купил товар r]; Задачи персонализации предложений: выдать оценку товара r для клиента u; выдать клиенту u список рекомендуемых товаров; предложить скидку на совместную покупку (cross-selling); информировать клиента о новом товаре (up-selling); сегментировать клиентскую базу; выделить интересы клиентов (найти целевые аудитории). К. В. Воронцов Методы коллаборативной фильтрации 5 / 38

6 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 3. Рекомендательная система на основе рейтингов U клиенты интернет-магазина (netflix.com и др.); R товары (книги, видео, музыка, и т.п.); f ur = рейтинг, который клиент u выставил товару r; Задачи персонализации предложений те же. Пример: конкурс Netflix [www.netflixprize.com] 2 октября сентября 2009; главный приз $10 6 ; U = ; R = ; 10 8 рейтингов {1,2,3,4,5}; точность прогнозов оценивается по тестовой выборке D : RMSE 2 = 1 D (u,r) D ( fur ˆf ur ) 2; задача: уменьшить RMSE c до (на 10%). К. В. Воронцов Методы коллаборативной фильтрации 6 / 38

7 Пример 4. Анализ текстов Постановка задачи Примеры приложений Модели коллаборативной фильтрации U текстовые документы (статьи, новости, и т.п.); R ключевые слова или выражения; f ur = частота встречаемости слова r в тексте u. Задачи тематического моделирования (topic modeling): по тексту r найти тексты близкой тематики; кластеризовать тексты по темам; определить число тем (кластеров) в коллекции; построить иерархический каталог тем; определить, на какие подтемы разбивается каждая тема; проследить динамику развития темы во времени; найти публикации, авторов, организации, журналы, конференции по теме. К. В. Воронцов Методы коллаборативной фильтрации 7 / 38

8 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Два основных подхода в коллаборативной фильтрации 1 (Memory-Based Collaborative Filtering) хранение всей исходной матрицы данных F; сходство клиентов это корреляция строк матрицы F; сходство объектов это корреляция столбцов матрицы F. 2 (Latent Models for Collaborative Filtering) оценивание профилей клиентов и объектов (профиль это вектор скрытых характеристик); хранение профилей вместо хранения F; сходство клиентов и объектов это сходство их профилей. Подборки статей по коллаборативной фильтрации: jamesthornton.com/cf ict.ewi.tudelft.nl/ jun/collaborativefiltering.html К. В. Воронцов Методы коллаборативной фильтрации 8 / 38

9 Тривиальная рекомендательная система Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, купившие r 0, также покупали R(r 0 )» [Amazon.com] u 0 { U(r 0 ) U r 0 R(r 0 ) R 1 U(r 0 ) := { u U } f ur0, u u 0 коллаборация; { 2 R(r 0 ) := r R B(r) = U(r 0) U(r) U(r 0 ) U(r) }, > 0 где B(r) одна из возможных мер близости r к r 0 ; 3 отсортировать R(r 0 ) по убыванию B(r), взять topn. К. В. Воронцов Методы коллаборативной фильтрации 9 / 38

10 Тривиальная рекомендательная система Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, купившие r 0, также покупали R(r 0 )» [Amazon.com] Недостатки: U рекомендации тривиальны (предлагается всё наиболее популярное); u 0 { U(r 0 ) r 0 R(r 0 ) не учитываются интересы конкретного пользователя u 0 ; проблема «холодного старта»; (новый товар никому не рекомендуется) надо хранить всю матрицу F. R К. В. Воронцов Методы коллаборативной фильтрации 10/ 38

11 Постановка задачи и приложения От клиента (user-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, похожие на u 0, также покупали R(u 0 )» u 0 U(u 0 ) U R(u 0 ) R 1 U(u 0 ) := { u U corr(u 0,u) > α } коллаборация; где corr(u 0,u) одна из возможных мер близости u к u 0 ; { 2 R(u 0 ) := r R B(r) = U(u 0) U(r) U(u 0 ) U(r) }; > 0 где U(r) := { u U f ur } ; 3 отсортировать r R(u 0 ) по убыванию B(r), взять topn; К. В. Воронцов Методы коллаборативной фильтрации 11/ 38

12 Постановка задачи и приложения От клиента (user-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, похожие на u 0, также покупали R(u 0 )» Недостатки: рекомендации тривиальны; u 0 U(u 0 ) U R(u 0 ) не учитываются интересы конкретного пользователя u 0 ; проблема «холодного старта»; надо хранить всю матрицу F; нечего рекомендовать нетипичным/новым пользователям. R К. В. Воронцов Методы коллаборативной фильтрации 12/ 38

13 Постановка задачи и приложения От объекта (item-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «вместе с объектами, которые покупал u 0, часто покупают R(u 0 )» u 0 U r 0 r 0 R(u 0 ) R 1 R(u 0 ) := { r R r 0 : f u0 r 0 и B(r) = corr(r,r 0 ) > α } ; где corr(r,r 0 ) одна из возможных мер близости r к r 0 ; 2 сортировка r R(u 0 ) по убыванию B(r), взять topn; К. В. Воронцов Методы коллаборативной фильтрации 13/ 38

14 Постановка задачи и приложения От объекта (item-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «вместе с объектами, которые покупал u 0, часто покупают R(u 0 )» Недостатки: u 0 U r 0 r 0 R(u 0 ) рекомендации часто тривиальны (нет коллаборативности); проблема «холодного старта»; надо хранить всю матрицу F; нечего рекомендовать нетипичным пользователям. R К. В. Воронцов Методы коллаборативной фильтрации 14/ 38

15 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Восстановление пропущенных значений (рейтингов) Непараметрическая регрессия Надарайя Ватсона: K(u,u )(f u r f u ) u ˆf ur = f u + U α(u) K(u,u, ) где f u = 1 R(u) r R(u) u U α(u) f ur средний рейтинг клиента u, R(u) множество объектов, которые клиент u оценил, K(u,u ) сглаживающее ядро, функция близости u и u, U α (u) = {u K(u,u) > α} коллаборация клиента u. Недостатки: проблема «холодного старта»; надо хранить всю матрицу F; К. В. Воронцов Методы коллаборативной фильтрации 15/ 38

16 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Функции близости, используемые в корреляционных методах корреляция Пирсона: K(u,u ) = r R(u,u ) r R(u,u ) (f ur f u )(f u r f u ) (f ur f u ) 2 косинусная мера близости: f ur f u r K(u,u ) = r R(u,u ) r R(u,u ) f 2 ur r R(u,u ) r R(u,u ) ; fu 2 r (f u r f u ) 2; { R(u) R(u ), для бинарных данных, где R(u,u ) = R(u) R(u ), для рейтинговых данных. статистические критерии: χ 2, точный тест Фишера (для бинарных данных). К. В. Воронцов Методы коллаборативной фильтрации 16/ 38

17 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Функции близости на основе статистических критериев Рассмотрим случай бинарных данных, f ur {0,1}. Нулевая гипотеза: клиенты u и u совершают свой выбор независимо. u: R(u) u : R(u ) R(u) R(u ) Вероятность случайной реализации r совместных выборов p(r) = P { R(u) R(u ) =r } = Cr R(u) C R(u ) r R R(u) C R(u ) R Функция близости R(u,u ) = logp ( R(u) R(u ) ).. К. В. Воронцов Методы коллаборативной фильтрации 17/ 38

18 Резюме по Memory-Based методам Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Преимущества для бизнес-приложений: Легко понять. Легко реализовать. Недостатки: Далее: Не хватает теоретического обоснования: придумано много способов оценить сходство... придумано много гибридных (item-user-based) методов и не ясно, что лучше; Все методы требуют хранения огромной матрицы F. Проблема «холодного старта». лишены этих недостатков. К. В. Воронцов Методы коллаборативной фильтрации 18/ 38

19 Понятие латентной модели Латентная ( ) модель: по данным D оцениваются векторы: ptu профили клиентов u U, G R ; ( )t G qtr профили объектов r R, H U. t H Типы латентных моделей (основные идеи): 1 Ко-кластеризация: { ptu = [ клиент u принадлежит кластеру t G ] ; жёсткая: q tr = [ объект r принадлежит кластеру t H ] ; мягкая: p tu, q tr степени принадлежности кластерам. 2 Матричные разложения: G H множество тем; по p tu, q tr должны восстанавливаться f ur. 3 Вероятностные модели: G H множество тем; p tu = p(t u), q tr = q(t r). К. В. Воронцов Методы коллаборативной фильтрации 19/ 38

20 Бикластеризация (ко-кластеризация) Пусть f ur вещественные числа или рейтинги; g: U G функции кластеризации клиентов ( G < ); h: R H функции кластеризации объектов ( H < ); Модель усреднения по блокам (Block Average): ˆf ur (g,h) = f g(u),h(r) +( f u f g(u) )+( f r f h(r) ); f g(u),h(r) средние по бикластерам; f g(u) и f h(r) средние по кластерам; f u и f r средние по клиентам и по объектам; Функционал качества бикластеризации: ) 2 (ˆf ur (g,h) f ur min ; g,h (u,r) D К. В. Воронцов Методы коллаборативной фильтрации 20/ 38

21 Алгоритм бикластеризации, похожий на k-means Алгоритм BBAC (Bregman Block Average Co-clustering) 1: инициализировать случайные кластеризации g(u), h(r); 2: пока кластеризации изменяются 3: вычислить средние по бикластерам f gh и кластерам f g, f h ; 4: вычислить новые кластеризации для всех клиентов u U: ) 2; g(u) := argmin (ˆf ur (g,h(r)) f ur g r 5: вычислить новые кластеризации для всех объектов r R: ) 2; h(r) := argmin (ˆf ur (g(u),h) f ur h u George T., Merugu S. A scalable collaborative filtering framework based on co-clustering // 5-th IEEE int. conf. on Data Mining, 2005, Pp Banerjee A., et al. A generalized maximum entropy approach to Bregman co-clustering and matrix approximation // 10-th KDDM, 2004, Pp К. В. Воронцов Методы коллаборативной фильтрации 21/ 38

22 Матричные разложения T множество тем (интересов): T U, T R ; p tu неизвестный профиль клиента u; P = ( p tu ) T U ; q tr неизвестный профиль объекта r; Q = ( q tr ) T R ; Задача: найти разложение f ur = π t p tu q tr ; t T Матричная запись: F = P т Q, = diag ( π 1,...,π T ) ; Вероятностный смысл: p(u, r) = }{{} t T f ur? p(t) }{{} p(u t) }{{} π t p tu q(r t); }{{} q tr Методы решения: SVD сингулярное разложение (плохо интерпретируется); NNMF неотрицательное матричное разложение: p tu 0, q tr 0; PLSA вероятностный латентный семантический анализ. К. В. Воронцов Методы коллаборативной фильтрации 22/ 38

23 Разреженный SVD (Singular Value Decomposition) Обычный не разреженный SVD: F P т Q 2 min. P,Q ( Разреженный SVD: f ur ) 2 p tu q tr min. (u,r) D t T P,Q }{{} ε ur Метод стохастического градиента: перебираем все (u,r) D многократно в случайном порядке и делаем каждый раз градиентный шаг для задачи ε 2 ur min: p u,q r p tu := p tu +ηε ur q tr, t T; q tr := q tr +ηε ur p tr, t T; Tacáks G., Pilászy I., Németh B., Tikk D. Scalable collaborative filtering approaches for large recommendation systems // JMLR, 2009, No. 10, Pp К. В. Воронцов Методы коллаборативной фильтрации 23/ 38

24 Разреженный SVD Постановка задачи и приложения Преимущества метода стохастического градиента: легко вводится регуляризация: ε 2 ur +λ p u 2 +µ q r 2 min p u,q r ; легко вводятся ограничения неотрицательности: p tu 0, q tr 0 (метод проекции градиента); легко вводятся обобщение для ранговых данных: ( β(f ur ) ) 2 p tu q tr min. P,Q,{β f } (u,r) D t T легко реализуются все виды инкрементности: добавление ещё одного клиента u, ещё одного объекта r, ещё одного значения f ur. высокая численная эффективность на больших данных; К. В. Воронцов Методы коллаборативной фильтрации 24/ 38

25 Вероятностный латентный семантический анализ (PLSA) Пусть T множество тем (интересов); Вероятностная модель посещений [Hofmann, 1999]: p(u,r) = p(t) p(u t) q(r t). t T Задача максимизации правдоподобия по p(t), p(u t), q(r t): L(,P,Q) = f ur lnp(u,r) max. u,r при ограничениях нормировки: p(t) = 1; p(u t) = 1; t T u U q(r t) = 1. r R Тематические профили вычисляются по формуле Байеса: p(t u) = p(u t)p(t) p(u s)p(s) ; q(r t)p(t) q(t r) = q(r s)p(s). s T s T К. В. Воронцов Методы коллаборативной фильтрации 25/ 38

26 Максимизация правдоподобия: ЕМ-алгоритм Сформировать начальные приближения p(t), p(u t), q(r t); Повторять итерации до сходимости: Е-шаг: скрытые переменные H по формуле Байеса: H(t u,r) = p(t)p(u t)q(r t) ; p(u,r) М-шаг: аналитическое решение задачи L(, P, Q) max: p(t) = S(t) S ; S(t) = f ur H(t u,r); S = u,r u,r p(u t) = 1 f ur H(t u,r); S(t) q(r t) = 1 S(t) r f ur H(t u,r). u f ur ; К. В. Воронцов Методы коллаборативной фильтрации 26/ 38

27 Вывод формул М-шага Распишем Лагранжиан: L = ( ) f ur lnp(u,r) ν p(t) 1 u,r t T ( ) λ t p(u t) 1 ( µ t t T u U t T r R ) q(r t) 1. L p(t) = u,r u,r f ur p(u t)q(r t) p(u,r) f ur p(u t)q(r t)p(t) p(u,r) p(t) = 1 S u,r ν = 0; f ur H(t u,r) = S(t) S ; = νp(t) ν = u,r f ur = S; К. В. Воронцов Методы коллаборативной фильтрации 27/ 38

28 Вывод формул М-шага (продолжение) L p(u t) = r L q(r t) = u r f ur p(t)q(r t) p(u,r) λ t = 0; f ur p(t)q(r t)p(u t) p(u,r) p(u t) = r u f ur p(t)p(u t) p(u,r) = λ t p(u t) λ t = / u,r f ur H(t u,r) f ur H(t u,r). µ t = 0; f ur p(t)p(u t)q(r t) p(u,r) q(r t) = u u,r = µ t q(r t) µ t = / u,r f ur H(t u,r) f ur H(t u,r). u,r f ur H(t u,r); f ur H(t u,r); К. В. Воронцов Методы коллаборативной фильтрации 28/ 38

29 Обобщения, модификации, применения Если f ur Z = {1,2,...,z max } рейтинги, то вместо p(u,r) = P(f ur ) надо оценивать (z max 1) вероятностей p z (u,r) = P(f ur z), z Z; Иерархические профили: темы разбиваются на подтемы; Инкрементные алгоритмы: обработка потока данных D; Учёт априорной информации через начальное приближение профилей: тематический каталог объектов; соц-дем (анкеты) клиентов; Унифицированный профиль объектов и клиентов; Долгосрочный и краткосрочный профили; Оценивание сходства по частям профиля. К. В. Воронцов Методы коллаборативной фильтрации 29/ 38

30 Данные Яндекс (Интернет-математика 2005) Исходные данные: 7 дней работы поисковой машины Яндекс; объём лога 3.6 Гб; пользователей; запросов; документов было выдано; документов были выбраны пользователями. Фрагмент лога: (номер пользователя) французская кухня (запрос) (время запроса) (сайт или документ) (время клика) жаренное мясо в вине К. В. Воронцов Методы коллаборативной фильтрации 30/ 38

31 Данные Яндекс (Интернет-математика 2005) Схема эксперимента: Отбор наиболее посещаемых сайтов, R = Отбор наиболее активных пользователей, U = Введение критериев качества профилей: 400 сайтов заранее классифицированы на T = 12 тематических классов; Q 1 = доля неправильно восстановленных профилей; Q 2 = число ошибок классификации методом knn; Оптимизация параметров по критерию качества. Построение профилей и оценок сходства сайтов. Визуализация: глобальные и локальные карты сходства. К. В. Воронцов Методы коллаборативной фильтрации 31/ 38

32 Результаты: подбор меры сходства оценки сходства по точному тесту Фишера (FET) лучше корреляций, а по профилям ещё лучше! Доля ошибок классификации методом knn EM-профили точный тест Фишера корреляция Число соседей k К. В. Воронцов Методы коллаборативной фильтрации 32/ 38

33 Задача многомерного шкалирования (multidimensional scaling) Дано: попарные расстояния R ij между n объектами. Найти: координаты этих объектов на плоскости (x i,y i ) n i=1 : S = i<j ( (x i x j ) 2 +(y i y j ) 2 R ij ) 2 min (x i,y i ) n i=1 Карта сходства (Similarity Map) это средство разведочного анализа многомерных данных: точечный график (x i,y i ) n i=1 ; близким объектам соответствуют близкие точки; оси графика не имеют интерпретации; возможны искажения. К. В. Воронцов Методы коллаборативной фильтрации 33/ 38

34 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по FET-оценкам сходства, T = 9 музыка новости мобильная связь рефераты медицина софт & игры бизнес путешествия развлечения неразмеченные Результат: темы удаётся проинтерпретировать :) К. В. Воронцов Методы коллаборативной фильтрации 34/ 38

35 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по профилям, T = 7 Результат кажется более содержательным :) К. В. Воронцов Методы коллаборативной фильтрации 35/ 38

36 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по профилям, T = 12 К. В. Воронцов Методы коллаборативной фильтрации 36/ 38

37 Ещё одна визуализация: локальная карта пользователя Визуальное представление персональных рекомендаций: Карта сходства для пользователя forums.gameguru.ru К. В. Воронцов Методы коллаборативной фильтрации 37/ 38

38 Резюме Постановка задачи и приложения Коллаборативная фильтрация (Collaborative Filtering) это набор методов для построения рекомендательных систем (Recommender Systems). Тематическое моделирование (Topic Modeling) это набор методов для выявления латентных интересов клиентов или для выявления латентных тем в корпусе текстов. обладают рядом преимуществ: тематические профили содержательно интерпретируемы, могут оцениваться по внешним данным, что позволяет решать проблему «холодного старта» и строить тематическую кластеризацию (таксономию); оценки сходства клиентов и объектов более адекватны; резко сокращается объём хранимых данных. К. В. Воронцов Методы коллаборативной фильтрации 38/ 38

Коллаборативная фильтрация

Коллаборативная фильтрация Коллаборативная фильтрация К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» ноябрь 2012 К.

Подробнее

Методы коллаборативной фильтрации и их применения

Методы коллаборативной фильтрации и их применения Методы коллаборативной фильтрации и их применения К. В. Воронцов vokov@forecsys.ru http://www.ccas.ru/voron Вычислительный Центр им.а. А.Дородницына РАН; ЗАО «Форексис» ВШЭ, семинар Б. Г. Миркина, 10 ноября

Подробнее

Профиль пользователя u вектор вероятностей

Профиль пользователя u вектор вероятностей Московский Физико-Технический Институт Вычислительный Центр РАН Анализ клиентских сред: выявление скрытых профилей и оценивание сходства клиентов и ресурсов Лексин В.А. vleksin@mail.u Воронцов К.В. voon@ccas.u

Подробнее

Оценивание сходства пользователей и ресурсов путем выявления скрытых тематических профилей.

Оценивание сходства пользователей и ресурсов путем выявления скрытых тематических профилей. Анализ Клиентских Сред Оценивание сходства пользователей и ресурсов путем выявления скрытых тематических профилей Постановка задачи Исходными данными являются протоколы действий пользователей Каждая запись

Подробнее

ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД

ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД На правах рукописи ЛЕКСИН ВАСИЛИЙ АЛЕКСЕЕВИЧ ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД 01.01.09 Дискретная математика и математическая кибернетика Автореферат диссертации на соискание ученой степени

Подробнее

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ УДК 519.237 К. В. Воронцов, К. В. Рудаков, В. А. Лексин, А. Н. Ефимов Вычислительный центр РАН, г. Москва, Россия voron@ccas.ru ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ

Подробнее

Д. П. Ветров 1. Курс «Графические модели» ЕМ-алгоритм. Обучение скрытых. марковских моделей без учителя. Ветров. ЕМ-алгоритм в общем виде

Д. П. Ветров 1. Курс «Графические модели» ЕМ-алгоритм. Обучение скрытых. марковских моделей без учителя. Ветров. ЕМ-алгоритм в общем виде Д. П. 1 1 МГУ, ВМиК, каф. ММП Курс «Графические модели» План лекции 1 2 3 4 5 6 EM-алгоритм. Разложение логарифма Требуется найти максимум в вероятностной модели со скрытыми переменными: p(x Θ) = p(x,

Подробнее

Машинное обучение Тематическое моделирование. https://yandexdataschool.ru/edu-process/courses/machine-learning

Машинное обучение Тематическое моделирование. https://yandexdataschool.ru/edu-process/courses/machine-learning Машинное обучение Тематическое моделирование https://yandexdataschool.ru/edu-process/courses/machine-learning 1 Содержание лекции Постановка задачи Предыстория Латентный семантический анализ (LSA) Вероятностный

Подробнее

Рекомендательные системы

Рекомендательные системы Лаборатория Интернет-исследований, НИУ Высшая школа экономики, Санкт-Петербург Лаборатория математической логики, ПОМИ РАН, Санкт-Петербург Deloitte Analytics Institute, Москва 20 февраля 2016 г. Preview

Подробнее

Тензоры и рекомендательные системы

Тензоры и рекомендательные системы Тензоры и рекомендательные системы Аспирант: Халкечев Р. В. Научный руководитель: Воронцов К.В. Аспирантская школа по компьютерным наукам Национальный исследовательский университет "Высшая школа экономики"

Подробнее

Введение в анализ данных

Введение в анализ данных Введение в анализ данных Лекция 12 Рекомендательные системы Евгений Соколов esokolov@hse.ru НИУ ВШЭ, 2017 Опрос Какие рекомендательные системы вы знаете? Опрос Какие рекомендательные системы вы знаете?

Подробнее

Методы частичного обучения (semi-supervised learning)

Методы частичного обучения (semi-supervised learning) Методы частичного обучения (semi-supervised learning) К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)»

Подробнее

Многомерная линейная регрессия. Метод главных компонент

Многомерная линейная регрессия. Метод главных компонент . Воронцов Константин Вячеславович vokov@forecsys.ru http://www.machinelearning.ru/wiki?title=user:vokov Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение

Подробнее

Машинное обучение: вводная лекция

Машинное обучение: вводная лекция Машинное обучение: вводная лекция К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» февраль

Подробнее

Методы кластеризации

Методы кластеризации Методы кластеризации Воронцов Константин Вячеславович vokov@forecsys.ru http://www.machinelearning.ru/wiki?title=user:vokov Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki

Подробнее

Основы обработки текстов

Основы обработки текстов Основы обработки текстов Лекция 11 Тематическое моделирование Тематическое моделирование (Topic Modelling) Тематическая модель коллекции текстовых документов определяет к каким темам относится каждый документ

Подробнее

Кластеризация и алгоритм EM

Кластеризация и алгоритм EM Академический Университет, 2012 Outline Иерархическая кластеризация методами теории графов 1 Иерархическая кластеризация методами теории графов 2 Суть лекции Иерархическая кластеризация методами теории

Подробнее

Быстрые алгоритмы неотрицательных матричных разложений

Быстрые алгоритмы неотрицательных матричных разложений Быстрые алгоритмы неотрицательных матричных разложений Шадриков А. А. МГУ, ВМК, ММП 4 октября 2014 г. Содержание 1 Неотрицательное матричное разложение Задача матричного разложения Итерационные методы

Подробнее

Рекомендательные системы

Рекомендательные системы Mail.Ru, 19 апреля 2014 г. Outline Коллаборативная фильтрация 1 Коллаборативная фильтрация 2 Холодный старт Дополнительная информация анализируют интересы пользователей и пытаются предсказать, что именно

Подробнее

1 / 29

1 / 29 Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 29 План лекции 1 Архитектура поисковых систем 2 Алгоритмы

Подробнее

Методы кластеризации

Методы кластеризации Методы кластеризации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» май 2013 К. В. Воронцов

Подробнее

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы.

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы. План лекции Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru 1 Архитектура поисковых систем 2 Алгоритмы поисковых систем PageRank

Подробнее

Коллаборативная фильтрация в рекомендательных системах. SVD-разложение

Коллаборативная фильтрация в рекомендательных системах. SVD-разложение УДК 004.852 Коллаборативная фильтрация в рекомендательных системах. SVD-разложение Латкин И.И., студент Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Системы обработки информации и управления»

Подробнее

Рекомендательные системы

Рекомендательные системы Лаборатория Интернет-исследований, Национальный исследовательский университет Высшая школа экономики Санкт-Петербург Лаборатория математической логики, Санкт-Петербургское отделение Математического института

Подробнее

Кластеризация. Каждый кластер состоит из похожих объектов Объекты из разных кластеров существенно отличаются

Кластеризация. Каждый кластер состоит из похожих объектов Объекты из разных кластеров существенно отличаются Кластеризация Дано: матрица «объекты-признаки» X Найти: 1. Множество кластеров Y 2. Алгоритм кластеризации a(x), который приписывает каждый объект к одному из кластеров Каждый кластер состоит из похожих

Подробнее

Основы обработки текстов

Основы обработки текстов Основы обработки текстов Лекция 11 Тематическое моделирование Тематическое моделирование (Topic Modelling) Тематическая модель коллекции текстовых документов определяет к каким темам относится каждый документ

Подробнее

Разработка математической модели и алгоритмов для контентных и гибридных Рекомендательных Систем

Разработка математической модели и алгоритмов для контентных и гибридных Рекомендательных Систем Разработка математической модели и алгоритмов для контентных и гибридных Рекомендательных Систем Понизовкин Д. М. ИПС им. А. К. Айламазяна РАН 24 октября 2012 г. 1 / 27 Типы рассматриваемых систем пользователь

Подробнее

Использование контекстной документной кластеризации для улучшения качества построения тематических моделей

Использование контекстной документной кластеризации для улучшения качества построения тематических моделей Использование контекстной документной кластеризации для улучшения качества построения тематических моделей А. В. Гринчук Московский физико-технический институт Факультет управления и прикладной математики

Подробнее

Машинное обучение (Machine Learning)

Машинное обучение (Machine Learning) Машинное обучение (Machine Learning) Уткин Л.В. Содержание 1 Наивный байесовский классификатор 2 1 Метод k ближайших соседей 2 Метод окна Парзена 3 Метод потенциальных функций Презентация является компиляцией

Подробнее

Анализ алгоритмов обучения коллаборативных рекомендательных систем

Анализ алгоритмов обучения коллаборативных рекомендательных систем УДК 004.58 Анализ алгоритмов обучения коллаборативных рекомендательных систем Д.Е. Королева, М.В. Филиппов МГТУ им. Н.Э. Баумана, Москва, 105005, Россия В статье рассмотрены алгоритмы коллаборативной фильтрации,

Подробнее

Методы кластеризации

Методы кластеризации Методы кластеризации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» 28 апреля 2010 Постановка

Подробнее

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных Введение в анализ данных: Классификация текста Юля Киселёва juliakiseleva@yandex-team.ru Школа анализа данных План на сегодня Постановка задачи, подходы и применения Построение и обучение классификатора

Подробнее

Нелинейная регрессия Обобщёные линейные модели Нестандартные функции потерь

Нелинейная регрессия Обобщёные линейные модели Нестандартные функции потерь Обобщёные линейные модели Нестандартные функции потерь Воронцов Константин Вячеславович vokov@forecsys.ru http://www.machinelearning.ru/wiki?title=user:vokov Этот курс доступен на странице вики-ресурса

Подробнее

Обработка экспертных оценок и интерпретация результатов. 1.Введение

Обработка экспертных оценок и интерпретация результатов. 1.Введение Обработка экспертных оценок и интерпретация результатов. 1.Введение Целью обработки оценок является получение обобщенного мнения на основании множественных суждений экспертов. Совместной обработке обычно

Подробнее

Лекция 11. Методы кластерного анализа проектирование данных на плоскость, метод главных компонент. Лектор Сенько Олег Валентинович

Лекция 11. Методы кластерного анализа проектирование данных на плоскость, метод главных компонент. Лектор Сенько Олег Валентинович Лекция 11 Методы кластерного анализа проектирование данных на плоскость, метод главных компонент Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток

Подробнее

Семинары по EM-алгоритму

Семинары по EM-алгоритму Семинары по EM-алгоритму Евгений Соколов sokolov.evg@gmail.com 21 февраля 2014 г. 1 EM-алгоритм 1.1 Смеси распределений Говорят, что распределение p(x) является смесью распределений, если его плотность

Подробнее

Д. П. Ветров 1. Курс «Графические модели», 2012г. Лекция 3. Скрытые марковские модели. Ветров. Ликбез. Основы применения СММ.

Д. П. Ветров 1. Курс «Графические модели», 2012г. Лекция 3. Скрытые марковские модели. Ветров. Ликбез. Основы применения СММ. Д. П. 1 1 МГУ, ВМиК, каф. ММП Курс «Графические модели», 2012г. План 1 Метод динамического программирования 2 Определение Обучение с учителем Алгоритм Витерби 3 Графические модели с неполными данными Разделение

Подробнее

Рекомендательные системы

Рекомендательные системы Лаборатория Интернет-исследований, Национальный исследовательский университет Высшая школа экономики Санкт-Петербург 10 декабря 2013 г. Outline Коллаборативная фильтрация 1 Коллаборативная фильтрация 2

Подробнее

Matrix completion: via semi-supervised clustering. 7 апреля, 2016 Ризванов Айдар

Matrix completion: via semi-supervised clustering. 7 апреля, 2016 Ризванов Айдар Matrix completion: via semi-supervised clustering 7 апреля, 2016 Ризванов Айдар Содержание Matrix completion 3 Регуляризация 4 Рекомендательные системы. Примеры 5 Semi-supervised Clustering 14 MC with

Подробнее

Behind LDA. Часть 1. Кольцов С.Н.

Behind LDA. Часть 1. Кольцов С.Н. Behind LDA Часть 1 Кольцов С.Н. Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно из множества значений, причём появление того или иного

Подробнее

Сайт кафедры: mmp.cs.msu.ru Кафедра математических методов прогнозирования 1 / 13

Сайт кафедры: mmp.cs.msu.ru   Кафедра математических методов прогнозирования 1 / 13 Кафедра математических методов прогнозирования Сайт кафедры: mmp.cs.msu.ru E-mail: mmp@cs.msu.ru Кафедра математических методов прогнозирования mmp@cs.msu.ru 1 / 13 Основные направления деятельности кафедры

Подробнее

Юрий Лифшиц. Осень 2006

Юрий Лифшиц. Осень 2006 Автоматическая классификация текстов Лекция N 6 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 30 ... классификация осуществляется на добровольной основе Владимир Стржалковский

Подробнее

Анализ сообществ в социальных сетях. Николай Скворцов

Анализ сообществ в социальных сетях. Николай Скворцов Анализ сообществ в социальных сетях Николай Скворцов Социальные сети как области с интенсивным использованием данных Телекоммуникационные связи (звонки, адресные книги и др.) Информационные сети (медиа,

Подробнее

Лекция 8. Скрытые марковские модели. Часть 2.

Лекция 8. Скрытые марковские модели. Часть 2. для модели. Часть 2. А. С. Конушин 1 Д. П. Ветров 2 3 В. С. Конушин 1 О. В. Баринова 1 1 МГУ, ВМиК, лаб. КГ 2 МГУ, ВМиК, каф. ММП 3 ВЦ РАН Спецкурс «Структурные методы анализа изображений и сигналов» Скрытая

Подробнее

Новая метрика для кластеризации временных рядов

Новая метрика для кластеризации временных рядов УДК 519.25 Староверова К. Ю. Новая метрика для кластеризации временных рядов Рекомендовано к публикации профессором Буре В. М. 1. Введение. В современном мире для решения многих задач используются методы

Подробнее

Д. П. Ветров 1. Спецкурс «Графические модели» Лекция 5. Обучение без учителя. скрытых марковских моделей и. линейных динамических систем.

Д. П. Ветров 1. Спецкурс «Графические модели» Лекция 5. Обучение без учителя. скрытых марковских моделей и. линейных динамических систем. для Д. П. 1 1 МГУ, ВМиК, каф. ММП Спецкурс «Графические модели» Скрытая Марковская модель () для Скрытая Марковская модель [первого порядка] это вероятностная модель последовательности, которая Состоит

Подробнее

ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ

ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ 76 УДК 004.78 Пятикоп Е.Е., к.т.н. ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ Приазовский государственный технический университет Приведена классификация методов коллаборативной

Подробнее

Международный научно-технический журнал «ТЕОРИЯ. ПРАКТИКА. ИННОВАЦИИ» ИЮНЬ 2017 АВТОМАТИКА. ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Международный научно-технический журнал «ТЕОРИЯ. ПРАКТИКА. ИННОВАЦИИ» ИЮНЬ 2017 АВТОМАТИКА. ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА УДК 004 АНАЛИЗ ПОДХОДОВ К ПОСТРОЕНИЮ ГИБРИДНЫХ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ В ЗАДАЧЕ РЕКОМЕНДАЦИИ ФИЛЬМОВ Федоренко В.И., Киреев В.С. Национальный исследовательский ядерный университет «МИФИ» Рекомендательные

Подробнее

Машинное обучение (Machine Learning)

Машинное обучение (Machine Learning) Машинное обучение (Machine Learning) Методы обучения без учителя (Unsupervised Learning) Уткин Л.В. Содержание 1 Кластеризация 2 Метод k средних 3 Иерархическая кластеризация (таксономия) 4 Метод главных

Подробнее

Метрические методы классификации

Метрические методы классификации Метрические методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» март 2011

Подробнее

Лекция 3. Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович

Лекция 3. Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович Лекция 3 Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович () МОТП, лекция

Подробнее

Линейные методы классификации II

Линейные методы классификации II 1/40 Виктор Китов v.v.kitov@yandex.ru МГУ им.ломоносова, ф-т ВМиК, кафедра ММП. I семестр 2015 г. 2/40 Линейный дискриминант Фишера Содержание 1 Линейный дискриминант Фишера 2 Логистическая регрессия 3

Подробнее

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович Лекция 4 Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й

Подробнее

Вероятностные тематические модели коллекций текстовых документов

Вероятностные тематические модели коллекций текстовых документов Вероятностные тематические модели коллекций текстовых документов К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс

Подробнее

Сравнительный анализ алгоритмов классификации и способов представления Web- документов

Сравнительный анализ алгоритмов классификации и способов представления Web- документов Сравнительный анализ алгоритмов классификации и способов представления Web- документов Схема работы SPeCS Интернет Правка запроса по ключевым словаи Выбор запроса по ключевым словам Фильтрация документов

Подробнее

Линейная регрессия: регуляризация, предсказания, выб

Линейная регрессия: регуляризация, предсказания, выб Линейная регрессия: регуляризация, предсказания, выбор модели Академический Университет, 2012 Outline Регуляризация и предсказания 1 Регуляризация и предсказания 2 Эквивалентное ядро Байесовское сравнение

Подробнее

Обучение и вывод в модели Ограниченной Машины Больцмана

Обучение и вывод в модели Ограниченной Машины Больцмана Обучение и вывод в модели Ограниченной Научная группа Байесовских методов ВМК МГУ им. М.В. Ломоносова 13 мая 2014 г. 1 / 37 Обзор 1 2 3 4 2 / 37 Ограниченная машина Restricted Boltzmann Machine марковское

Подробнее

Методы поиска ассоциативных правил

Методы поиска ассоциативных правил Методы поиска ассоциативных правил К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» октябрь

Подробнее

Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет

Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ государственный университет ФАКУЛЬТЕТ УПРАВЛЕНИЯ И ПРИКЛАДНОЙ МАТЕМАТИКИ ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР ИМ А А ДОРОДНИЦЫНА

Подробнее

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета»

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Юрий Лифшиц 2 ноября 2006 г. Содержание 1. Постановка задачи, подходы и применения 2 1.1. Введение.................................................

Подробнее

МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ ТЕКСТОВ

МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ ТЕКСТОВ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МЭИ» Шаграев Алексей Галимович На правах рукописи УДК 004.852 МОДИФИКАЦИЯ,

Подробнее

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 План Понятие кластеризации Меры близости Классификация алгоритмов Неиерархические алгоритмы кластеризации Иерархические алгоритмы кластеризации План Понятие

Подробнее

1 / 22

1 / 22 Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 22 План лекции 1 Постановка задачи, подходы и применения Постановка

Подробнее

Методы восстановления регрессии

Методы восстановления регрессии Методы восстановления регрессии К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» 3 апреля

Подробнее

Прогнозирование временных рядов

Прогнозирование временных рядов Прогнозирование временных рядов К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» Видеолекции:

Подробнее

Постановка и возможные пути решения задачи обучения нейронных сетей

Постановка и возможные пути решения задачи обучения нейронных сетей Лекция 5 Постановка и возможные пути решения задачи обучения нейронных сетей Частичная задача обучения Пусть у нас есть некоторая нейросеть N. В процессе функционирования эта нейронная сеть формирует выходной

Подробнее

Лекция 12. Байесовские сети Методы анализа выживаемости. Лектор Сенько Олег Валентинович

Лекция 12. Байесовские сети Методы анализа выживаемости. Лектор Сенько Олег Валентинович Лекция 12 Байесовские сети Методы анализа выживаемости Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович () МОТП, лекция 12

Подробнее

Вероятностные тематические модели

Вероятностные тематические модели Вероятностные тематические модели Докладчик: Андрей Гомзин (528 гр.) Руководители: А. Коршунов, И. Белобородов 4 декабря 2012 г. Андрей Гомзин (528 гр.) Вероятностные тематические модели 4 декабря 2012

Подробнее

Семинары по байесовским методам

Семинары по байесовским методам Семинары по байесовским методам Евгений Соколов sokolov.evg@gmail.com 5 декабря 2014 г. 2 Нормальный дискриминантный анализ Нормальный дискриминантный анализ это частный случай байесовской классификации,

Подробнее

МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ

МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ УДК 4.85, 4.89 МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ Д.И. Игнатов (dgnatov@hse.ru) А.Ю. Каминская (skam9@gmal.com) Р.А. Магизов (dzhamn@gmal.com) ГУ-ВШЭ, Москва,

Подробнее

Документ. Векторная модель и анализ тематики

Документ. Векторная модель и анализ тематики Документ. Векторная модель и анализ тематики Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 17.01.2014 / 03 Outline Анализ корпуса на уровне документов Лексическая

Подробнее

Фильтрация и тематическое моделирование коллекции научных документов

Фильтрация и тематическое моделирование коллекции научных документов Фильтрация и тематическое моделирование коллекции научных документов Сергей Воронов Научный руководитель: д.ф.-м.н. К.В.Воронцов Московский физико-технический институт (государственный университет) Факультет

Подробнее

Машинное обучение. Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ

Машинное обучение. Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ Машинное обучение состояние и перспективы Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ План выступления Классическая постановка задачи машинного обучения Современное состояние Графические

Подробнее

Задача ранжирования веб-страниц в условиях разреженной матрицы корреспонденции

Задача ранжирования веб-страниц в условиях разреженной матрицы корреспонденции Задача ранжирования веб-страниц в условиях разреженной матрицы корреспонденции Дмитрий Камзолов Научный руководитель: Александр Гасников, Юрий Максимов Московский Физико-Технический Институт Факульет Управления

Подробнее

Методы оптимизации в машинном обучении, ВМК+Физтех, осень 2017 Практическое задание 4: Композитная оптимизация.

Методы оптимизации в машинном обучении, ВМК+Физтех, осень 2017 Практическое задание 4: Композитная оптимизация. Методы оптимизации в машинном обучении, ВМК+Физтех, осень 2017 Практическое задание 4: Композитная оптимизация. 1 Алгоритмы 1.1 Субградиентный метод Срок сдачи: 7 декабря 2017 (четверг), 23:59 для ВМК

Подробнее

Машинное обучение: вводная лекция

Машинное обучение: вводная лекция Машинное обучение: вводная лекция К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» февраль

Подробнее

Алгоритм EM и его применения

Алгоритм EM и его применения Computer Science Club, Екатеринбург, 2011 Outline Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 1 Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 2 Введение Алгоритм EM Смесь

Подробнее

Выполнил: Варламов Максим Игоревич, 427 группа. Научный руководитель: Майоров Владимир Дмитриевич

Выполнил: Варламов Максим Игоревич, 427 группа. Научный руководитель: Майоров Владимир Дмитриевич Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных Выполнил: Варламов Максим Игоревич, 427 группа Научный

Подробнее

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции План лекции Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1, подходы и применения 1 / 22 2 / 22 План лекции Акценты

Подробнее

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006 Информационный поиск Архитектура поисковых систем PageRank Лекция N 3 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 29 Авторы алгоритмов ссылочной популярности В ноябре

Подробнее

Библиотека БГУИР УДК Рудая Елена Игоревна

Библиотека БГУИР УДК Рудая Елена Игоревна Министерство образования Республики Беларусь Учреждение образования Белорусский государственный университет информатики и радиоэлектроники УДК 51-77 Рудая Елена Игоревна Аналитика в электронной коммерции.

Подробнее

ЛЕКЦИИ. Лекция 1. Раздел I. ТЕОРИЯ ОПТИМИЗАЦИИ 1. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ И ОСНОВНЫЕ ПОЛОЖЕНИЯ

ЛЕКЦИИ. Лекция 1. Раздел I. ТЕОРИЯ ОПТИМИЗАЦИИ 1. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ И ОСНОВНЫЕ ПОЛОЖЕНИЯ ЛЕКЦИИ Лекция 1 Раздел I. ТЕОРИЯ ОПТИМИЗАЦИИ 1. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ И ОСНОВНЫЕ ПОЛОЖЕНИЯ Постановка задачи поиска минимума функций содержит: целевую функцию f ( x ), где x = ( x1,..., x

Подробнее

Рекомендательная система для научных статей на основе корпуса ACL ARC

Рекомендательная система для научных статей на основе корпуса ACL ARC Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт Петербургский государственный университет» Математико механический факультет Кафедра информационно

Подробнее

Модель рекомендательной системы на нечетких множествах как эффективное расширение коллаборативной модели

Модель рекомендательной системы на нечетких множествах как эффективное расширение коллаборативной модели Модель рекомендательной системы на нечетких множествах как эффективное расширение коллаборативной модели Д.М. Понизовкин IT-Aces, г. Переславль-Залесский, Россия denis.ponizovkin@gmail.com Аннотация. Рассмотрены

Подробнее

Тематическая классификация текстов

Тематическая классификация текстов Тематическая классификация текстов С.В. Панков, С.П. Шебанин, А.А. Рыбаков ROOKEE sergey.pankov@re-actor.ru, sergey.shebanin@re-actor.ru, alexander.ribakov@re-actor.ru Аннотация В статье описан алгоритм

Подробнее

ЕМ-алгоритм и метод релевантных векторов для классификации

ЕМ-алгоритм и метод релевантных векторов для классификации Курс: Байесовские методы машинного обучения, ЕМ-алгоритм и метод релевантных векторов для классификации Дата: ноября Метод оптимизации Ньютона g(x) f(x) x x Рис. : Иллюстрация одной итерации метода Ньютона

Подробнее

Системы рекомендаций. Катышев Алексей Школа анализа данных

Системы рекомендаций. Катышев Алексей Школа анализа данных Системы рекомендаций Катышев Алексей Школа анализа данных Каков план? Рекомендательные системы Что это? Зачем это? Основные проблемы и методы их решения Типы рекомендательных систем Плюсы и минусы каждого

Подробнее

Topic Modeling Кольцов С.Н.

Topic Modeling Кольцов С.Н. http://linis.hse.ru/ Topic Modeling Кольцов С.Н. Введение в тематическое моделирование Тематическое моделирование в это способ построения модели коллекции текстовых документов, которая определяет, к каким

Подробнее

ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ. Костевич А.Л., Шилкин А.В.

ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ. Костевич А.Л., Шилкин А.В. 364 Труды XXXIX Молодежной школы-конференции ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ Костевич А.Л., Шилкин А.В. e-mail: kostevich@bsu.by Рассмотрим

Подробнее

ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ

ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ Вычислительные технологии Том 6, 1, 2001 ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail: tin000@tashsu.silk.org A method for the selection

Подробнее

Рекомендательные системы

Рекомендательные системы Казанский Федеральный Университет, 2014 Outline Коллаборативная фильтрация 1 Коллаборативная фильтрация 2 Постановка задачи и бандиты DGP анализируют интересы пользователей и пытаются предсказать, что

Подробнее

3. РЕГРЕССИОННЫЙ АНАЛИЗ Постановка задачи регрессионного анализа

3. РЕГРЕССИОННЫЙ АНАЛИЗ Постановка задачи регрессионного анализа 55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

Подробнее

Что такое машинное обучение. Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ

Что такое машинное обучение. Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ Что такое машинное обучение Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ Машинное обучение Машинное обучение Научная дисциплина, изучающая алгоритмы, способные настраиваться по данным Как отличить смородину от

Подробнее

Краткое резюме некоторых прикладных проектов Рыжова А.П.

Краткое резюме некоторых прикладных проектов Рыжова А.П. Краткое резюме некоторых прикладных проектов Рыжова А.П. 1. Системы оценки и мониторинга сложных процессов. Задача оценки и мониторинга включает в себя оценку состояния некоторого процесса и моделирование

Подробнее

Организация больших данных для их эффективного использования в машинном обучении

Организация больших данных для их эффективного использования в машинном обучении Организация больших данных для их эффективного использования в машинном обучении Дмитрий Бабаев Эксперт по наукам о данных ПАО МТС, OpenDataScience ODS.ai Большие данные - это события Обычно состоят из

Подробнее

Фонд оценочных средств для проведения промежуточной аттестации обучающихся по дисциплине (модулю): Общие сведения 1. Кафедра

Фонд оценочных средств для проведения промежуточной аттестации обучающихся по дисциплине (модулю): Общие сведения 1. Кафедра Фонд оценочных средств для проведения промежуточной аттестации обучающихся по дисциплине (модулю): Общие сведения 1. Кафедра Математики и математических методов в экономике 2. Направление подготовки 01.03.02

Подробнее

Примеры заданий по разным темам

Примеры заданий по разным темам Примеры заданий по разным темам x ) Случайная величина ξ имеет распределение Лапласа с плотностью f e. Найдите приближённое значение вероятности P(ξ > 3). ) Моделируйте выборку размера n = 00 из распределения

Подробнее

Функционал ошибки для классификации

Функционал ошибки для классификации Функционал ошибки для классификации Ошибка классификации Доля неправильных ответов: l Q a, X = 1 l L a x M y M MN$ Нотация Айверсона: истина = 1 ложь = 0 Ошибка классификации a(x) y 1 1 +1 +1 Доля неправильных

Подробнее

Локальные методы прогнозирования с выбором метрики 367

Локальные методы прогнозирования с выбором метрики 367 Локальные методы прогнозирования с выбором метрики 367 Локальные методы прогнозирования с выбором метрики А. А. Варфоломеева annette92@mail.ru Московский физико-технический институт, ФУПМ, каф. «Интеллектуальные

Подробнее

Сглаживающие алгоритмы прогнозирования

Сглаживающие алгоритмы прогнозирования 104 М. П. Кузнецов, А. А. Мафусалов, Н. К. Животовский, Е. Ю. Зайцев, Д. С. Сунгуров Сглаживающие алгоритмы прогнозирования М. П. Кузнецов, А. А. Мафусалов, Н. К. Животовский, Е. Ю. Зайцев, Д.С. Сунгуров

Подробнее