Методы коллаборативной фильтрации и тематического моделирования

Размер: px
Начинать показ со страницы:

Download "Методы коллаборативной фильтрации и тематического моделирования"

Транскрипт

1 Методы коллаборативной фильтрации и тематического моделирования К. В. Воронцов Этот курс доступен на странице вики-ресурса «Машинное обучение (курс лекций, К.В.Воронцов)» ноябрь 2011 К. В. Воронцов Методы коллаборативной фильтрации 1 / 38

2 Содержание Постановка задачи и приложения 1 Постановка задачи и приложения Постановка задачи Примеры приложений Модели коллаборативной фильтрации 2 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости 3 К. В. Воронцов Методы коллаборативной фильтрации 2 / 38

3 Определения и обозначения Постановка задачи Примеры приложений Модели коллаборативной фильтрации U множество субъектов (клиентов, пользователей: users); R множество объектов (ресурсов, товаров, предметов: items); Y пространство описаний транзакций; D = (u i,r i,y i ) m i=1 U R Y транзакционные данные; Агрегированные данные: F = f ur матрица кросс-табуляции размера U R, где f ur = aggr { (u i,r i,y i ) D u i = u, r i = r } Задачи: прогнозирование незаполненных ячеек f ur ; оценивание сходства: ρ(u,u ), ρ(r,r ), ρ(u,r); одновременная кластеризация множеств U и R; выявление латентных интересов p(t u), q(t r) относительно заданного либо неизвестного набора тем t = 1,...,T. К. В. Воронцов Методы коллаборативной фильтрации 3 / 38

if ($this->show_pages_images && $page_num < DocShare_Docs::PAGES_IMAGES_LIMIT) { if (! $this->doc['images_node_id']) { continue; } // $snip = Library::get_smart_snippet($text, DocShare_Docs::CHARS_LIMIT_PAGE_IMAGE_TITLE); $snips = Library::get_text_chunks($text, 4); ?>

4 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 1. Рекомендательная система по посещениям U пользователи Интернет; R ресурсы (сайты, страницы, документы, новости, и т.п.); f ur = [пользователь u посетил ресурс r]; Основная гипотеза Web Usage Mining: Действия (посещения) пользователя характеризуют его интересы, вкусы, привычки, возможности. Задачи персонализации предложений: выдать оценку ресурса r для пользователя u; выдать пользователю u ранжированный список рекомендуемых ресурсов; построить список ресурсов, близких к ресурсу r. К. В. Воронцов Методы коллаборативной фильтрации 4 / 38

5 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 2. Рекомендательная система по покупкам U клиенты интернет-магазина (amazon.com и др.); R товары (книги, видео, музыка, и т.п.); f ur = [клиент u купил товар r]; Задачи персонализации предложений: выдать оценку товара r для клиента u; выдать клиенту u список рекомендуемых товаров; предложить скидку на совместную покупку (cross-selling); информировать клиента о новом товаре (up-selling); сегментировать клиентскую базу; выделить интересы клиентов (найти целевые аудитории). К. В. Воронцов Методы коллаборативной фильтрации 5 / 38

6 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Пример 3. Рекомендательная система на основе рейтингов U клиенты интернет-магазина (netflix.com и др.); R товары (книги, видео, музыка, и т.п.); f ur = рейтинг, который клиент u выставил товару r; Задачи персонализации предложений те же. Пример: конкурс Netflix [www.netflixprize.com] 2 октября сентября 2009; главный приз $10 6 ; U = ; R = ; 10 8 рейтингов {1,2,3,4,5}; точность прогнозов оценивается по тестовой выборке D : RMSE 2 = 1 D (u,r) D ( fur ˆf ur ) 2; задача: уменьшить RMSE c до (на 10%). К. В. Воронцов Методы коллаборативной фильтрации 6 / 38

7 Пример 4. Анализ текстов Постановка задачи Примеры приложений Модели коллаборативной фильтрации U текстовые документы (статьи, новости, и т.п.); R ключевые слова или выражения; f ur = частота встречаемости слова r в тексте u. Задачи тематического моделирования (topic modeling): по тексту r найти тексты близкой тематики; кластеризовать тексты по темам; определить число тем (кластеров) в коллекции; построить иерархический каталог тем; определить, на какие подтемы разбивается каждая тема; проследить динамику развития темы во времени; найти публикации, авторов, организации, журналы, конференции по теме. К. В. Воронцов Методы коллаборативной фильтрации 7 / 38

8 Постановка задачи Примеры приложений Модели коллаборативной фильтрации Два основных подхода в коллаборативной фильтрации 1 (Memory-Based Collaborative Filtering) хранение всей исходной матрицы данных F; сходство клиентов это корреляция строк матрицы F; сходство объектов это корреляция столбцов матрицы F. 2 (Latent Models for Collaborative Filtering) оценивание профилей клиентов и объектов (профиль это вектор скрытых характеристик); хранение профилей вместо хранения F; сходство клиентов и объектов это сходство их профилей. Подборки статей по коллаборативной фильтрации: jamesthornton.com/cf ict.ewi.tudelft.nl/ jun/collaborativefiltering.html К. В. Воронцов Методы коллаборативной фильтрации 8 / 38

9 Тривиальная рекомендательная система Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, купившие r 0, также покупали R(r 0 )» [Amazon.com] u 0 { U(r 0 ) U r 0 R(r 0 ) R 1 U(r 0 ) := { u U } f ur0, u u 0 коллаборация; { 2 R(r 0 ) := r R B(r) = U(r 0) U(r) U(r 0 ) U(r) }, > 0 где B(r) одна из возможных мер близости r к r 0 ; 3 отсортировать R(r 0 ) по убыванию B(r), взять topn. К. В. Воронцов Методы коллаборативной фильтрации 9 / 38

10 Тривиальная рекомендательная система Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, купившие r 0, также покупали R(r 0 )» [Amazon.com] Недостатки: U рекомендации тривиальны (предлагается всё наиболее популярное); u 0 { U(r 0 ) r 0 R(r 0 ) не учитываются интересы конкретного пользователя u 0 ; проблема «холодного старта»; (новый товар никому не рекомендуется) надо хранить всю матрицу F. R К. В. Воронцов Методы коллаборативной фильтрации 10/ 38

11 Постановка задачи и приложения От клиента (user-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, похожие на u 0, также покупали R(u 0 )» u 0 U(u 0 ) U R(u 0 ) R 1 U(u 0 ) := { u U corr(u 0,u) > α } коллаборация; где corr(u 0,u) одна из возможных мер близости u к u 0 ; { 2 R(u 0 ) := r R B(r) = U(u 0) U(r) U(u 0 ) U(r) }; > 0 где U(r) := { u U f ur } ; 3 отсортировать r R(u 0 ) по убыванию B(r), взять topn; К. В. Воронцов Методы коллаборативной фильтрации 11/ 38

12 Постановка задачи и приложения От клиента (user-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «клиенты, похожие на u 0, также покупали R(u 0 )» Недостатки: рекомендации тривиальны; u 0 U(u 0 ) U R(u 0 ) не учитываются интересы конкретного пользователя u 0 ; проблема «холодного старта»; надо хранить всю матрицу F; нечего рекомендовать нетипичным/новым пользователям. R К. В. Воронцов Методы коллаборативной фильтрации 12/ 38

13 Постановка задачи и приложения От объекта (item-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «вместе с объектами, которые покупал u 0, часто покупают R(u 0 )» u 0 U r 0 r 0 R(u 0 ) R 1 R(u 0 ) := { r R r 0 : f u0 r 0 и B(r) = corr(r,r 0 ) > α } ; где corr(r,r 0 ) одна из возможных мер близости r к r 0 ; 2 сортировка r R(u 0 ) по убыванию B(r), взять topn; К. В. Воронцов Методы коллаборативной фильтрации 13/ 38

14 Постановка задачи и приложения От объекта (item-based CF) Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости «вместе с объектами, которые покупал u 0, часто покупают R(u 0 )» Недостатки: u 0 U r 0 r 0 R(u 0 ) рекомендации часто тривиальны (нет коллаборативности); проблема «холодного старта»; надо хранить всю матрицу F; нечего рекомендовать нетипичным пользователям. R К. В. Воронцов Методы коллаборативной фильтрации 14/ 38

15 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Восстановление пропущенных значений (рейтингов) Непараметрическая регрессия Надарайя Ватсона: K(u,u )(f u r f u ) u ˆf ur = f u + U α(u) K(u,u, ) где f u = 1 R(u) r R(u) u U α(u) f ur средний рейтинг клиента u, R(u) множество объектов, которые клиент u оценил, K(u,u ) сглаживающее ядро, функция близости u и u, U α (u) = {u K(u,u) > α} коллаборация клиента u. Недостатки: проблема «холодного старта»; надо хранить всю матрицу F; К. В. Воронцов Методы коллаборативной фильтрации 15/ 38

16 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Функции близости, используемые в корреляционных методах корреляция Пирсона: K(u,u ) = r R(u,u ) r R(u,u ) (f ur f u )(f u r f u ) (f ur f u ) 2 косинусная мера близости: f ur f u r K(u,u ) = r R(u,u ) r R(u,u ) f 2 ur r R(u,u ) r R(u,u ) ; fu 2 r (f u r f u ) 2; { R(u) R(u ), для бинарных данных, где R(u,u ) = R(u) R(u ), для рейтинговых данных. статистические критерии: χ 2, точный тест Фишера (для бинарных данных). К. В. Воронцов Методы коллаборативной фильтрации 16/ 38

17 Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Функции близости на основе статистических критериев Рассмотрим случай бинарных данных, f ur {0,1}. Нулевая гипотеза: клиенты u и u совершают свой выбор независимо. u: R(u) u : R(u ) R(u) R(u ) Вероятность случайной реализации r совместных выборов p(r) = P { R(u) R(u ) =r } = Cr R(u) C R(u ) r R R(u) C R(u ) R Функция близости R(u,u ) = logp ( R(u) R(u ) ).. К. В. Воронцов Методы коллаборативной фильтрации 17/ 38

18 Резюме по Memory-Based методам Модели, основанные на хранении данных Задача восстановления пропущенных значений Функции близости Преимущества для бизнес-приложений: Легко понять. Легко реализовать. Недостатки: Далее: Не хватает теоретического обоснования: придумано много способов оценить сходство... придумано много гибридных (item-user-based) методов и не ясно, что лучше; Все методы требуют хранения огромной матрицы F. Проблема «холодного старта». лишены этих недостатков. К. В. Воронцов Методы коллаборативной фильтрации 18/ 38

19 Понятие латентной модели Латентная ( ) модель: по данным D оцениваются векторы: ptu профили клиентов u U, G R ; ( )t G qtr профили объектов r R, H U. t H Типы латентных моделей (основные идеи): 1 Ко-кластеризация: { ptu = [ клиент u принадлежит кластеру t G ] ; жёсткая: q tr = [ объект r принадлежит кластеру t H ] ; мягкая: p tu, q tr степени принадлежности кластерам. 2 Матричные разложения: G H множество тем; по p tu, q tr должны восстанавливаться f ur. 3 Вероятностные модели: G H множество тем; p tu = p(t u), q tr = q(t r). К. В. Воронцов Методы коллаборативной фильтрации 19/ 38

20 Бикластеризация (ко-кластеризация) Пусть f ur вещественные числа или рейтинги; g: U G функции кластеризации клиентов ( G < ); h: R H функции кластеризации объектов ( H < ); Модель усреднения по блокам (Block Average): ˆf ur (g,h) = f g(u),h(r) +( f u f g(u) )+( f r f h(r) ); f g(u),h(r) средние по бикластерам; f g(u) и f h(r) средние по кластерам; f u и f r средние по клиентам и по объектам; Функционал качества бикластеризации: ) 2 (ˆf ur (g,h) f ur min ; g,h (u,r) D К. В. Воронцов Методы коллаборативной фильтрации 20/ 38

21 Алгоритм бикластеризации, похожий на k-means Алгоритм BBAC (Bregman Block Average Co-clustering) 1: инициализировать случайные кластеризации g(u), h(r); 2: пока кластеризации изменяются 3: вычислить средние по бикластерам f gh и кластерам f g, f h ; 4: вычислить новые кластеризации для всех клиентов u U: ) 2; g(u) := argmin (ˆf ur (g,h(r)) f ur g r 5: вычислить новые кластеризации для всех объектов r R: ) 2; h(r) := argmin (ˆf ur (g(u),h) f ur h u George T., Merugu S. A scalable collaborative filtering framework based on co-clustering // 5-th IEEE int. conf. on Data Mining, 2005, Pp Banerjee A., et al. A generalized maximum entropy approach to Bregman co-clustering and matrix approximation // 10-th KDDM, 2004, Pp К. В. Воронцов Методы коллаборативной фильтрации 21/ 38

22 Матричные разложения T множество тем (интересов): T U, T R ; p tu неизвестный профиль клиента u; P = ( p tu ) T U ; q tr неизвестный профиль объекта r; Q = ( q tr ) T R ; Задача: найти разложение f ur = π t p tu q tr ; t T Матричная запись: F = P т Q, = diag ( π 1,...,π T ) ; Вероятностный смысл: p(u, r) = }{{} t T f ur? p(t) }{{} p(u t) }{{} π t p tu q(r t); }{{} q tr Методы решения: SVD сингулярное разложение (плохо интерпретируется); NNMF неотрицательное матричное разложение: p tu 0, q tr 0; PLSA вероятностный латентный семантический анализ. К. В. Воронцов Методы коллаборативной фильтрации 22/ 38

23 Разреженный SVD (Singular Value Decomposition) Обычный не разреженный SVD: F P т Q 2 min. P,Q ( Разреженный SVD: f ur ) 2 p tu q tr min. (u,r) D t T P,Q }{{} ε ur Метод стохастического градиента: перебираем все (u,r) D многократно в случайном порядке и делаем каждый раз градиентный шаг для задачи ε 2 ur min: p u,q r p tu := p tu +ηε ur q tr, t T; q tr := q tr +ηε ur p tr, t T; Tacáks G., Pilászy I., Németh B., Tikk D. Scalable collaborative filtering approaches for large recommendation systems // JMLR, 2009, No. 10, Pp К. В. Воронцов Методы коллаборативной фильтрации 23/ 38

24 Разреженный SVD Постановка задачи и приложения Преимущества метода стохастического градиента: легко вводится регуляризация: ε 2 ur +λ p u 2 +µ q r 2 min p u,q r ; легко вводятся ограничения неотрицательности: p tu 0, q tr 0 (метод проекции градиента); легко вводятся обобщение для ранговых данных: ( β(f ur ) ) 2 p tu q tr min. P,Q,{β f } (u,r) D t T легко реализуются все виды инкрементности: добавление ещё одного клиента u, ещё одного объекта r, ещё одного значения f ur. высокая численная эффективность на больших данных; К. В. Воронцов Методы коллаборативной фильтрации 24/ 38

25 Вероятностный латентный семантический анализ (PLSA) Пусть T множество тем (интересов); Вероятностная модель посещений [Hofmann, 1999]: p(u,r) = p(t) p(u t) q(r t). t T Задача максимизации правдоподобия по p(t), p(u t), q(r t): L(,P,Q) = f ur lnp(u,r) max. u,r при ограничениях нормировки: p(t) = 1; p(u t) = 1; t T u U q(r t) = 1. r R Тематические профили вычисляются по формуле Байеса: p(t u) = p(u t)p(t) p(u s)p(s) ; q(r t)p(t) q(t r) = q(r s)p(s). s T s T К. В. Воронцов Методы коллаборативной фильтрации 25/ 38

26 Максимизация правдоподобия: ЕМ-алгоритм Сформировать начальные приближения p(t), p(u t), q(r t); Повторять итерации до сходимости: Е-шаг: скрытые переменные H по формуле Байеса: H(t u,r) = p(t)p(u t)q(r t) ; p(u,r) М-шаг: аналитическое решение задачи L(, P, Q) max: p(t) = S(t) S ; S(t) = f ur H(t u,r); S = u,r u,r p(u t) = 1 f ur H(t u,r); S(t) q(r t) = 1 S(t) r f ur H(t u,r). u f ur ; К. В. Воронцов Методы коллаборативной фильтрации 26/ 38

27 Вывод формул М-шага Распишем Лагранжиан: L = ( ) f ur lnp(u,r) ν p(t) 1 u,r t T ( ) λ t p(u t) 1 ( µ t t T u U t T r R ) q(r t) 1. L p(t) = u,r u,r f ur p(u t)q(r t) p(u,r) f ur p(u t)q(r t)p(t) p(u,r) p(t) = 1 S u,r ν = 0; f ur H(t u,r) = S(t) S ; = νp(t) ν = u,r f ur = S; К. В. Воронцов Методы коллаборативной фильтрации 27/ 38

28 Вывод формул М-шага (продолжение) L p(u t) = r L q(r t) = u r f ur p(t)q(r t) p(u,r) λ t = 0; f ur p(t)q(r t)p(u t) p(u,r) p(u t) = r u f ur p(t)p(u t) p(u,r) = λ t p(u t) λ t = / u,r f ur H(t u,r) f ur H(t u,r). µ t = 0; f ur p(t)p(u t)q(r t) p(u,r) q(r t) = u u,r = µ t q(r t) µ t = / u,r f ur H(t u,r) f ur H(t u,r). u,r f ur H(t u,r); f ur H(t u,r); К. В. Воронцов Методы коллаборативной фильтрации 28/ 38

29 Обобщения, модификации, применения Если f ur Z = {1,2,...,z max } рейтинги, то вместо p(u,r) = P(f ur ) надо оценивать (z max 1) вероятностей p z (u,r) = P(f ur z), z Z; Иерархические профили: темы разбиваются на подтемы; Инкрементные алгоритмы: обработка потока данных D; Учёт априорной информации через начальное приближение профилей: тематический каталог объектов; соц-дем (анкеты) клиентов; Унифицированный профиль объектов и клиентов; Долгосрочный и краткосрочный профили; Оценивание сходства по частям профиля. К. В. Воронцов Методы коллаборативной фильтрации 29/ 38

30 Данные Яндекс (Интернет-математика 2005) Исходные данные: 7 дней работы поисковой машины Яндекс; объём лога 3.6 Гб; пользователей; запросов; документов было выдано; документов были выбраны пользователями. Фрагмент лога: (номер пользователя) французская кухня (запрос) (время запроса) (сайт или документ) (время клика) жаренное мясо в вине К. В. Воронцов Методы коллаборативной фильтрации 30/ 38

31 Данные Яндекс (Интернет-математика 2005) Схема эксперимента: Отбор наиболее посещаемых сайтов, R = Отбор наиболее активных пользователей, U = Введение критериев качества профилей: 400 сайтов заранее классифицированы на T = 12 тематических классов; Q 1 = доля неправильно восстановленных профилей; Q 2 = число ошибок классификации методом knn; Оптимизация параметров по критерию качества. Построение профилей и оценок сходства сайтов. Визуализация: глобальные и локальные карты сходства. К. В. Воронцов Методы коллаборативной фильтрации 31/ 38

32 Результаты: подбор меры сходства оценки сходства по точному тесту Фишера (FET) лучше корреляций, а по профилям ещё лучше! Доля ошибок классификации методом knn EM-профили точный тест Фишера корреляция Число соседей k К. В. Воронцов Методы коллаборативной фильтрации 32/ 38

33 Задача многомерного шкалирования (multidimensional scaling) Дано: попарные расстояния R ij между n объектами. Найти: координаты этих объектов на плоскости (x i,y i ) n i=1 : S = i<j ( (x i x j ) 2 +(y i y j ) 2 R ij ) 2 min (x i,y i ) n i=1 Карта сходства (Similarity Map) это средство разведочного анализа многомерных данных: точечный график (x i,y i ) n i=1 ; близким объектам соответствуют близкие точки; оси графика не имеют интерпретации; возможны искажения. К. В. Воронцов Методы коллаборативной фильтрации 33/ 38

34 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по FET-оценкам сходства, T = 9 музыка новости мобильная связь рефераты медицина софт & игры бизнес путешествия развлечения неразмеченные Результат: темы удаётся проинтерпретировать :) К. В. Воронцов Методы коллаборативной фильтрации 34/ 38

35 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по профилям, T = 7 Результат кажется более содержательным :) К. В. Воронцов Методы коллаборативной фильтрации 35/ 38

36 Карта поисковых интересов пользователей Рунета Многомерное шкалирование по профилям, T = 12 К. В. Воронцов Методы коллаборативной фильтрации 36/ 38

37 Ещё одна визуализация: локальная карта пользователя Визуальное представление персональных рекомендаций: Карта сходства для пользователя forums.gameguru.ru К. В. Воронцов Методы коллаборативной фильтрации 37/ 38

38 Резюме Постановка задачи и приложения Коллаборативная фильтрация (Collaborative Filtering) это набор методов для построения рекомендательных систем (Recommender Systems). Тематическое моделирование (Topic Modeling) это набор методов для выявления латентных интересов клиентов или для выявления латентных тем в корпусе текстов. обладают рядом преимуществ: тематические профили содержательно интерпретируемы, могут оцениваться по внешним данным, что позволяет решать проблему «холодного старта» и строить тематическую кластеризацию (таксономию); оценки сходства клиентов и объектов более адекватны; резко сокращается объём хранимых данных. К. В. Воронцов Методы коллаборативной фильтрации 38/ 38

Методы коллаборативной фильтрации и их применения

Методы коллаборативной фильтрации и их применения Методы коллаборативной фильтрации и их применения К. В. Воронцов vokov@forecsys.ru http://www.ccas.ru/voron Вычислительный Центр им.а. А.Дородницына РАН; ЗАО «Форексис» ВШЭ, семинар Б. Г. Миркина, 10 ноября

Подробнее

ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД

ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД На правах рукописи ЛЕКСИН ВАСИЛИЙ АЛЕКСЕЕВИЧ ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД 01.01.09 Дискретная математика и математическая кибернетика Автореферат диссертации на соискание ученой степени

Подробнее

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ УДК 519.237 К. В. Воронцов, К. В. Рудаков, В. А. Лексин, А. Н. Ефимов Вычислительный центр РАН, г. Москва, Россия voron@ccas.ru ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ

Подробнее

Д. П. Ветров 1. Курс «Графические модели» ЕМ-алгоритм. Обучение скрытых. марковских моделей без учителя. Ветров. ЕМ-алгоритм в общем виде

Д. П. Ветров 1. Курс «Графические модели» ЕМ-алгоритм. Обучение скрытых. марковских моделей без учителя. Ветров. ЕМ-алгоритм в общем виде Д. П. 1 1 МГУ, ВМиК, каф. ММП Курс «Графические модели» План лекции 1 2 3 4 5 6 EM-алгоритм. Разложение логарифма Требуется найти максимум в вероятностной модели со скрытыми переменными: p(x Θ) = p(x,

Подробнее

Тензоры и рекомендательные системы

Тензоры и рекомендательные системы Тензоры и рекомендательные системы Аспирант: Халкечев Р. В. Научный руководитель: Воронцов К.В. Аспирантская школа по компьютерным наукам Национальный исследовательский университет "Высшая школа экономики"

Подробнее

Введение в анализ данных

Введение в анализ данных Введение в анализ данных Лекция 12 Рекомендательные системы Евгений Соколов esokolov@hse.ru НИУ ВШЭ, 2017 Опрос Какие рекомендательные системы вы знаете? Опрос Какие рекомендательные системы вы знаете?

Подробнее

Многомерная линейная регрессия. Метод главных компонент

Многомерная линейная регрессия. Метод главных компонент . Воронцов Константин Вячеславович vokov@forecsys.ru http://www.machinelearning.ru/wiki?title=user:vokov Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение

Подробнее

Машинное обучение: вводная лекция

Машинное обучение: вводная лекция Машинное обучение: вводная лекция К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» февраль

Подробнее

Методы кластеризации

Методы кластеризации Методы кластеризации Воронцов Константин Вячеславович vokov@forecsys.ru http://www.machinelearning.ru/wiki?title=user:vokov Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki

Подробнее

Рекомендательные системы

Рекомендательные системы Mail.Ru, 19 апреля 2014 г. Outline Коллаборативная фильтрация 1 Коллаборативная фильтрация 2 Холодный старт Дополнительная информация анализируют интересы пользователей и пытаются предсказать, что именно

Подробнее

Быстрые алгоритмы неотрицательных матричных разложений

Быстрые алгоритмы неотрицательных матричных разложений Быстрые алгоритмы неотрицательных матричных разложений Шадриков А. А. МГУ, ВМК, ММП 4 октября 2014 г. Содержание 1 Неотрицательное матричное разложение Задача матричного разложения Итерационные методы

Подробнее

Основы обработки текстов

Основы обработки текстов Основы обработки текстов Лекция 11 Тематическое моделирование Тематическое моделирование (Topic Modelling) Тематическая модель коллекции текстовых документов определяет к каким темам относится каждый документ

Подробнее

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы.

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы. План лекции Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru 1 Архитектура поисковых систем 2 Алгоритмы поисковых систем PageRank

Подробнее

Рекомендательные системы

Рекомендательные системы Лаборатория Интернет-исследований, Национальный исследовательский университет Высшая школа экономики Санкт-Петербург Лаборатория математической логики, Санкт-Петербургское отделение Математического института

Подробнее

Коллаборативная фильтрация в рекомендательных системах. SVD-разложение

Коллаборативная фильтрация в рекомендательных системах. SVD-разложение УДК 004.852 Коллаборативная фильтрация в рекомендательных системах. SVD-разложение Латкин И.И., студент Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Системы обработки информации и управления»

Подробнее

Анализ алгоритмов обучения коллаборативных рекомендательных систем

Анализ алгоритмов обучения коллаборативных рекомендательных систем УДК 004.58 Анализ алгоритмов обучения коллаборативных рекомендательных систем Д.Е. Королева, М.В. Филиппов МГТУ им. Н.Э. Баумана, Москва, 105005, Россия В статье рассмотрены алгоритмы коллаборативной фильтрации,

Подробнее

Основы обработки текстов

Основы обработки текстов Основы обработки текстов Лекция 11 Тематическое моделирование Тематическое моделирование (Topic Modelling) Тематическая модель коллекции текстовых документов определяет к каким темам относится каждый документ

Подробнее

Использование контекстной документной кластеризации для улучшения качества построения тематических моделей

Использование контекстной документной кластеризации для улучшения качества построения тематических моделей Использование контекстной документной кластеризации для улучшения качества построения тематических моделей А. В. Гринчук Московский физико-технический институт Факультет управления и прикладной математики

Подробнее

Машинное обучение (Machine Learning)

Машинное обучение (Machine Learning) Машинное обучение (Machine Learning) Уткин Л.В. Содержание 1 Наивный байесовский классификатор 2 1 Метод k ближайших соседей 2 Метод окна Парзена 3 Метод потенциальных функций Презентация является компиляцией

Подробнее

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных Введение в анализ данных: Классификация текста Юля Киселёва juliakiseleva@yandex-team.ru Школа анализа данных План на сегодня Постановка задачи, подходы и применения Построение и обучение классификатора

Подробнее

Лекция 11. Методы кластерного анализа проектирование данных на плоскость, метод главных компонент. Лектор Сенько Олег Валентинович

Лекция 11. Методы кластерного анализа проектирование данных на плоскость, метод главных компонент. Лектор Сенько Олег Валентинович Лекция 11 Методы кластерного анализа проектирование данных на плоскость, метод главных компонент Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток

Подробнее

Д. П. Ветров 1. Курс «Графические модели», 2012г. Лекция 3. Скрытые марковские модели. Ветров. Ликбез. Основы применения СММ.

Д. П. Ветров 1. Курс «Графические модели», 2012г. Лекция 3. Скрытые марковские модели. Ветров. Ликбез. Основы применения СММ. Д. П. 1 1 МГУ, ВМиК, каф. ММП Курс «Графические модели», 2012г. План 1 Метод динамического программирования 2 Определение Обучение с учителем Алгоритм Витерби 3 Графические модели с неполными данными Разделение

Подробнее

Рекомендательные системы

Рекомендательные системы Лаборатория Интернет-исследований, Национальный исследовательский университет Высшая школа экономики Санкт-Петербург 10 декабря 2013 г. Outline Коллаборативная фильтрация 1 Коллаборативная фильтрация 2

Подробнее

Юрий Лифшиц. Осень 2006

Юрий Лифшиц. Осень 2006 Автоматическая классификация текстов Лекция N 6 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 30 ... классификация осуществляется на добровольной основе Владимир Стржалковский

Подробнее

ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ

ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ 76 УДК 004.78 Пятикоп Е.Е., к.т.н. ИСПОЛЬЗОВАНИЕ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ МАТРИЦ В КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ Приазовский государственный технический университет Приведена классификация методов коллаборативной

Подробнее

Анализ сообществ в социальных сетях. Николай Скворцов

Анализ сообществ в социальных сетях. Николай Скворцов Анализ сообществ в социальных сетях Николай Скворцов Социальные сети как области с интенсивным использованием данных Телекоммуникационные связи (звонки, адресные книги и др.) Информационные сети (медиа,

Подробнее

Д. П. Ветров 1. Спецкурс «Графические модели» Лекция 5. Обучение без учителя. скрытых марковских моделей и. линейных динамических систем.

Д. П. Ветров 1. Спецкурс «Графические модели» Лекция 5. Обучение без учителя. скрытых марковских моделей и. линейных динамических систем. для Д. П. 1 1 МГУ, ВМиК, каф. ММП Спецкурс «Графические модели» Скрытая Марковская модель () для Скрытая Марковская модель [первого порядка] это вероятностная модель последовательности, которая Состоит

Подробнее

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович Лекция 4 Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й

Подробнее

Лекция 3. Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович

Лекция 3. Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович Лекция 3 Линейная регрессия, Оценки регрессионых параметров, Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович () МОТП, лекция

Подробнее

Методы поиска ассоциативных правил

Методы поиска ассоциативных правил Методы поиска ассоциативных правил К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» октябрь

Подробнее

Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет

Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ государственный университет ФАКУЛЬТЕТ УПРАВЛЕНИЯ И ПРИКЛАДНОЙ МАТЕМАТИКИ ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР ИМ А А ДОРОДНИЦЫНА

Подробнее

МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ

МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ УДК 4.85, 4.89 МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ Д.И. Игнатов (dgnatov@hse.ru) А.Ю. Каминская (skam9@gmal.com) Р.А. Магизов (dzhamn@gmal.com) ГУ-ВШЭ, Москва,

Подробнее

1 / 22

1 / 22 Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 22 План лекции 1 Постановка задачи, подходы и применения Постановка

Подробнее

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 План Понятие кластеризации Меры близости Классификация алгоритмов Неиерархические алгоритмы кластеризации Иерархические алгоритмы кластеризации План Понятие

Подробнее

МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ ТЕКСТОВ

МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ ТЕКСТОВ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МЭИ» Шаграев Алексей Галимович На правах рукописи УДК 004.852 МОДИФИКАЦИЯ,

Подробнее

Линейные методы классификации II

Линейные методы классификации II 1/40 Виктор Китов v.v.kitov@yandex.ru МГУ им.ломоносова, ф-т ВМиК, кафедра ММП. I семестр 2015 г. 2/40 Линейный дискриминант Фишера Содержание 1 Линейный дискриминант Фишера 2 Логистическая регрессия 3

Подробнее

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета»

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Юрий Лифшиц 2 ноября 2006 г. Содержание 1. Постановка задачи, подходы и применения 2 1.1. Введение.................................................

Подробнее

Машинное обучение: вводная лекция

Машинное обучение: вводная лекция Машинное обучение: вводная лекция К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» февраль

Подробнее

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции План лекции Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1, подходы и применения 1 / 22 2 / 22 План лекции Акценты

Подробнее

Лекция 12. Байесовские сети Методы анализа выживаемости. Лектор Сенько Олег Валентинович

Лекция 12. Байесовские сети Методы анализа выживаемости. Лектор Сенько Олег Валентинович Лекция 12 Байесовские сети Методы анализа выживаемости Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович () МОТП, лекция 12

Подробнее

Вероятностные тематические модели

Вероятностные тематические модели Вероятностные тематические модели Докладчик: Андрей Гомзин (528 гр.) Руководители: А. Коршунов, И. Белобородов 4 декабря 2012 г. Андрей Гомзин (528 гр.) Вероятностные тематические модели 4 декабря 2012

Подробнее

Семинары по байесовским методам

Семинары по байесовским методам Семинары по байесовским методам Евгений Соколов sokolov.evg@gmail.com 5 декабря 2014 г. 2 Нормальный дискриминантный анализ Нормальный дискриминантный анализ это частный случай байесовской классификации,

Подробнее

Фильтрация и тематическое моделирование коллекции научных документов

Фильтрация и тематическое моделирование коллекции научных документов Фильтрация и тематическое моделирование коллекции научных документов Сергей Воронов Научный руководитель: д.ф.-м.н. К.В.Воронцов Московский физико-технический институт (государственный университет) Факультет

Подробнее

Машинное обучение. Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ

Машинное обучение. Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ Машинное обучение состояние и перспективы Д.П. Ветров Руководитель группы Байесовских методов ВМК МГУ План выступления Классическая постановка задачи машинного обучения Современное состояние Графические

Подробнее

Документ. Векторная модель и анализ тематики

Документ. Векторная модель и анализ тематики Документ. Векторная модель и анализ тематики Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 17.01.2014 / 03 Outline Анализ корпуса на уровне документов Лексическая

Подробнее

ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ. Костевич А.Л., Шилкин А.В.

ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ. Костевич А.Л., Шилкин А.В. 364 Труды XXXIX Молодежной школы-конференции ОБ ЭФФЕКТИВНОСТИ ВЫЯВЛЕНИЯ МАРКОВСКОЙ ЗАВИСИМОСТИ С ИСПОЛЬЗОВАНИЕМ УНИВЕРСАЛЬНЫХ ПРЕДИКТОРОВ Костевич А.Л., Шилкин А.В. e-mail: kostevich@bsu.by Рассмотрим

Подробнее

Выполнил: Варламов Максим Игоревич, 427 группа. Научный руководитель: Майоров Владимир Дмитриевич

Выполнил: Варламов Максим Игоревич, 427 группа. Научный руководитель: Майоров Владимир Дмитриевич Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных Выполнил: Варламов Максим Игоревич, 427 группа Научный

Подробнее

3. РЕГРЕССИОННЫЙ АНАЛИЗ Постановка задачи регрессионного анализа

3. РЕГРЕССИОННЫЙ АНАЛИЗ Постановка задачи регрессионного анализа 55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

Подробнее

Topic Modeling Кольцов С.Н.

Topic Modeling Кольцов С.Н. http://linis.hse.ru/ Topic Modeling Кольцов С.Н. Введение в тематическое моделирование Тематическое моделирование в это способ построения модели коллекции текстовых документов, которая определяет, к каким

Подробнее

Системы рекомендаций. Катышев Алексей Школа анализа данных

Системы рекомендаций. Катышев Алексей Школа анализа данных Системы рекомендаций Катышев Алексей Школа анализа данных Каков план? Рекомендательные системы Что это? Зачем это? Основные проблемы и методы их решения Типы рекомендательных систем Плюсы и минусы каждого

Подробнее

Оценивание моделей. Метод максимального правдоподобия

Оценивание моделей. Метод максимального правдоподобия Оценивание моделей дискретного выбора Метод максимального правдоподобия План лекции. Метод максимального правдоподобия. Свойства оценок ММП 3. Пример оценки ММП для классической линейной регрессии 4. Модели

Подробнее

u ik λ k v kj + c ij, (1) u 2 ik =

u ik λ k v kj + c ij, (1) u 2 ik = В. В. Стрижов. «Информационное моделирование». Конспект лекций. Сингулярное разложение Сингулярное разложение (Singular Values Decomposition, SVD) является удобным методом при работе с матрицами. Cингулярное

Подробнее

Что такое машинное обучение. Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ

Что такое машинное обучение. Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ Что такое машинное обучение Сергей Бартунов ДБДиИП, ФКН НИУ ВШЭ Машинное обучение Машинное обучение Научная дисциплина, изучающая алгоритмы, способные настраиваться по данным Как отличить смородину от

Подробнее

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006 Информационный поиск Архитектура поисковых систем PageRank Лекция N 3 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 29 Авторы алгоритмов ссылочной популярности В ноябре

Подробнее

Не говорите мне, что эта проблема сложна. Будь она проста, не было бы проблемы. Открытые проблемы по веб-алгоритмам

Не говорите мне, что эта проблема сложна. Будь она проста, не было бы проблемы. Открытые проблемы по веб-алгоритмам Не говорите мне, что эта проблема сложна. Будь она проста, не было бы проблемы. Открытые проблемы по веб-алгоритмам Лекция N курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 006 Фердинанд

Подробнее

План лекции. 1 Смесь Гауссовских распределений. 2 EM-алгоритм. 3 Информационные методы

План лекции. 1 Смесь Гауссовских распределений. 2 EM-алгоритм. 3 Информационные методы План лекции 1 Смесь Гауссовских распределений 2 EM-алгоритм 3 Информационные методы А. А. Бояров, А. А. Сенов (СПбГУ) стохастическое программирование весна 2014 1 / 21 Смешанные модели Пусть W подмножество

Подробнее

Краткое резюме некоторых прикладных проектов Рыжова А.П.

Краткое резюме некоторых прикладных проектов Рыжова А.П. Краткое резюме некоторых прикладных проектов Рыжова А.П. 1. Системы оценки и мониторинга сложных процессов. Задача оценки и мониторинга включает в себя оценку состояния некоторого процесса и моделирование

Подробнее

Сглаживающие алгоритмы прогнозирования

Сглаживающие алгоритмы прогнозирования 104 М. П. Кузнецов, А. А. Мафусалов, Н. К. Животовский, Е. Ю. Зайцев, Д. С. Сунгуров Сглаживающие алгоритмы прогнозирования М. П. Кузнецов, А. А. Мафусалов, Н. К. Животовский, Е. Ю. Зайцев, Д.С. Сунгуров

Подробнее

Тематическая классификация текстов

Тематическая классификация текстов Тематическая классификация текстов С.В. Панков, С.П. Шебанин, А.А. Рыбаков ROOKEE sergey.pankov@re-actor.ru, sergey.shebanin@re-actor.ru, alexander.ribakov@re-actor.ru Аннотация В статье описан алгоритм

Подробнее

ДНК-микрочипы и анализ данных по экспрессии генов

ДНК-микрочипы и анализ данных по экспрессии генов ДНК-микрочипы и анализ данных по экспрессии генов ДНК-микрочипы Способ измерения уровня экспрессии РНК для каждого гена. Принцип действия: гибридизация мрнк с зондом - комплиментарной ДНК последовательностью

Подробнее

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ Парная линейная регрессия регрессионная зависимость между двумя переменными у и х, т е модель вида y a e, где у отклик, х фактор, e - случайная «остаточная» компонента Далее рассмотрим

Подробнее

Рекомендательные системы

Рекомендательные системы Центр Речевых Технологий, 2012 Outline 1 Коллаборативная фильтрация 2 Постановка задачи и бандиты DGP анализируют интересы пользователей и пытаются предсказать, что именно будет наиболее интересно для

Подробнее

Обзор алгоритмов машинного обучения. Воронов Александр Video Group CS MSU Graphics & Media Lab

Обзор алгоритмов машинного обучения. Воронов Александр Video Group CS MSU Graphics & Media Lab Обзор алгоритмов машинного обучения Воронов Александр Vdeo Group CS MSU Graphcs & Meda Lab On for Maxus Содержание Введение Дерево решений Статистические алгоритмы Метрические алгоритмы SVM AdaBoost CS

Подробнее

Учебная дисциплина Б Математика Профиль подготовки: Производственный менеджмент

Учебная дисциплина Б Математика Профиль подготовки: Производственный менеджмент ОЦЕНОЧНЫЕ СРЕДСТВА ДЛЯ ТЕКУЩЕГО КОНТРОЛЯ УСПЕВАЕМОСТИ, ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ПО ИТОГАМ ОСВОЕНИЯ ДИСЦИПЛИНЫ Учебная дисциплина Б.2.1 - Математика Профиль подготовки: Производственный менеджмент Тематика

Подробнее

АННОТАЦИЯ РАБОЧЕЙ ПРОГРАММЫ УЧЕБНОЙ ДИСЦИПЛИНЫ

АННОТАЦИЯ РАБОЧЕЙ ПРОГРАММЫ УЧЕБНОЙ ДИСЦИПЛИНЫ Министерство образования и науки Российской Федерации Федеральное Государственное Бюджетное образовательное учреждение высшего образования «Российский экономический университет имени Г.В. Плеханова» Факультет

Подробнее

Иерархические аддитивно регуляризованные вероятностные тематические модели

Иерархические аддитивно регуляризованные вероятностные тематические модели Иерархические аддитивно регуляризованные вероятностные тематические модели Надежда Чиркова 1 Научный руководитель: Воронцов К. В. 2 1 ВМК МГУ 2 ВЦ РАН Традиционная молодежная школа, 19.06.2015 Надежда

Подробнее

Вероятностные тематические модели коллекций текстовых документов

Вероятностные тематические модели коллекций текстовых документов Вероятностные тематические модели коллекций текстовых документов К. В. Воронцов vokov@forecsys.ru Просеминар кафедры «Математические методы прогнозирования» ВМК МГУ http://www.machinelearning.ru/wiki «ММП»

Подробнее

Линейная регрессия: метод наименьших квадратов

Линейная регрессия: метод наименьших квадратов Линейная регрессия: метод наименьших квадратов Академический Университет, 2012 Outline Наименьшие квадраты и ближайшие соседи Метод наименьших квадратов Метод ближайших соседей 1 Наименьшие квадраты и

Подробнее

ЧИСЛЕННОЕ СРАВНЕНИЕ ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ С ОДНОШАГОВЫМИ И ВЛИЯНИЕ ТОЧНОСТИ ОЦЕНИВАНИЯ НА РАСПРЕДЕЛЕНИЯ СТАТИСТИК КРИТЕРИЕВ СОГЛАСИЯ [1]

ЧИСЛЕННОЕ СРАВНЕНИЕ ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ С ОДНОШАГОВЫМИ И ВЛИЯНИЕ ТОЧНОСТИ ОЦЕНИВАНИЯ НА РАСПРЕДЕЛЕНИЯ СТАТИСТИК КРИТЕРИЕВ СОГЛАСИЯ [1] Заводская лаборатория. Диагностика материалов. 2003. Т. 69. С.62-68. УДК 519.2 ЧИСЛЕННОЕ СРАВНЕНИЕ ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ С ОДНОШАГОВЫМИ И ВЛИЯНИЕ ТОЧНОСТИ ОЦЕНИВАНИЯ НА РАСПРЕДЕЛЕНИЯ СТАТИСТИК

Подробнее

Применение тематического моделирования для поиска агентов влияния в социальных сетях

Применение тематического моделирования для поиска агентов влияния в социальных сетях Применение тематического моделирования для поиска агентов влияния в социальных сетях Аванесов Валерий Институт Системного Программирования РАН avanesov@ispras.ru 7 марта 2014 г. Аванесов Валерий (ИСП РАН)

Подробнее

ЗАДАЧА ТАКСОНОМИИ И ТУПИКОВЫЕ ПОКРЫТИЯ ЦЕЛОЧИСЛЕННОЙ МАТРИЦЫ

ЗАДАЧА ТАКСОНОМИИ И ТУПИКОВЫЕ ПОКРЫТИЯ ЦЕЛОЧИСЛЕННОЙ МАТРИЦЫ РОССИЙСКАЯ АКАДЕМИЯ НАУК ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР СООБЩЕНИЯ ПО ПРИКЛАДНОЙ МАТЕМАТИКЕ Е.В. ДЮКОВА, А.С. ИНЯКИН ЗАДАЧА ТАКСОНОМИИ И ТУПИКОВЫЕ ПОКРЫТИЯ ЦЕЛОЧИСЛЕННОЙ МАТРИЦЫ ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР РАН МОСКВА 200

Подробнее

Методы моделирования

Методы моделирования Методы моделирования Содержание 1. Понятие модели и МСА 2. Особенности МСА 3. Этапы исследования с помощью МСА 4. Корреляционно-регрессионный анализ 5. Кластерный анализ 6. Методы редукции признакового

Подробнее

Байесовские классификаторы

Байесовские классификаторы Академический Университет, весенний семестр 2011 Outline 1 2 Multivariate Naive Bayes Multinomial Naive Bayes Применяем теорему Байеса Итак, нам нужно найти наиболее вероятную гипотезу h H при условии

Подробнее

УДК ОПТИМАЛЬНАЯ КЛАСТЕРИЗАЦИЯ МНОГОМЕРНЫХ ВЕКТОРОВ. Краснов А.Е., Яньков В.Ю., Красников С.А., Чернов Е.А.

УДК ОПТИМАЛЬНАЯ КЛАСТЕРИЗАЦИЯ МНОГОМЕРНЫХ ВЕКТОРОВ. Краснов А.Е., Яньков В.Ю., Красников С.А., Чернов Е.А. УДК 519684 ОПТИМАЛЬНАЯ КЛАСТЕРИЗАЦИЯ МНОГОМЕРНЫХ ВЕКТОРОВ Краснов АЕ Яньков ВЮ Красников СА Чернов ЕА Московский государственный университет технологий и управления имени КГ Разумовского Аннотация Статья

Подробнее

А.В. КРЯНЕВ, Г.В. ЛУКИН МЕТРИЧЕСКИЙ АНАЛИЗ И ОБРАБОТКА ДАННЫХ

А.В. КРЯНЕВ, Г.В. ЛУКИН МЕТРИЧЕСКИЙ АНАЛИЗ И ОБРАБОТКА ДАННЫХ А.В. КРЯНЕВ, Г.В. ЛУКИН МЕТРИЧЕСКИЙ АНАЛИЗ И ОБРАБОТКА ДАННЫХ Рекомендовано УМО в области ядерные физика и технологии в качестве учебного пособия МОСКВА ФИЗМАТЛИТ 2010 УДК 519.2+6 ББК 22.17, 22.19 К85

Подробнее

Изучение байесовских экспериментальных планов для нелинейных регрессионных моделей

Изучение байесовских экспериментальных планов для нелинейных регрессионных моделей Изучение байесовских экспериментальных планов для нелинейных регрессионных моделей Колесник Ирина Владимировна, гр. 522 Санкт-Петербургский государственный университет Математико-механический факультет

Подробнее

ПРИМЕНЕНИЕ МЕТОДА КЛАСТЕРИЗАЦИИ ДЛЯ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКОГО ЗАБОЛЕВАНИЯ Данилова И.И. Московский Технический Университет Связи и Информатики

ПРИМЕНЕНИЕ МЕТОДА КЛАСТЕРИЗАЦИИ ДЛЯ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКОГО ЗАБОЛЕВАНИЯ Данилова И.И. Московский Технический Университет Связи и Информатики ПРИМЕНЕНИЕ МЕТОДА КЛАСТЕРИЗАЦИИ ДЛЯ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКОГО ЗАБОЛЕВАНИЯ Данилова И.И. Московский Технический Университет Связи и Информатики Москва, Россия APPLICATION OF CLUSTERING FOR DIAGNOSIS OF

Подробнее

Юрий Лифшиц. Осень 2006

Юрий Лифшиц. Осень 2006 Открытые проблемы по веб-алгоритмам Лекция N 11 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 34 Не говорите мне, что эта проблема сложна. Будь она проста, не было бы проблемы.

Подробнее

Алгоритм распределенного вычисления тематической центральности пользователей в социальном графе для измерения их взаимного информационного влияния

Алгоритм распределенного вычисления тематической центральности пользователей в социальном графе для измерения их взаимного информационного влияния Алгоритм распределенного вычисления тематической центральности пользователей в социальном графе для измерения их взаимного информационного влияния Аванесов Валерий Механико-математический факультет МГУ

Подробнее

Григорьева Н.С., Германова И.Е Санкт-Петербургский государственный университет, Россия, Санкт-Петербург

Григорьева Н.С., Германова И.Е Санкт-Петербургский государственный университет, Россия, Санкт-Петербург УДК 519.854 Задача построения цикла минимальной длины в ориентированном графе Григорьева Н.С., Германова И.Е Санкт-Петербургский государственный университет, Россия, Санкт-Петербург gns@interzet.ru, urka.6@mail.ru

Подробнее

Задача классификации Предположим, что мы наблюдаем качественный отклик Y, и p разных предикторов X 1,X 2,...,X p. Предположим, что взаимосвязь между

Задача классификации Предположим, что мы наблюдаем качественный отклик Y, и p разных предикторов X 1,X 2,...,X p. Предположим, что взаимосвязь между Классификация "Some of the figures in this presentation are taken from "An Introduction to Statistical Learning, with applications in R" (Springer, 2013) with permission from the authors: G. James, D.

Подробнее

Статистические (байесовские) методы классификации

Статистические (байесовские) методы классификации Статистические (байесовские) методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.machinelearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)»

Подробнее

Машины на опорных векторах (SVM-регрессия)

Машины на опорных векторах (SVM-регрессия) Машины на опорных векторах (SVM-регрессия) В.В.Вьюгин ИППИ РАН SVM-регрессия (SVR) Основное предположение: ( x i,y i ) i.i.d согласно P, где x i R n, y i R. Ошибки обобщения будут оцениваться через P.

Подробнее

Исследование методов сегментации изображений

Исследование методов сегментации изображений Исследование методов сегментации изображений Артем Скребков, Владислав Виноградов, Дмитрий Кручинин, Евгений Долотов Руководитель: Козинов Е.А. Сегментация изображения Сегментация процесс разделения изображения

Подробнее

Анализ целевой аудитории

Анализ целевой аудитории Анализ целевой аудитории Целевая аудитория Одной из основных задач маркетинга является анализ целевой аудитории, т.е. выявление групп людей, которые с наибольшей вероятностью купят товар или воспользуются

Подробнее

Мультимодальные тематические модели социальных сетей

Мультимодальные тематические модели социальных сетей Мультимодальные тематические модели социальных сетей Костюк А. А. Московский физико-технический институт Факультет управления и прикладной математики Кафедра интеллектуальных систем Научный руководитель:

Подробнее

Semi-supervised Learning with Deep Generative Models

Semi-supervised Learning with Deep Generative Models Semi-supervised Learning with Deep Generative Models Хайруллин Ринат Московский физико-технический институт Хайруллин Ринат Page Rank 1 / 28 План доклада Вариационный вывод и SVGB. Deep Generative Models

Подробнее

А. С. Конушин 1 Д. П. Ветров 2 Д. А. Кропотов 3 В. С. Конушин 1 О. В. Баринова 1. Спецкурс «Структурные методы анализа изображений и сигналов»

А. С. Конушин 1 Д. П. Ветров 2 Д. А. Кропотов 3 В. С. Конушин 1 О. В. Баринова 1. Спецкурс «Структурные методы анализа изображений и сигналов» . Фильтр. Фильтр А. С. Конушин 1 Д. П. Ветров 2 Д. А. 3 В. С. Конушин 1 О. В. Баринова 1 1 МГУ, ВМиК, лаб. КГ 2 МГУ, ВМиК, каф. ММП 3 ВЦ РАН Спецкурс «Структурные методы анализа изображений и сигналов»

Подробнее

Влияние меры сходства на результативность РС

Влияние меры сходства на результативность РС ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ 5(23), 2014, c. 55 65 УДК 004.9 Д. М. Понизовкин Влияние меры сходства на результативность РС Аннотация. В данной работе рассматриваются две основные

Подробнее

«Кластеры на факторах» - об одном распространенном заблуждении

«Кластеры на факторах» - об одном распространенном заблуждении Привет Асхат Хасянович! Написал тут (грешным делом) статью на ту тему, о которой мы с тобой неоднократно говорили. Статья пойдет в летний номер "Социология 4М". Мне было бы интересно твое мнение и, возможно,

Подробнее

Глава 2. Линейное программирование

Глава 2. Линейное программирование Глава 2 Линейное программирование В линейном программировании изучаются задачи об экстремуме линейной функции нескольких переменных при ограничениях типа равенств и неравенств, задаваемых также линейными

Подробнее

Лекция Сглаживание экспериментальных зависимостей. 6. Сглаживание экспериментальных зависимостей

Лекция Сглаживание экспериментальных зависимостей. 6. Сглаживание экспериментальных зависимостей Лекция 5 6. Сглаживание экспериментальных зависимостей 6.. Метод наименьших квадратов 6... Теоретическое обоснование метода наименьших квадратов 7. Проверка статистических гипотез 7..Критерий согласия

Подробнее

Исследование применимости ARCH-подхода для прогнозирования состояния водоисточника

Исследование применимости ARCH-подхода для прогнозирования состояния водоисточника УДК 519.46.8 Исследование применимости ARC-подхода для прогнозирования состояния водоисточника ФГБОУ ВПО «Ульяновский государственный технический университет» Донская Алена, студентка Кувайскова Юлия Евгеньевна,

Подробнее

Применение алгоритмов кластеризации в задачах навигации по глубинам морского дна

Применение алгоритмов кластеризации в задачах навигации по глубинам морского дна 1 Применение алгоритмов кластеризации в задачах навигации по глубинам морского дна Клюева Светлана Федоровна, канд. тех. наук, доцент ФГБОУ ВО «Морской государственный университет им. адм. Г. И. Невельского»

Подробнее

Учебно-методический комплекс по дисциплине "МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ"

Учебно-методический комплекс по дисциплине МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ МИНИСТЕРСТВО ОБРАЗОВАНИЯ МОСКОВСКОЙ ОБЛАСТИ АКАДЕМИЯ СОЦИАЛЬНОГО УПРАВЛЕНИЯ Кафедра общей психологии и психологии развития Учебно-методический комплекс по дисциплине "МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ"

Подробнее

Примеры вероятностных моделей

Примеры вероятностных моделей Computer Science Club, Казань, 2014 Outline Категоризация текстов: naive Bayes и LDA Naive Bayes Latent Dirichlet allocation 1 Категоризация текстов: naive Bayes и LDA Naive Bayes Latent Dirichlet allocation

Подробнее

Эконометрическое моделирование

Эконометрическое моделирование Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание

Подробнее

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,

Подробнее

Министерство образования и науки Российской Федерации. Факультет радиоэлектроники и информатики

Министерство образования и науки Российской Федерации. Факультет радиоэлектроники и информатики Министерство образования и науки Российской Федерации РЫБИНСКАЯ ГОСУДАРСТВЕННАЯ АВИАЦИОННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ ИМЕНИ П.А. СОЛОВЬЕВА Факультет радиоэлектроники и информатики Кафедра «МПО ЭВС» «УТВЕРЖДАЮ»

Подробнее

Рекомендательные системы

Рекомендательные системы Рекомендательные системы В статье предпринята попытка описать и классифицировать наиболее распространенные алгоритмы построения рекомендательных систем. Рекомендательные системы (РС применяются в основном

Подробнее