Часть II. Последовательности

Save this PDF as:
 WORD  PNG  TXT  JPG

Размер: px
Начинать показ со страницы:

Download "Часть II. Последовательности"

Транскрипт

1 Часть II Последовательности

2 N-граммы. Моделирование локального контекста Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург / 04

3 Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

4 Контекст Предсказание слова Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

5 Контекст Предсказание слова Эксперимент Для начала проведем небольшой эксперимент

6 Контекст Предсказание слова Предсказание слова сегодняшний...?

7 Контекст Предсказание слова Предсказание слова сегодняшний день?

8 Контекст Предсказание слова Условная вероятность P(B A) = P(B A) P(A) (1) P(день сегодняшний) = f (сегодняшний день) f (сегодняшний) = = 0.75 (2)

9 Контекст Модель контекста: N-граммы Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

10 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

11 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

12 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

13 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

14 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

15 Контекст Модель контекста: N-граммы Скользящее окно Марков использовал новое понятие для статистического анализа распределения букв в знаменитой поэме Пушкина «Евгений Онегин». статистического анализа статистического распределения статистического букв анализа распределения анализа букв распределения букв

16 Контекст Модель контекста: N-граммы Скользящее окно Марков использовал новое понятие для статистического анализа распределения букв в знаменитой поэме Пушкина «Евгений Онегин». поэме Пушкина поэме Евгений поэме Онегин Пушкина Евгений Пушкина Онегин Евгений Онегин

17 Языковая модель Вероятность языковых событий Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

18 Языковая модель Вероятность языковых событий Вероятность языковых событий Вероятность основана на подсчете событий (частотность) В лингвистике считаем события в корпусе вероятность = относительная частотность Пример расчета вероятности слова Всего слов в корпусе = воскресенье = сегодняшний = 17 P воскресенье = P сегодняшний = = Maximum Likelihood Estimation, MLE Принцип максимального правдоподобия

19 Языковая модель Вероятность языковых событий Language model Языковая модель приписывает вероятность фрагменту текста (высказыванию, предложению...) Иными словами: максимизирует вероятность реальных текстов минимизирует вероятность нереальных текстов При наличии омонимии позволяет выбрать более вероятный вариант.

20 Языковая модель Цепь Маркова Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

21 Языковая модель Цепь Маркова Цепь Маркова система с конечным числом состояний следующее состояние зависит только от N предыдущих Применительно к тексту: Следующее слово зависит только от предыдущего (N предыдущих)

22 Языковая модель N-граммные языковые модели Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

23 Языковая модель N-граммные языковые модели Вероятность предложения P = f (На сегодняшний день это) f (W 1 W 2 W 3 W 4 ) = =

24 Языковая модель N-граммные языковые модели Вероятность независимых событий Независимые события наступление одного не изменяет вероятности другого. P(B A) = P(A) B > 0 (3) P(B A) = P(A) P(B) (4)

25 Языковая модель N-граммные языковые модели Униграммная языковая модель На 479 сегодняшний 32 день 201 это =

26 Языковая модель N-граммные языковые модели Биграммная языковая модель Markov assumption: P(На сегодняшний день это) P(это день) P(день сегодняшний) P(сегодняшний на) = = =

27 Языковая модель N-граммные языковые модели Триграммная языковая модель P(На сегодняшний день это) P(это сегодняшний день) P(день на сегодняшний) = = = 0.037

28 Классификация: Определение языка Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

29 Классификация: Определение языка Идея классификации с помощью языковых моделей Задача Определить язык текста (выбрать из известных языков) Идея Языковые модели текстов на одном языке будут похожи.

30 Классификация: Определение языка Текст как список n-грамм букв в общем bi-grams: _в, в_, _о, об, бщ, ще, ем, м_ tri-grams: _в_, в, _об, общ, бще, щем, ем_, м quad-grams: _в, в _, _общ, обще, бщем, щем_, ем, м _

31 Классификация: Определение языка Зашумленные источники (независимо от причин ошибок: опечатки, вариативность, OCR) вообщем bi-grams: _в, во, oо, об, бщ, ще, ем, м_ tri-grams: _во, воо, ооб, общ, бще, щем, ем_, м quad-grams: _воо, вооб, ообщ, обще, бщем, щем_, ем, м _

32 Классификация: Определение языка Бесплатный стемминг! (независимо от языка если алфавитная письменность) в общем bi-grams: _в, в_, _о, об, бщ, ще, ем, м_ tri-grams: _в_, в, _об, общ, бще, щем, ем_, м quad-grams: _в, в _, _общ, обще, бщем, щем_, ем, м _

33 Классификация: Определение языка Определение языка по методу N-грамм Cavnar, Trenkle 1994 Языковая модель (N-граммный профиль): 1. Составить отсортированный по частотности список n-грамм букв (от 1-грамм до 5-грамм в общем списке) 2. Отсечь список (первые 400 частотных n-грамм) Метод: 1. Построить N-граммные профили на основе корпусов текстов для всех языков, которые нужно различать 2. Построить модель для документа, язык которого нужно определить 3. Сравнить получившуюся модель документа с моделями всех языков 4. Выбрать язык, для которого расстояние между профилями документа и языка минимально Точность 98%!

34 Классификация: Определение языка Определение языка по методу N-грамм Cavnar, Trenkle 1994 Языковая модель (N-граммный профиль): 1. Составить отсортированный по частотности список n-грамм букв (от 1-грамм до 5-грамм в общем списке) 2. Отсечь список (первые 400 частотных n-грамм) Метод: 1. Построить N-граммные профили на основе корпусов текстов для всех языков, которые нужно различать 2. Построить модель для документа, язык которого нужно определить 3. Сравнить получившуюся модель документа с моделями всех языков 4. Выбрать язык, для которого расстояние между профилями документа и языка минимально Точность 98%!

35 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

36 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

37 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

38 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

39 Классификация: Определение языка Ранги n-грамм по частотности до 300 ранга язык: частотное распределение букв в языке короткие и частотные грамматические слова наиболее частотные префиксы и суффиксы после 300 рагна лексика и предметная область: наиболее частотные корни/слова

40 Снятие неоднозначности Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

41 Снятие неоднозначности N-граммы в задачах снятия неоднозначности Снятие неоднозначности (disambiguation) на разных уровнях: Определение частей речи (part of speech tagging) Снятие лексической омонимии (word sense disambiguation) Выбор варианта синтаксического разбора (syntactic disambiguation) и т.п.

42 Снятие неоднозначности Part of speech tagging То же касается отстегивания от России кавказского грузила. То/SPRO/APRO/PART/CONJ же/part/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/v/s.

43 Снятие неоднозначности Part of speech tagging То/SPRO же/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/v=грузить.

44 Снятие неоднозначности Part of speech tagging То/SPRO же/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/s=грузило.

45 Снятие неоднозначности TnT: N-gram PoS tagging Brants, 2000 от/pr России/S кавказского/a грузила/v P грузила=v = P(V S, A)P(грузила V ) = от/pr России/S кавказского/a грузила/s P грузила=s = P(S S, A)P(грузила S) = (λ 1 P(S) + λ 2 P(S A) + λ 3 P(S S, A)) P(грузила S) ( ) S = λ 1 N + λ f (A, S) f (S, A, S) f (грузила,s) 2 + λ 3 f (S) f (S, A) f (S)

46 Снятие неоднозначности TnT: N-gram PoS tagging Brants, 2000 от/pr России/S кавказского/a грузила/v P грузила=v = P(V S, A)P(грузила V ) = от/pr России/S кавказского/a грузила/s P грузила=s = P(S S, A)P(грузила S) = (λ 1 P(S) + λ 2 P(S A) + λ 3 P(S S, A)) P(грузила S) ( ) S = λ 1 N + λ f (A, S) f (S, A, S) f (грузила,s) 2 + λ 3 f (S) f (S, A) f (S)

Частотные регулярные языки

Частотные регулярные языки Частотные регулярные языки Д.Н. Бабин Естественные языки обладают свойством постоянной частоты встречаемости букв и пар букв. В статье изучены регулярные языки с этим свойством. Ключевые слова: естественный

Подробнее

Автоматическое извлечение правил для снятия морфологической неоднозначности

Автоматическое извлечение правил для снятия морфологической неоднозначности Автоматическое извлечение правил для снятия морфологической неоднозначности Екатерина Протопопова, Виктор Бочаров СПбГУ, Санкт-Петербург, Россия, protoev@gmail.com, victor.bocharov@gmail.com Аннотация.

Подробнее

Введение. Обработка естественного языка, или компьютерная лингвистика

Введение. Обработка естественного языка, или компьютерная лингвистика Введение. Обработка естественного языка, или компьютерная лингвистика Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 16.01.2013 / 01 Outline Задачи курса Предмет

Подробнее

Машинное обучение. Классификация

Машинное обучение. Классификация Машинное обучение. Классификация Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 12.11.2014 / 05 Outline Машинное обучение Задача классификации Деревья принятия

Подробнее

Лингвистика длинного хвоста. Николай Григорьев Отдел голосовых технологий

Лингвистика длинного хвоста. Николай Григорьев Отдел голосовых технологий Лингвистика длинного хвоста Николай Григорьев Отдел голосовых технологий Устройство Web-поиска Индекс: архив документов обратный индекс: по слову выдает все содержащие его документы данные о документах

Подробнее

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА С.В. Гусев, программист ЗАО «НОРСИ-ТРАНС» А.М. Чеповский, кандидат технических наук, профессор кафедры информационных систем Московского государственного

Подробнее

ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1

ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1 ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1 Е.В. Ягунова Во время коммуникативного акта человек непрерывно планирует (программирует) свою речевую деятельность,

Подробнее

Скрытые марковские модели

Скрытые марковские модели : основное Академический Университет, весенний семестр 2011 Outline : основное 1 : основное 2 Смеси выпуклых распределений Продолжительность состояния : основное Марковская цепь задаётся начальным распределением

Подробнее

Обработка информации и управление

Обработка информации и управление УДК 4.22 Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи И. С. Кипяткова, младший научный сотрудник А. А. Карпов, канд.

Подробнее

ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL.

ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL. ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL Протасов С. В. ru.tj@svp Московский Физико-Технический Институт (Государственный

Подробнее

Математические модели в лингвистике

Математические модели в лингвистике Математические модели в лингвистике 10. Измерение расстояний между корпусами текстов Мати Пентус, Александр Пиперски, Алексей Сорокин МГУ, межфакультетский курс, осенний семестр 2017 2018 учебного года

Подробнее

Алгоритм EM и его применения

Алгоритм EM и его применения Computer Science Club, Екатеринбург, 2011 Outline Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 1 Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 2 Введение Алгоритм EM Смесь

Подробнее

Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации

Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации УДК 004.934.1 Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации Введение Маланин Г.П., студент кафедра «Программное обеспечение ЭВМ и информационные технологии»,

Подробнее

Введение в обработку текстов. Лекция 3 Статистические методы поиска словосочетаний

Введение в обработку текстов. Лекция 3 Статистические методы поиска словосочетаний Введение в обработку текстов Лекция 3 Статистические методы поиска словосочетаний Словосочетания/коллокации Для данной лекции Словосочетания = Коллокации = Фразеологические обороты - цепочки слов состоящие

Подробнее

Документ. Векторная модель и анализ тематики

Документ. Векторная модель и анализ тематики Документ. Векторная модель и анализ тематики Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 17.01.2014 / 03 Outline Анализ корпуса на уровне документов Лексическая

Подробнее

Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3.

Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3. Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3. Лексическая неоднозначность 4. Анализ морфологии на основе правил 4.1. Что хранить

Подробнее

ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ

ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ П.В. Паничева, О.А. Митрофанова ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ Морфологическая аннотация русских корпусов и разрешение морфологической неоднозначности задачи,

Подробнее

Графические модели и байесовский вывод на них

Графические модели и байесовский вывод на них Академический Университет, 2012 Outline Алгоритм передачи сообщений 1 Алгоритм передачи сообщений В чём же проблема В предыдущих лекциях мы рассмотрели задачу байесовского вывода, ввели понятие сопряжённого

Подробнее

ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ

ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ Ландэ Дмитрий Владимирович, д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti Жигало Владлен Викторович, аспирант, инж.-программист ElVisti

Подробнее

Применение условных случайных полей в задачах обработки текстов на естественном языке

Применение условных случайных полей в задачах обработки текстов на естественном языке Применение условных случайных полей в задачах обработки текстов на естественном языке А. А. Романенко Научный руководитель: К.В. Воронцов Московский физико-технический институт Факультет управления и прикладной

Подробнее

Структурные и статистические методы анализа эмоциональной окраски текста

Структурные и статистические методы анализа эмоциональной окраски текста Структурные и статистические методы анализа эмоциональной окраски текста МГУ имени М. В. Ломоносова, факультет ВМК, кафедра ММП Научный руководитель: к.ф-м.н., доцент Чехович Юрий Викторович 28 мая 2015

Подробнее

Относительная перплексия как мера качества тематических моделей

Относительная перплексия как мера качества тематических моделей Относительная перплексия как мера качества тематических моделей Нижибицкий Евгений Алексеевич Факультет ВМК МГУ имени М. В. Ломоносова 7 апреля 2014 г. 1 Введение Тематическое моделирование Оценки качества

Подробнее

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи Проектирование человеко-машинных интерфейсов Лекция 10. Распознавание речи Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд Основное назначение

Подробнее

Введение в обработку текстов

Введение в обработку текстов Введение в обработку текстов Лекция 4 Марковские модели Андрей Андреевич Марков Старший 14.06.1856-20.07.1922 Статистика, Модели Маркова Младший 22.09.1903-11.10.1979 Нормальные алгоритмы Предположения

Подробнее

Векторные пространства

Векторные пространства Векторные пространства Text mining Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 18.11.2014 / 03 Outline Bag-of-words: мешок слов Вектора в многомерном пространстве Матрица термов-документов

Подробнее

Извлечение информации. Батыгин Владимир Computer Science Center

Извлечение информации. Батыгин Владимир Computer Science Center Извлечение информации Батыгин Владимир vbatygin@yandex-team.ru Computer Science Center План Что такое Information Extraction Источники данных Подходы Заключение 2 Задачи Named Entity Recognition Disambiguation

Подробнее

Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec

Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec Левченко С.В., НИУ Высшая школа экономики, Департамент компьютерной инженерии МИЭМ им. А.Н. Тихонова

Подробнее

Морфологический разбор русского языка

Морфологический разбор русского языка Морфологический разбор русского языка Сергей Бартунов 23 ноября 2010 г. План Постановка задачи Примеры использования Обзор решений 1. Алгоритмический стеммер Snowball 2. mystem от Яндекс 3. AOT.ru - автоматическая

Подробнее

Использование различных метрик и подходов для кластеризации ключевых запросов

Использование различных метрик и подходов для кластеризации ключевых запросов СПИК-2017, Санкт-Петербург, Россия Использование различных метрик и подходов для кластеризации ключевых запросов Иванов Федор, Calltouch, старший менеджер по продукту Оптимизаторы работают хорошо НО На

Подробнее

Сравнительный анализ алгоритмов классификации и способов представления Web- документов

Сравнительный анализ алгоритмов классификации и способов представления Web- документов Сравнительный анализ алгоритмов классификации и способов представления Web- документов Схема работы SPeCS Интернет Правка запроса по ключевым словаи Выбор запроса по ключевым словам Фильтрация документов

Подробнее

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор Корпусная лингвистка проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011 О докладчике Виктор Бочаров: аспирант кафедры математической лингвистики

Подробнее

Байесовские классификаторы

Байесовские классификаторы Академический Университет, весенний семестр 2011 Outline 1 2 Multivariate Naive Bayes Multinomial Naive Bayes Применяем теорему Байеса Итак, нам нужно найти наиболее вероятную гипотезу h H при условии

Подробнее

Линейная регрессия: регуляризация, предсказания, выб

Линейная регрессия: регуляризация, предсказания, выб Линейная регрессия: регуляризация, предсказания, выбор модели Академический Университет, 2012 Outline Регуляризация и предсказания 1 Регуляризация и предсказания 2 Эквивалентное ядро Байесовское сравнение

Подробнее

МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА

МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА О.М. ДЕМСКАЯ-КУЛЬЧИЦКАЯ, В.Р. СЕМЕРЕНКО, Р.А. ЮЩЕНКО МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА Методы автоматической разметки рассмотрены в контексте исследования текстов естественного

Подробнее

О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН

О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН 42 УДК 519.688 О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН ИСПОЛЬЗОВАНИЕ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ НОРМАЛИЗАЦИИ ТЕКСТА И СНЯТИЯ ОМОНИМИИ В СИСТЕМЕ СИНТЕЗА РУССКОЙ РЕЧИ Исследована проблема разрешения

Подробнее

Методы классификации для поиска закономерностей в демографических последовательностях

Методы классификации для поиска закономерностей в демографических последовательностях Методы классификации для поиска закономерностей в демографических последовательностях Муратова Анна Александровна, группа ИССА Научный руководитель: к.т.н. доцент, Игнатов Дмитрий Игоревич www.hse.ru План

Подробнее

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения УДК 004.93'1 Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения Лыфенко Н.Д., аспирант Россия, 125993, г. Москва, Российский государственный

Подробнее

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 100,0% 71,0% 59,7%

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 100,0% 71,0% 59,7% по отдельным м (4 класс, конец 2011/2012 учебного года) (курсивом отмечены, проверяющие знания из раздела, который не является обязательным для овладения всеми учащимися) БЛОК 1 1_1 В.1, 1 В.8, 6 1.1.1

Подробнее

Классификация эмоциональной окраски сообщений в социальных сетях

Классификация эмоциональной окраски сообщений в социальных сетях Классификация эмоциональной окраски сообщений в социальных сетях Н. А. Савинов Московский физико-технический институт Факультет Управления и Прикладной Математики Кафедра Интеллектуальные Системы Научный

Подробнее

Кластеризация и алгоритм EM

Кластеризация и алгоритм EM Академический Университет, 2012 Outline Иерархическая кластеризация методами теории графов 1 Иерархическая кластеризация методами теории графов 2 Суть лекции Иерархическая кластеризация методами теории

Подробнее

Критерий Вилкоксона W для проверки однородности выборок. v. 1.2

Критерий Вилкоксона W для проверки однородности выборок. v. 1.2 Критерий Вилкоксона W для проверки однородности выборок. v. 1.2 А. Б. Сергиенко 11 марта 2015 г. Аннотация В данном документе дано описание критерия Вилкосона W по справочнику «Таблицы математической статистики»

Подробнее

«Педагогическое образование»

«Педагогическое образование» Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Калужский государственный университет им. К.Э. Циолковского»

Подробнее

Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM

Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM Петроченков В.В. ИППИ РАН petrochenkov@iitp. ru Аннотация В статье рассматривается построение статистического теггера для

Подробнее

Формулы по теории вероятностей

Формулы по теории вероятностей Формулы по теории вероятностей I. Случайные события. Основные формулы комбинаторики а) перестановки P =! = 3...( ). б) размещения A m = ( )...( m + ). A! в) сочетания C = =. P ( )!!. Классическое определение

Подробнее

Линейная регрессия. Линейные модели. Сергей Николенко. Казанский Федеральный Университет, 2014

Линейная регрессия. Линейные модели. Сергей Николенко. Казанский Федеральный Университет, 2014 Казанский Федеральный Университет, 2014 Outline 1 В предыдущей серии... Теорема Байеса: p(θ D) = p(θ)p(d θ). p(d) Две основные задачи байесовского вывода: 1 найти апостериорное распределение на гипотезах/параметрах:

Подробнее

Оценка Sentiment analysis

Оценка Sentiment analysis Оценка Sentiment analysis Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 16.09.2015 / 04 Основная статья Dan Jurafsky и др. Narrative framing of consumer sentiment

Подробнее

Глубинный анализ текстовых данных: определение интересов пользователей

Глубинный анализ текстовых данных: определение интересов пользователей Глубинный анализ текстовых данных: определение интересов пользователей Руководители Ефремова Мария, Шиф Алексей Студенты Корскова Наталья, Краюшкин Олег, Смирнов Максим, Чернобай Юлия Что такое интерес?

Подробнее

РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ. Александр Гельбух

РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ. Александр Гельбух РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ Александр Гельбух Лаборатория естественного языка Центра Компьютерных Исследований (CIC) Национального

Подробнее

Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3

Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3 Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3 Казенников А.О. ИППИ РАH kzn@iitp.ru Аннотация В настоящей работе представлен способ построения морфологического

Подробнее

Исследование моделей векторного

Исследование моделей векторного Исследование моделей векторного представления слов на основе нейронных сетей Москва, 2015 Автор: группа 327 Архипенко Константин Владимирович Научный руководитель: канд. физ.-мат. наук Турдаков Денис Юрьевич

Подробнее

Труды международной конференции Диалог 2007

Труды международной конференции Диалог 2007 Труды международной конференции Диалог 2007 ВЕРОЯТНОСТНЫЙ ПОДХОД К ЗАДАЧЕ РАЗРЕШЕНИЯ ОМОНИМИИ СЛОВ И СЛОВАРНЫХ ПАР A PROBABILISTIC APPROACH TO LEXICAL AMBIGUITY RESOLUTION OF WORDS AND WORD PAIRS Баглей

Подробнее

Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis

Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis Лобанов Б. М. (lobanov@newman.bas-net.by), Объединенный институт проблем

Подробнее

Априорные распределения

Априорные распределения Казанский Федеральный Университет, 2014 Outline 1 2 О гауссианах ML vs. MAP Мы остановились на том, что в статистике обычно ищут гипотезу максимального правдоподобия (maximum likelihood): θ ML = arg max

Подробнее

Wordcounts are amazing by Ted Underwood

Wordcounts are amazing by Ted Underwood Часть I Слова Wordcounts are amazing by Ted Underwood We need to remember that words are actually features of a very, very high-level kind. As a thought experiment, I find it useful to compare text mining

Подробнее

ЛИТВИНОВ МАКСИМ ИГОРЕВИЧ МЕТОДЫ АВТОМАТИЧЕСКОЙ ПРЕДОБРАБОТКИ ТЕКСТА ПРОЕКТНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ О СОЧЕТАЕМОСТИ СЛОВ

ЛИТВИНОВ МАКСИМ ИГОРЕВИЧ МЕТОДЫ АВТОМАТИЧЕСКОЙ ПРЕДОБРАБОТКИ ТЕКСТА ПРОЕКТНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ О СОЧЕТАЕМОСТИ СЛОВ На правах рукописи ЛИТВИНОВ МАКСИМ ИГОРЕВИЧ МЕТОДЫ АВТОМАТИЧЕСКОЙ ПРЕДОБРАБОТКИ ТЕКСТА ПРОЕКТНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ О СОЧЕТАЕМОСТИ СЛОВ Специальность - 05.13.12 «Системы автоматизации

Подробнее

Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий

Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий Международная конференция ИОИ-10 Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий Юлин Сергей Сергеевич Рыбинский государственный авиационный технический университет

Подробнее

Реферат Актуальность работы

Реферат Актуальность работы Реферат магистерской аттестационной работы на тему: Исследование методов обработки временных рядов в мультимодальных приложениях Сергеев Алексей Александрович Актуальность работы Практически все современные

Подробнее

слов. Основными недостатками этого метода являются, во-первых, сложность получения оценок большого числа параметров статистической модели и,

слов. Основными недостатками этого метода являются, во-первых, сложность получения оценок большого числа параметров статистической модели и, УДК 59256 Е А Будников, студ Московский физико-технический институт В В Стрижов, кф-мн, нс, Вычислительный центр РАН Оценивание вероятностей появления строк в коллекции документов В работе рассматривается

Подробнее

За 1. Письменный экзамен по русскому языку проходит в форме изложкfffi:~iпвi~ 2. Максимальная экзаменационная оценка 100 баллов. При невыполнении изложенных правил проводится снижение баллов: Содержание

Подробнее

Behind LDA. Часть 1. Кольцов С.Н.

Behind LDA. Часть 1. Кольцов С.Н. Behind LDA Часть 1 Кольцов С.Н. Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно из множества значений, причём появление того или иного

Подробнее

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА САНКТ- ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МАТЕМАТИКО- МЕХАНИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА КУРСОВАЯ РАБОТА СТУДЕНТА 361 ГРУППЫ КАЛМЫКОВА АЛЕКСЕЯ ВЛАДИМИРОВИЧА

Подробнее

Рекомендательная система для научных статей на основе корпуса ACL ARC

Рекомендательная система для научных статей на основе корпуса ACL ARC Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт Петербургский государственный университет» Математико механический факультет Кафедра информационно

Подробнее

ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА

ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА УДК 004.912:303.7 ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА К.К. Боярский, Е.А. Каневский, С.К. Стафеев Описаны подходы к решению некоторых

Подробнее

А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1

А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1 А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1 1. Введение Тексты разных функциональных стилей отличаются

Подробнее

А.В. Сокирко Интегрум-техно, Москва, С.Ю.Толдова МГУ, Аннотация

А.В. Сокирко Интегрум-техно, Москва, С.Ю.Толдова МГУ, Аннотация Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) А.В. Сокирко Интегрум-техно,

Подробнее

Классификаторы II: логит и naive Bayes

Классификаторы II: логит и naive Bayes Академический Университет, 2012 Outline И снова о разделяющих поверхностях 1 И снова о разделяющих поверхностях 2 Наивный байесовский классификатор Multinomial vs. multivariate В прошлый раз В прошлый

Подробнее

Классификация текстов

Классификация текстов BMK МГУ 417 группа 30.09.2015 Примеры использования необходима для: 1 разделения сайтов по тематическим каталогам 2 борьбы со спамом 3 распознавания эмоциональной окраски текстов 4 персонификации рекламы

Подробнее

Регуляризация и начала классификации

Регуляризация и начала классификации Казанский Федеральный Университет, 2014 Outline О регрессии 1 О регрессии 2 Полиномиальная аппроксимация Напоминаю, что в прошлый раз мы говорили о регрессии с базисными функциями: f (x, w) = w 0 + M w

Подробнее

МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ

МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ УДК 004.852 МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ М. А. Нокель Московский государственный университет им. М. В. Ломоносова Поступила в редакцию 24.10.2014 г. Аннотация. В статье представлены

Подробнее

Некоторые сложности автоматизированной. процесс лемматизации несловарных словоформ,

Некоторые сложности автоматизированной. процесс лемматизации несловарных словоформ, Некоторые сложности автоматизированной лемматизации несловарных словоформ Some difficulties in automated lemmatization of word forms not contained in the dictionary Клышинский Э. С. (klyshinsky@mail.ru)

Подробнее

Захаров В.П., Хохлова М.В.

Захаров В.П., Хохлова М.В. Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке Санкт-Петербургский государственный университет vz1311@yandex.ru, khokhlova.marie@gmail.com

Подробнее

Wordcounts are amazing by Ted Underwood

Wordcounts are amazing by Ted Underwood Часть I Слова Wordcounts are amazing by Ted Underwood We need to remember that words are actually features of a very, very high-level kind. As a thought experiment, I find it useful to compare text mining

Подробнее

I. Введение. II. Планируемые результаты освоения учебного предмета «Русский язык» за курс 7 класса.

I. Введение. II. Планируемые результаты освоения учебного предмета «Русский язык» за курс 7 класса. 1 I. Введение. Данная рабочая программа составлена на основе Федерального компонента государственного образовательного стандарта общего образования иавторской программы «Русский язык. Рабочие программы.

Подробнее

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) выделения единиц знаний из множества (корпуса) тематических текстов и отбора

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) выделения единиц знаний из множества (корпуса) тематических текстов и отбора Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе.

Подробнее

Определение скрытых атрибутов пользователей социальных сетей

Определение скрытых атрибутов пользователей социальных сетей Курсовая работа Определение скрытых атрибутов пользователей социальных сетей Выполнил: Александров Никита 428 группа Научный руководитель: Коршунов Антон Викторович Проблема определения скрытых атрибутов

Подробнее

ОД.01. ВВЕДЕНИЕ В ЯЗЫКОЗНАНИЕ

ОД.01. ВВЕДЕНИЕ В ЯЗЫКОЗНАНИЕ ОБЩИЕ ДИСЦИПЛИНЫ ОД.01. ВВЕДЕНИЕ В ЯЗЫКОЗНАНИЕ Место языка в системе культурно значимых средств коммуникации; способы научного описания языка; история общества и история языка, язык и мысль; язык и культура.

Подробнее

Введение в обработку естественного языка. Павел Браславский

Введение в обработку естественного языка. Павел Браславский Введение в обработку естественного языка Павел Браславский ЧТО ТАКОЕ ОЕЯ? Термины Computational linguistics / математическая/компьютерная лингвистика Natural language processing / обработка естественного

Подробнее

The estimation of probabilities of appearance of word strings in a natural language Y. A. Budnikov Moscow Institute of Physics and Technology

The estimation of probabilities of appearance of word strings in a natural language Y. A. Budnikov Moscow Institute of Physics and Technology 376 Е. А. Будников Оценивание вероятностей появления строк в естественном языке Е. А. Будников unicorn1992@bk.ru Московский физико-технический институт, ФУПМ, каф. «Интеллектуальные системы» В работе рассматривается

Подробнее

Кудинов Михаил Сергеевич СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОГО ЯЗЫКА С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ

Кудинов Михаил Сергеевич СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОГО ЯЗЫКА С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР "ИНФОРМАТИКА И УПРАВЛЕНИЕ" РОССИЙСКОЙ АКАДЕМИИ НАУК (ФИЦ ИУ РАН) На правах рукописи УДК 004.852 Кудинов Михаил Сергеевич СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОГО ЯЗЫКА

Подробнее

Аспектно-ориентированный анализ эмоциональной окраски: приложения и методы. Иван Андрианов

Аспектно-ориентированный анализ эмоциональной окраски: приложения и методы. Иван Андрианов Аспектно-ориентированный анализ эмоциональной окраски: приложения и методы Иван Андрианов План доклада Постановка задачи Приложения Извлечение аспектных терминов: Постановка задачи на SemEval-2015 Постановка

Подробнее

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СОСТАВЛЕНИЯ РЕКОМЕНДАЦИЙ ПО ВЫБОРУ КОНКУРСНОГО НАПРАВЛЕНИЯ ДЛЯ АБИТУРИЕНТОВ

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СОСТАВЛЕНИЯ РЕКОМЕНДАЦИЙ ПО ВЫБОРУ КОНКУРСНОГО НАПРАВЛЕНИЯ ДЛЯ АБИТУРИЕНТОВ ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СОСТАВЛЕНИЯ РЕКОМЕНДАЦИЙ ПО ВЫБОРУ КОНКУРСНОГО НАПРАВЛЕНИЯ ДЛЯ АБИТУРИЕНТОВ Стрельников В.Г., Трунов А.С. Московский Технический Университет Связи и Информатики Москва, Россия

Подробнее

Исследование методов обнаружения вторжений в компьютерные системы путем имитационного моделирования

Исследование методов обнаружения вторжений в компьютерные системы путем имитационного моделирования Исследование методов обнаружения вторжений в компьютерные системы путем имитационного моделирования Неплохов Алексей Андреевич, гр. 522 Санкт-Петербургский государственный университет Математико-механический

Подробнее

РОССИЙСКАЯ АКАДЕМИЯ НАУК РАБОЧАЯ ПРОГРАММА. УЧЕБНОЙ ДИСЦИПЛИНЫ «Основы обработки текстовой информации»

РОССИЙСКАЯ АКАДЕМИЯ НАУК РАБОЧАЯ ПРОГРАММА. УЧЕБНОЙ ДИСЦИПЛИНЫ «Основы обработки текстовой информации» РОССИЙСКАЯ АКАДЕМИЯ НАУК Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук «УТВЕРЖДАЮ» Директор ИСП РАН академик РАН, д.ф.-м.н., профессор

Подробнее

К.К. Боярский, В.П. Захаров, Е.А. Каневский

К.К. Боярский, В.П. Захаров, Е.А. Каневский К.К. Боярский, В.П. Захаров, Е.А. Каневский СНЯТИЕ НЕОДНОЗНАЧНОСТИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ КОРПУСОВ РУССКИХ ТЕКСТОВ 1 1. Характеристика положения в данной области Сравнительно недавно, во второй половине

Подробнее

Оценивание расстояния между рёбрами в графе де Брюйна по неполным данным

Оценивание расстояния между рёбрами в графе де Брюйна по неполным данным Оценивание расстояния между рёбрами в графе де Брюйна по неполным данным Тарасов Артем Леонидович Санкт-Петербургский государственный университет Математико-механический факультет Кафедра статистического

Подробнее

«Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А.

«Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А. Отчёт по курсовому проекту на тему «Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А. 1. Характеристики исходного графа Исследуемая нами лингвистическая

Подробнее

Математика и модель языка

Математика и модель языка О. МИТРЕНИНА, Санкт-Петербургский государственный университет 20 математика ноябрь декабрь 2016 Математика и модель языка Робот C-3PO из «Звездных войн» может общаться шестью миллионами способов. Но его

Подробнее

Градиентный бустинг смешанных моделей с последовательным усложнением

Градиентный бустинг смешанных моделей с последовательным усложнением Градиентный бустинг смешанных моделей с последовательным усложнением Шабанов Андрей Александрович, гр. 522 Санкт-Петербургский государственный университет Математико-механический факультет Кафедра статистического

Подробнее

Выводы Науч. рук. к.т.н., доц. Звенигородский А.С. Определение биграмм на материале научных текстов по извлечению данных из текстов

Выводы Науч. рук. к.т.н., доц. Звенигородский А.С. Определение биграмм на материале научных текстов по извлечению данных из текстов Рис. 3. Пример сдвига на две позиции Выводы Рассмотренные методы позволяют совершенствовать технологию формирования растровых стереоизображений, а разработанный плагин дает возможность ускорения этого

Подробнее

С. Д. Кулик, К. И. Ткаченко, И. А. Лукьянов, М. С. Сергеев

С. Д. Кулик, К. И. Ткаченко, И. А. Лукьянов, М. С. Сергеев Интеллектуальная подсистема для решения криминалистических задач информационной безопасности С. Д. Кулик, К. И. Ткаченко, И. А. Лукьянов, М. С. Сергеев ИНТЕЛЛЕКТУАЛЬНАЯ ПОДСИСТЕМА ДЛЯ РЕШЕНИЯ КРИМИНАЛИСТИЧЕСКИХ

Подробнее

Категоризация текстов и модель LDA

Категоризация текстов и модель LDA Центр Речевых Технологий, 2012 Outline Категоризация текстов 1 Категоризация текстов Категоризация текстов Классическая задача машинного обучения и information retrieval категоризация текстов. Дан набор

Подробнее

УДК ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В.

УДК ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В. вычислительные методы и программирование. 2015. Т. 16 215 УДК 004.852 ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В. Лукашевич 2 Представлены

Подробнее

Определение пола автора короткого электронного сообщения Gender identification of the author of a short message

Определение пола автора короткого электронного сообщения Gender identification of the author of a short message Определение пола автора короткого электронного сообщения Gender identification of the author of a short message Романов А. С. (alexx.romanov@gmail.com) Мещеряков Р. В. (mrv@keva.tusur.ru) ГОУ ВПО «Томский

Подробнее

BUILDING OF NETWORKS OF NATURAL HIERARCHIES OF TERMS BASED ON ANALYSIS OF TEXTS CORPORA

BUILDING OF NETWORKS OF NATURAL HIERARCHIES OF TERMS BASED ON ANALYSIS OF TEXTS CORPORA BUILDING OF NETWORKS OF NATURAL HIERARCHIES OF TERMS BASED ON ANALYSIS OF TEXTS CORPORA D.V. Lande, Institute of Data Recording Problems, NAS Ukraine Summary. The technique of building of networks of hierarchies

Подробнее

Обобщенная методика идентификации автора неизвестного текста

Обобщенная методика идентификации автора неизвестного текста 108 УДК 519.25: 004.8 А.С. Романов, А.А. Шелупанов, С.С. Бондарчук Обобщенная методика идентификации автора неизвестного текста Рассмотрена проблема идентификации автора текста при ограниченном наборе

Подробнее

К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА»

К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА» Н.К. Рубашко, Г.П. Невмержицкая (Минск, БГУ) К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА» В научно-исследовательской лаборатории интеллектуальных информационных

Подробнее

Тематическое планирование спецкурса «Развитие интеллекта и творческого мышления» на основе учебного предмета «Русский язык»

Тематическое планирование спецкурса «Развитие интеллекта и творческого мышления» на основе учебного предмета «Русский язык» Тематическое планирование спецкурса «Развитие интеллекта и творческого мышления» на основе учебного предмета «Русский язык» Темы занятий Содержание теоретической части 1 Вводное занятие Язык как средство

Подробнее

Латентная семантическая модель для представления смыслов многозначных слов

Латентная семантическая модель для представления смыслов многозначных слов Латентная семантическая модель для представления смыслов многозначных слов Дмитрий Кондрашкин, научный руководитель: к.ф.-м.н. Ветров Д. П. 26 февраля 2015 г. 1/20 Skip-gram model По слову w предсказывается

Подробнее

ИМЕНА РОДИТЕЛЕЙ И ДЕТЕЙ: РАЗНООБРАЗИЕ И УСТОЙЧИВОСТЬ

ИМЕНА РОДИТЕЛЕЙ И ДЕТЕЙ: РАЗНООБРАЗИЕ И УСТОЙЧИВОСТЬ ИМЕНА РОДИТЕЛЕЙ И ДЕТЕЙ: РАЗНООБРАЗИЕ И УСТОЙЧИВОСТЬ Еремеев Б. А. Опубликовано: Современные проблемы психологии семьи. Сб. статей. СПб.: Изд-во АНО «ИПП», 2007. С. 21-26. Проблема заключается в общей

Подробнее