Часть II. Последовательности

Save this PDF as:

Размер: px
Начинать показ со страницы:

Download "Часть II. Последовательности"

Транскрипт

1 Часть II Последовательности

2 N-граммы. Моделирование локального контекста Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург / 04

3 Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

4 Контекст Предсказание слова Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

5 Контекст Предсказание слова Эксперимент Для начала проведем небольшой эксперимент

6 Контекст Предсказание слова Предсказание слова сегодняшний...?

7 Контекст Предсказание слова Предсказание слова сегодняшний день?

8 Контекст Предсказание слова Условная вероятность P(B A) = P(B A) P(A) (1) P(день сегодняшний) = f (сегодняшний день) f (сегодняшний) = = 0.75 (2)

9 Контекст Модель контекста: N-граммы Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

10 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

11 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

12 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

13 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

14 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов. Униграммы Восторг внезапный ум пленил. Биграммы Восторг внезапный ум пленил <.> Триграммы <s> Восторг внезапный ум пленил <.>

15 Контекст Модель контекста: N-граммы Скользящее окно Марков использовал новое понятие для статистического анализа распределения букв в знаменитой поэме Пушкина «Евгений Онегин». статистического анализа статистического распределения статистического букв анализа распределения анализа букв распределения букв

16 Контекст Модель контекста: N-граммы Скользящее окно Марков использовал новое понятие для статистического анализа распределения букв в знаменитой поэме Пушкина «Евгений Онегин». поэме Пушкина поэме Евгений поэме Онегин Пушкина Евгений Пушкина Онегин Евгений Онегин

17 Языковая модель Вероятность языковых событий Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

18 Языковая модель Вероятность языковых событий Вероятность языковых событий Вероятность основана на подсчете событий (частотность) В лингвистике считаем события в корпусе вероятность = относительная частотность Пример расчета вероятности слова Всего слов в корпусе = воскресенье = сегодняшний = 17 P воскресенье = P сегодняшний = = Maximum Likelihood Estimation, MLE Принцип максимального правдоподобия

19 Языковая модель Вероятность языковых событий Language model Языковая модель приписывает вероятность фрагменту текста (высказыванию, предложению...) Иными словами: максимизирует вероятность реальных текстов минимизирует вероятность нереальных текстов При наличии омонимии позволяет выбрать более вероятный вариант.

20 Языковая модель Цепь Маркова Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

21 Языковая модель Цепь Маркова Цепь Маркова система с конечным числом состояний следующее состояние зависит только от N предыдущих Применительно к тексту: Следующее слово зависит только от предыдущего (N предыдущих)

22 Языковая модель N-граммные языковые модели Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

23 Языковая модель N-граммные языковые модели Вероятность предложения P = f (На сегодняшний день это) f (W 1 W 2 W 3 W 4 ) = =

24 Языковая модель N-граммные языковые модели Вероятность независимых событий Независимые события наступление одного не изменяет вероятности другого. P(B A) = P(A) B > 0 (3) P(B A) = P(A) P(B) (4)

25 Языковая модель N-граммные языковые модели Униграммная языковая модель На 479 сегодняшний 32 день 201 это =

26 Языковая модель N-граммные языковые модели Биграммная языковая модель Markov assumption: P(На сегодняшний день это) P(это день) P(день сегодняшний) P(сегодняшний на) = = =

27 Языковая модель N-граммные языковые модели Триграммная языковая модель P(На сегодняшний день это) P(это сегодняшний день) P(день на сегодняшний) = = = 0.037

28 Классификация: Определение языка Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

29 Классификация: Определение языка Идея классификации с помощью языковых моделей Задача Определить язык текста (выбрать из известных языков) Идея Языковые модели текстов на одном языке будут похожи.

30 Классификация: Определение языка Текст как список n-грамм букв в общем bi-grams: _в, в_, _о, об, бщ, ще, ем, м_ tri-grams: _в_, в, _об, общ, бще, щем, ем_, м quad-grams: _в, в _, _общ, обще, бщем, щем_, ем, м _

31 Классификация: Определение языка Зашумленные источники (независимо от причин ошибок: опечатки, вариативность, OCR) вообщем bi-grams: _в, во, oо, об, бщ, ще, ем, м_ tri-grams: _во, воо, ооб, общ, бще, щем, ем_, м quad-grams: _воо, вооб, ообщ, обще, бщем, щем_, ем, м _

32 Классификация: Определение языка Бесплатный стемминг! (независимо от языка если алфавитная письменность) в общем bi-grams: _в, в_, _о, об, бщ, ще, ем, м_ tri-grams: _в_, в, _об, общ, бще, щем, ем_, м quad-grams: _в, в _, _общ, обще, бщем, щем_, ем, м _

33 Классификация: Определение языка Определение языка по методу N-грамм Cavnar, Trenkle 1994 Языковая модель (N-граммный профиль): 1. Составить отсортированный по частотности список n-грамм букв (от 1-грамм до 5-грамм в общем списке) 2. Отсечь список (первые 400 частотных n-грамм) Метод: 1. Построить N-граммные профили на основе корпусов текстов для всех языков, которые нужно различать 2. Построить модель для документа, язык которого нужно определить 3. Сравнить получившуюся модель документа с моделями всех языков 4. Выбрать язык, для которого расстояние между профилями документа и языка минимально Точность 98%!

34 Классификация: Определение языка Определение языка по методу N-грамм Cavnar, Trenkle 1994 Языковая модель (N-граммный профиль): 1. Составить отсортированный по частотности список n-грамм букв (от 1-грамм до 5-грамм в общем списке) 2. Отсечь список (первые 400 частотных n-грамм) Метод: 1. Построить N-граммные профили на основе корпусов текстов для всех языков, которые нужно различать 2. Построить модель для документа, язык которого нужно определить 3. Сравнить получившуюся модель документа с моделями всех языков 4. Выбрать язык, для которого расстояние между профилями документа и языка минимально Точность 98%!

35 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

36 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

37 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

38 Классификация: Определение языка Сравнение N-граммных профилей Out-of-place metric (Cavnar, Trenkle 1994) TH TH 0 ER ING 3 ON ON 0 LE ER 2 ING AND 1 AND ED no-match = max (100) 106 = distance measure

39 Классификация: Определение языка Ранги n-грамм по частотности до 300 ранга язык: частотное распределение букв в языке короткие и частотные грамматические слова наиболее частотные префиксы и суффиксы после 300 рагна лексика и предметная область: наиболее частотные корни/слова

40 Снятие неоднозначности Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Классификация: Определение языка Снятие неоднозначности

41 Снятие неоднозначности N-граммы в задачах снятия неоднозначности Снятие неоднозначности (disambiguation) на разных уровнях: Определение частей речи (part of speech tagging) Снятие лексической омонимии (word sense disambiguation) Выбор варианта синтаксического разбора (syntactic disambiguation) и т.п.

42 Снятие неоднозначности Part of speech tagging То же касается отстегивания от России кавказского грузила. То/SPRO/APRO/PART/CONJ же/part/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/v/s.

43 Снятие неоднозначности Part of speech tagging То/SPRO же/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/v=грузить.

44 Снятие неоднозначности Part of speech tagging То/SPRO же/conj касается/v отстегивания/s от/pr России/S кавказского/a грузила/s=грузило.

45 Снятие неоднозначности TnT: N-gram PoS tagging Brants, 2000 от/pr России/S кавказского/a грузила/v P грузила=v = P(V S, A)P(грузила V ) = от/pr России/S кавказского/a грузила/s P грузила=s = P(S S, A)P(грузила S) = (λ 1 P(S) + λ 2 P(S A) + λ 3 P(S S, A)) P(грузила S) ( ) S = λ 1 N + λ f (A, S) f (S, A, S) f (грузила,s) 2 + λ 3 f (S) f (S, A) f (S)

46 Снятие неоднозначности TnT: N-gram PoS tagging Brants, 2000 от/pr России/S кавказского/a грузила/v P грузила=v = P(V S, A)P(грузила V ) = от/pr России/S кавказского/a грузила/s P грузила=s = P(S S, A)P(грузила S) = (λ 1 P(S) + λ 2 P(S A) + λ 3 P(S S, A)) P(грузила S) ( ) S = λ 1 N + λ f (A, S) f (S, A, S) f (грузила,s) 2 + λ 3 f (S) f (S, A) f (S)


Частотные регулярные языки

Частотные регулярные языки Частотные регулярные языки Д.Н. Бабин Естественные языки обладают свойством постоянной частоты встречаемости букв и пар букв. В статье изучены регулярные языки с этим свойством. Ключевые слова: естественный

Подробнее

Автоматическое извлечение правил для снятия морфологической неоднозначности

Автоматическое извлечение правил для снятия морфологической неоднозначности Автоматическое извлечение правил для снятия морфологической неоднозначности Екатерина Протопопова, Виктор Бочаров СПбГУ, Санкт-Петербург, Россия, protoev@gmail.com, victor.bocharov@gmail.com Аннотация.

Подробнее

Введение. Обработка естественного языка, или компьютерная лингвистика

Введение. Обработка естественного языка, или компьютерная лингвистика Введение. Обработка естественного языка, или компьютерная лингвистика Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 16.01.2013 / 01 Outline Задачи курса Предмет

Подробнее

Машинное обучение. Классификация

Машинное обучение. Классификация Машинное обучение. Классификация Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 12.11.2014 / 05 Outline Машинное обучение Задача классификации Деревья принятия

Подробнее

Лингвистика длинного хвоста. Николай Григорьев Отдел голосовых технологий

Лингвистика длинного хвоста. Николай Григорьев Отдел голосовых технологий Лингвистика длинного хвоста Николай Григорьев Отдел голосовых технологий Устройство Web-поиска Индекс: архив документов обратный индекс: по слову выдает все содержащие его документы данные о документах

Подробнее

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА С.В. Гусев, программист ЗАО «НОРСИ-ТРАНС» А.М. Чеповский, кандидат технических наук, профессор кафедры информационных систем Московского государственного

Подробнее

ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1

ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1 ИССЛЕДОВАНИЕ КОНТЕКСТНОЙ ПРЕДСКАЗУЕМОСТИ ЕДИНИЦ ТЕКСТА С ПОМОЩЬЮ КОРПУСНЫХ РЕСУРСОВ 1 Е.В. Ягунова Во время коммуникативного акта человек непрерывно планирует (программирует) свою речевую деятельность,

Подробнее

Основы обработки текстов. Лекция 4 Статистические методы поиска словосочетаний

Основы обработки текстов. Лекция 4 Статистические методы поиска словосочетаний Основы обработки текстов Лекция 4 Статистические методы поиска словосочетаний Словосочетания/коллокации Для данной лекции Словосочетания = Коллокации = Фразеологические обороты - цепочки слов состоящие

Подробнее

Модификации одномерных скрытых марковских моделей для задачи распознавания лиц

Модификации одномерных скрытых марковских моделей для задачи распознавания лиц Модификации одномерных скрытых марковских моделей для задачи распознавания лиц Гультяева Т. А., ПММ-01 Научный руководитель д.т.н, профессор Попов А.А. Распознавание изображения ЭТАП ОБУЧЕНИЯ лица Этап

Подробнее

Скрытые марковские модели

Скрытые марковские модели : основное Академический Университет, весенний семестр 2011 Outline : основное 1 : основное 2 Смеси выпуклых распределений Продолжительность состояния : основное Марковская цепь задаётся начальным распределением

Подробнее

Обработка информации и управление

Обработка информации и управление УДК 4.22 Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи И. С. Кипяткова, младший научный сотрудник А. А. Карпов, канд.

Подробнее

ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL.

ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL. ВЫВОД И ОЦЕНКА ПАРАМЕТРОВ ДАЛЬНОДЕЙСТВУЮЩЕЙ ТРИГРАММНОЙ МОДЕЛИ ЯЗЫКА INFERENCE AND ESTIMATION OF A LONG-RANGE TRIGRAM MODEL Протасов С. В. ru.tj@svp Московский Физико-Технический Институт (Государственный

Подробнее

Алгоритм EM и его применения

Алгоритм EM и его применения Computer Science Club, Екатеринбург, 2011 Outline Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 1 Алгоритм EM Смесь двух гауссианов Общий случай и обоснование 2 Введение Алгоритм EM Смесь

Подробнее

Математические модели в лингвистике

Математические модели в лингвистике Математические модели в лингвистике 10. Измерение расстояний между корпусами текстов Мати Пентус, Александр Пиперски, Алексей Сорокин МГУ, межфакультетский курс, осенний семестр 2017 2018 учебного года

Подробнее

Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации

Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации УДК 004.934.1 Частеречная разметка слов с использованием гетерогенной нейронной сети и априорной информации Введение Маланин Г.П., студент кафедра «Программное обеспечение ЭВМ и информационные технологии»,

Подробнее

Введение в обработку текстов. Лекция 3 Статистические методы поиска словосочетаний

Введение в обработку текстов. Лекция 3 Статистические методы поиска словосочетаний Введение в обработку текстов Лекция 3 Статистические методы поиска словосочетаний Словосочетания/коллокации Для данной лекции Словосочетания = Коллокации = Фразеологические обороты - цепочки слов состоящие

Подробнее

Документ. Векторная модель и анализ тематики

Документ. Векторная модель и анализ тематики Документ. Векторная модель и анализ тематики Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 17.01.2014 / 03 Outline Анализ корпуса на уровне документов Лексическая

Подробнее

Семантическое автодополнение

Семантическое автодополнение Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Семантическое автодополнение Курсовая работа студента 445 группы Василинца Сергея Павловича

Подробнее

ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ

ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ П.В. Паничева, О.А. Митрофанова ИНТЕГРАЦИЯ МОРФОАНАЛИЗАТОРОВ ДЛЯ АННОТАЦИИ РУССКОЯЗЫЧНЫХ КОРПУСОВ ТЕКСТОВ Морфологическая аннотация русских корпусов и разрешение морфологической неоднозначности задачи,

Подробнее

Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3.

Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3. Содержание Введение Часть 1.Компоненты Глава 1.Компьютерная морфология 1. Как найти слова 2. Каким может быть анализ слов 3. Лексическая неоднозначность 4. Анализ морфологии на основе правил 4.1. Что хранить

Подробнее

Графические модели и байесовский вывод на них

Графические модели и байесовский вывод на них Академический Университет, 2012 Outline Алгоритм передачи сообщений 1 Алгоритм передачи сообщений В чём же проблема В предыдущих лекциях мы рассмотрели задачу байесовского вывода, ввели понятие сопряжённого

Подробнее

скрытые марковские модели ii

скрытые марковские модели ii скрытые марковские модели ii Сергей Николенко СПбГУ Санкт-Петербург 27 октября 2017 г. Random facts: 27 октября 1962 г. --- «Чёрная суббота», день, когда мир был ближе всего к глобальной ядерной войне;

Подробнее

Классификация Хомского для матриц биграммных языков

Классификация Хомского для матриц биграммных языков Классификация Хомского для матриц биграммных языков А. А. Петюшко, Д. Н. Бабин Множество слов, у которых частоты встречаемости пар соседних букв образуют одну и ту же матрицу - это формальный (биграммный)

Подробнее

ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ

ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ ЭТАПЫ СОЗДАНИЯ СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПОТОКОВ НОВОСТЕЙ Ландэ Дмитрий Владимирович, д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti Жигало Владлен Викторович, аспирант, инж.-программист ElVisti

Подробнее

Структурные и статистические методы анализа эмоциональной окраски текста

Структурные и статистические методы анализа эмоциональной окраски текста Структурные и статистические методы анализа эмоциональной окраски текста МГУ имени М. В. Ломоносова, факультет ВМК, кафедра ММП Научный руководитель: к.ф-м.н., доцент Чехович Юрий Викторович 28 мая 2015

Подробнее

1 8 м а я г о д а, п я т н и ц а

1 8 м а я г о д а, п я т н и ц а 1 8 м а я 2 0 1 8 г о д а, п я т н и ц а 1 9 ( 1 0 3 1 6 ) Л ю б и м с к а я р а й о н н а я м а с с о в а я г а з е т а Г а з е т а о с н о в а н а в 1 9 1 9 г о д у В ы х о д и т п о п я т н и ц а м

Подробнее

Относительная перплексия как мера качества тематических моделей

Относительная перплексия как мера качества тематических моделей Относительная перплексия как мера качества тематических моделей Нижибицкий Евгений Алексеевич Факультет ВМК МГУ имени М. В. Ломоносова 7 апреля 2014 г. 1 Введение Тематическое моделирование Оценки качества

Подробнее

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи Проектирование человеко-машинных интерфейсов Лекция 10. Распознавание речи Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд Основное назначение

Подробнее

Введение в обработку текстов

Введение в обработку текстов Введение в обработку текстов Лекция 4 Марковские модели Андрей Андреевич Марков Старший 14.06.1856-20.07.1922 Статистика, Модели Маркова Младший 22.09.1903-11.10.1979 Нормальные алгоритмы Предположения

Подробнее

Векторные пространства

Векторные пространства Векторные пространства Text mining Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 18.11.2014 / 03 Outline Bag-of-words: мешок слов Вектора в многомерном пространстве Матрица термов-документов

Подробнее

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения УДК 004.93'1 Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения Лыфенко Н.Д., аспирант Россия, 125993, г. Москва, Российский государственный

Подробнее

Решение задач правильной идентификации пациентов. Cергей Кудинов

Решение задач правильной идентификации пациентов. Cергей Кудинов Решение задач правильной идентификации пациентов Cергей Кудинов Актуальность задачи Иван Борисович Рузский был сбит на пешеходном переходе Пациент был доставлен в отделение скорой медицинской помощи в

Подробнее

Применение условных случайных полей в задачах обработки текстов на естественном языке

Применение условных случайных полей в задачах обработки текстов на естественном языке Применение условных случайных полей в задачах обработки текстов на естественном языке А. А. Романенко Научный руководитель: К.В. Воронцов Московский физико-технический институт Факультет управления и прикладной

Подробнее

О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН

О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН 42 УДК 519.688 О. Г. ХОМИЦЕВИЧ, С. В. РЫБИН, И. М. АНИЧКИН ИСПОЛЬЗОВАНИЕ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ НОРМАЛИЗАЦИИ ТЕКСТА И СНЯТИЯ ОМОНИМИИ В СИСТЕМЕ СИНТЕЗА РУССКОЙ РЕЧИ Исследована проблема разрешения

Подробнее

Извлечение информации. Батыгин Владимир Computer Science Center

Извлечение информации. Батыгин Владимир Computer Science Center Извлечение информации Батыгин Владимир vbatygin@yandex-team.ru Computer Science Center План Что такое Information Extraction Источники данных Подходы Заключение 2 Задачи Named Entity Recognition Disambiguation

Подробнее

Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec

Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec Левченко С.В., НИУ Высшая школа экономики, Департамент компьютерной инженерии МИЭМ им. А.Н. Тихонова

Подробнее

Морфологический разбор русского языка

Морфологический разбор русского языка Морфологический разбор русского языка Сергей Бартунов 23 ноября 2010 г. План Постановка задачи Примеры использования Обзор решений 1. Алгоритмический стеммер Snowball 2. mystem от Яндекс 3. AOT.ru - автоматическая

Подробнее

Сравнительный анализ алгоритмов классификации и способов представления Web- документов

Сравнительный анализ алгоритмов классификации и способов представления Web- документов Сравнительный анализ алгоритмов классификации и способов представления Web- документов Схема работы SPeCS Интернет Правка запроса по ключевым словаи Выбор запроса по ключевым словам Фильтрация документов

Подробнее

Использование различных метрик и подходов для кластеризации ключевых запросов

Использование различных метрик и подходов для кластеризации ключевых запросов СПИК-2017, Санкт-Петербург, Россия Использование различных метрик и подходов для кластеризации ключевых запросов Иванов Федор, Calltouch, старший менеджер по продукту Оптимизаторы работают хорошо НО На

Подробнее

121. Matthews P. H. Morphology. An introduction to the theory of word-structure. Cambridge,

121. Matthews P. H. Morphology. An introduction to the theory of word-structure. Cambridge, Рекомендуемая литература 121. Matthews P. H. Morphology. An introduction to the theory of word-structure. Cambridge, 1974. 122. Mieder W. Proverbs are never out of fashion. Popular wisdom in the modern

Подробнее

Байесовские классификаторы

Байесовские классификаторы Академический Университет, весенний семестр 2011 Outline 1 2 Multivariate Naive Bayes Multinomial Naive Bayes Применяем теорему Байеса Итак, нам нужно найти наиболее вероятную гипотезу h H при условии

Подробнее

МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА

МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА О.М. ДЕМСКАЯ-КУЛЬЧИЦКАЯ, В.Р. СЕМЕРЕНКО, Р.А. ЮЩЕНКО МЕТОДЫ АВТОМАТИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НАЦИОНАЛЬНОГО КОРПУСА ЯЗЫКА Методы автоматической разметки рассмотрены в контексте исследования текстов естественного

Подробнее

Методы классификации для поиска закономерностей в демографических последовательностях

Методы классификации для поиска закономерностей в демографических последовательностях Методы классификации для поиска закономерностей в демографических последовательностях Муратова Анна Александровна, группа ИССА Научный руководитель: к.т.н. доцент, Игнатов Дмитрий Игоревич www.hse.ru План

Подробнее

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 100,0% 71,0% 59,7%

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 100,0% 71,0% 59,7% по отдельным м (4 класс, конец 2011/2012 учебного года) (курсивом отмечены, проверяющие знания из раздела, который не является обязательным для овладения всеми учащимися) БЛОК 1 1_1 В.1, 1 В.8, 6 1.1.1

Подробнее

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и поиска наиболее рационального

Подробнее

Основы обработки текстов

Основы обработки текстов Основы обработки текстов Лекция 8 Статистические методы синтаксического анализа 1 Мотивация СКС-грамматики позволяют определить лучшее дерево разбора (т.е. устранить многозначность) Более точное моделирование

Подробнее

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 83,3% 42,3% 59,7%

46,0% 33,2% разбора слов Состав слова Умение различать формы слова и родственные слова Б 1 балл 83,3% 42,3% 59,7% БЛОК 1 знание/умение Результаты выполнения (в %) 1_1 В.1, 1 В.8, 6 1.1.1 Фонетика и графика Умение различать звуки и буквы Б 59,1% 62,1% 1_2 В.1, 2 В.8, 7 Б 67,1% 68,1% 1_3 В.1, 3 В.8, 8 32,9% 34,9% 31,8%

Подробнее

Кластеризация и алгоритм EM

Кластеризация и алгоритм EM и алгоритм EM Казанский Федеральный Университет, 2014 и алгоритм EM Outline Иерархическая кластеризация методами теории графов 1 Иерархическая кластеризация методами теории графов 2 и алгоритм EM Суть

Подробнее

Классификация эмоциональной окраски сообщений в социальных сетях

Классификация эмоциональной окраски сообщений в социальных сетях Классификация эмоциональной окраски сообщений в социальных сетях Н. А. Савинов Московский физико-технический институт Факультет Управления и Прикладной Математики Кафедра Интеллектуальные Системы Научный

Подробнее

Критерий Вилкоксона W для проверки однородности выборок. v. 1.2

Критерий Вилкоксона W для проверки однородности выборок. v. 1.2 Критерий Вилкоксона W для проверки однородности выборок. v. 1.2 А. Б. Сергиенко 11 марта 2015 г. Аннотация В данном документе дано описание критерия Вилкосона W по справочнику «Таблицы математической статистики»

Подробнее

Черненьков Д. М. Московский институт электроники и математики, Москва, Россия

Черненьков Д. М. Московский институт электроники и математики, Москва, Россия Об одном статистическом методе пополнения морфологического словаря Yet another statistical method for non-vocabulary word flexion prediction based on text corpora Черненьков Д. М. (drcheren@gmail.com)

Подробнее

Кластеризация и алгоритм EM

Кластеризация и алгоритм EM Академический Университет, 2012 Outline Иерархическая кластеризация методами теории графов 1 Иерархическая кластеризация методами теории графов 2 Суть лекции Иерархическая кластеризация методами теории

Подробнее

«Педагогическое образование»

«Педагогическое образование» Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Калужский государственный университет им. К.Э. Циолковского»

Подробнее

Линейная регрессия. Линейные модели. Сергей Николенко. Казанский Федеральный Университет, 2014

Линейная регрессия. Линейные модели. Сергей Николенко. Казанский Федеральный Университет, 2014 Казанский Федеральный Университет, 2014 Outline 1 В предыдущей серии... Теорема Байеса: p(θ D) = p(θ)p(d θ). p(d) Две основные задачи байесовского вывода: 1 найти апостериорное распределение на гипотезах/параметрах:

Подробнее

Формулы по теории вероятностей

Формулы по теории вероятностей Формулы по теории вероятностей I. Случайные события. Основные формулы комбинаторики а) перестановки P =! = 3...( ). б) размещения A m = ( )...( m + ). A! в) сочетания C = =. P ( )!!. Классическое определение

Подробнее

Линейная регрессия: регуляризация, предсказания, выб

Линейная регрессия: регуляризация, предсказания, выб Линейная регрессия: регуляризация, предсказания, выбор модели Академический Университет, 2012 Outline Регуляризация и предсказания 1 Регуляризация и предсказания 2 Эквивалентное ядро Байесовское сравнение

Подробнее

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор Корпусная лингвистка проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011 О докладчике Виктор Бочаров: аспирант кафедры математической лингвистики

Подробнее

Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM

Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM Морфологическая разметка русскоязычных текстов с помощью теггера на основе SVM Петроченков В.В. ИППИ РАН petrochenkov@iitp. ru Аннотация В статье рассматривается построение статистического теггера для

Подробнее

Оценка Sentiment analysis

Оценка Sentiment analysis Оценка Sentiment analysis Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 16.09.2015 / 04 Основная статья Dan Jurafsky и др. Narrative framing of consumer sentiment

Подробнее

Разработка системы автоматического распознавания слитной речи

Разработка системы автоматического распознавания слитной речи Разработка системы автоматического распознавания слитной речи ВЫПОЛНИЛ: СТУДЕНТ ГРУППЫ РК6-47 СЕМЕНОВ И.И. НАУЧНЫЙ РУКОВОДИТЕЛЬ: ДОЦЕНТ КАФЕДРЫ РК6, К.Т.Н. ФЕДОРУК В.Г. Распознавание речи МГТУ ИМЕНИ Н.Э.

Подробнее

ЧАСТОТНЫЙ МЕТОД УСТРАНЕНИЯ ОМОНИМИИ ТАДЖИКСКИХ СЛОВОФОРМ

ЧАСТОТНЫЙ МЕТОД УСТРАНЕНИЯ ОМОНИМИИ ТАДЖИКСКИХ СЛОВОФОРМ ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН 2017, том 60, 1-2 ИНФОРМАТИКА УДК 519.25::81 322::811.222.8 Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов ЧАСТОТНЫЙ МЕТОД УСТРАНЕНИЯ ОМОНИМИИ

Подробнее

Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества

Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества Селегей Д. 2, Шаврина Т. 1, Селегей В. 2,3, Шаров С. 2,4 1 Московский Государственный Университет, Россия

Подробнее

Реестр затруднений обучающихся 5 классов по итогам внешней оценки готовности пятиклассников к обучению в основной школе

Реестр затруднений обучающихся 5 классов по итогам внешней оценки готовности пятиклассников к обучению в основной школе Реестр затруднений обучающихся 5 классов по итогам внешней оценки готовности пятиклассников к обучению в основной школе Содержательный анализ результатов оценочной процедуры основывается на информации

Подробнее

РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ. Александр Гельбух

РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ. Александр Гельбух РАЗРЕШЕНИЕ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ И ИЗВЛЕЧЕНИЕ СЛОВАРЯ МОДЕЛЕЙ УПРАВЛЕНИЯ ИЗ КОРПУСА ТЕКСТОВ Александр Гельбух Лаборатория естественного языка Центра Компьютерных Исследований (CIC) Национального

Подробнее

Исследование моделей векторного

Исследование моделей векторного Исследование моделей векторного представления слов на основе нейронных сетей Москва, 2015 Автор: группа 327 Архипенко Константин Владимирович Научный руководитель: канд. физ.-мат. наук Турдаков Денис Юрьевич

Подробнее

Обзор некоторых статистических моделей естественных языков

Обзор некоторых статистических моделей естественных языков Обзор некоторых статистических моделей естественных языков 243 Обзор некоторых статистических моделей естественных языков Е. А. Будников unicorn1992@bk.ru Московский физико-технический институт, ФУПМ,

Подробнее

Глубинный анализ текстовых данных: определение интересов пользователей

Глубинный анализ текстовых данных: определение интересов пользователей Глубинный анализ текстовых данных: определение интересов пользователей Руководители Ефремова Мария, Шиф Алексей Студенты Корскова Наталья, Краюшкин Олег, Смирнов Максим, Чернобай Юлия Что такое интерес?

Подробнее

Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3

Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3 Построение морфологического анализатора неизвестных слов на основе словарей системы ЭТАП-3 Казенников А.О. ИППИ РАH kzn@iitp.ru Аннотация В настоящей работе представлен способ построения морфологического

Подробнее

Априорные распределения

Априорные распределения Казанский Федеральный Университет, 2014 Outline 1 2 О гауссианах ML vs. MAP Мы остановились на том, что в статистике обычно ищут гипотезу максимального правдоподобия (maximum likelihood): θ ML = arg max

Подробнее

Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий

Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий Международная конференция ИОИ-10 Графическая вероятностная модель со скрытыми состояниями на основе главных многообразий Юлин Сергей Сергеевич Рыбинский государственный авиационный технический университет

Подробнее

Труды международной конференции Диалог 2007

Труды международной конференции Диалог 2007 Труды международной конференции Диалог 2007 ВЕРОЯТНОСТНЫЙ ПОДХОД К ЗАДАЧЕ РАЗРЕШЕНИЯ ОМОНИМИИ СЛОВ И СЛОВАРНЫХ ПАР A PROBABILISTIC APPROACH TO LEXICAL AMBIGUITY RESOLUTION OF WORDS AND WORD PAIRS Баглей

Подробнее

Behind LDA. Часть 1. Кольцов С.Н.

Behind LDA. Часть 1. Кольцов С.Н. Behind LDA Часть 1 Кольцов С.Н. Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно из множества значений, причём появление того или иного

Подробнее

Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis

Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis Проблема разрешения «Ё»-омографов при синтезе речи по тексту The problem of the «Ё»-homographs resolution in text-to-speech synthesis Лобанов Б. М. (lobanov@newman.bas-net.by), Объединенный институт проблем

Подробнее

Семантическое автодополнение

Семантическое автодополнение Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Семантическое автодополнение Курсовая работа студента 445 группы Удалова Александра

Подробнее

УДК ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В.

УДК ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В. вычислительные методы и программирование. 2015. Т. 16 215 УДК 004.852 ТЕМАТИЧЕСКИЕ МОДЕЛИ: ДОБАВЛЕНИЕ БИГРАММ И УЧЕТ СХОДСТВА МЕЖДУ УНИГРАММАМИ И БИГРАММАМИ М.А. Нокель 1, Н.В. Лукашевич 2 Представлены

Подробнее

Обзор методов классификации. Интеллектуальный анализ текстов

Обзор методов классификации. Интеллектуальный анализ текстов Обзор методов классификации. Интеллектуальный анализ текстов Курс «Интеллектуальные информационные системы» Кафедра управления и информатики НИУ «МЭИ» Осень 08 г. НИУ "МЭИ" Каф. УиИ 08 Метод опорных векторов

Подробнее

Реферат Актуальность работы

Реферат Актуальность работы Реферат магистерской аттестационной работы на тему: Исследование методов обработки временных рядов в мультимодальных приложениях Сергеев Алексей Александрович Актуальность работы Практически все современные

Подробнее

слов. Основными недостатками этого метода являются, во-первых, сложность получения оценок большого числа параметров статистической модели и,

слов. Основными недостатками этого метода являются, во-первых, сложность получения оценок большого числа параметров статистической модели и, УДК 59256 Е А Будников, студ Московский физико-технический институт В В Стрижов, кф-мн, нс, Вычислительный центр РАН Оценивание вероятностей появления строк в коллекции документов В работе рассматривается

Подробнее

За 1. Письменный экзамен по русскому языку проходит в форме изложкfffi:~iпвi~ 2. Максимальная экзаменационная оценка 100 баллов. При невыполнении изложенных правил проводится снижение баллов: Содержание

Подробнее

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА САНКТ- ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МАТЕМАТИКО- МЕХАНИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА КУРСОВАЯ РАБОТА СТУДЕНТА 361 ГРУППЫ КАЛМЫКОВА АЛЕКСЕЯ ВЛАДИМИРОВИЧА

Подробнее

«Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А.

«Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А. Отчёт по курсовому проекту на тему «Исследование сочетаемости русских имен прилагательных методами анализа комплексных сетей» Рыжова Д.А. 1. Характеристики исходного графа Исследуемая нами лингвистическая

Подробнее

Рекомендательная система для научных статей на основе корпуса ACL ARC

Рекомендательная система для научных статей на основе корпуса ACL ARC Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт Петербургский государственный университет» Математико механический факультет Кафедра информационно

Подробнее

графические модели Сергей Николенко СПбГУ Санкт-Петербург 14 февраля 2018 г.

графические модели Сергей Николенко СПбГУ Санкт-Петербург 14 февраля 2018 г. графические модели Сергей Николенко СПбГУ Санкт-Петербург 14 февраля 2018 г. Random facts: 14 февраля --- День святого Валентина, происходящий от луперкалий, праздника плодородия в честь богини «лихорадочной»

Подробнее

ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА

ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА УДК 004.912:303.7 ИСПОЛЬЗОВАНИЕ СЛОВАРНОЙ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ТЕКСТА К.К. Боярский, Е.А. Каневский, С.К. Стафеев Описаны подходы к решению некоторых

Подробнее

А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1

А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1 А.Ю. Антонова, Э.С. Клышинский, Е.В. Ягунова ОПРЕДЕЛЕНИЕ СТИЛЕВЫХ И ЖАНРОВЫХ ХАРАКТЕРИСТИК КОЛЛЕКЦИЙ ТЕКСТОВ НА ОСНОВЕ ЧАСТЕРЕЧНОЙ СОЧЕТАЕМОСТИ 1 1. Введение Тексты разных функциональных стилей отличаются

Подробнее

К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА»

К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА» Н.К. Рубашко, Г.П. Невмержицкая (Минск, БГУ) К ВОПРОСУ РАЗРАБОТКИ СЛОВАРЕЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ «МАШИННЫЙ ФОНД БЕЛОРУССКОГО ЯЗЫКА» В научно-исследовательской лаборатории интеллектуальных информационных

Подробнее

ОСНОВЫ ОБРАБОТКИ ТЕКСТОВ

ОСНОВЫ ОБРАБОТКИ ТЕКСТОВ ОСНОВЫ ОБРАБОТКИ ТЕКСТОВ Лекция #3: Синонимия: дистрибутивные векторные представления слов Лектор: м.н.с. ИСП РАН Майоров Владимир Дмитриевич Синонимия в задачах NLP Для большинства задач NLP важен смысл

Подробнее

А.В. Сокирко Интегрум-техно, Москва, С.Ю.Толдова МГУ, Аннотация

А.В. Сокирко Интегрум-техно, Москва, С.Ю.Толдова МГУ, Аннотация Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) А.В. Сокирко Интегрум-техно,

Подробнее

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН УДК 004.522 Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН Санкт-Петербург, 199178, 14 линия, 39. http://www.spiiras.nw.ru/speech А64 Анализ разговорной

Подробнее

Регуляризация и начала классификации

Регуляризация и начала классификации Казанский Федеральный Университет, 2014 Outline О регрессии 1 О регрессии 2 Полиномиальная аппроксимация Напоминаю, что в прошлый раз мы говорили о регрессии с базисными функциями: f (x, w) = w 0 + M w

Подробнее

Классификация текстов

Классификация текстов BMK МГУ 417 группа 30.09.2015 Примеры использования необходима для: 1 разделения сайтов по тематическим каталогам 2 борьбы со спамом 3 распознавания эмоциональной окраски текстов 4 персонификации рекламы

Подробнее

О языках, устойчивых относительно операций выпадения, вставки

О языках, устойчивых относительно операций выпадения, вставки О языках, устойчивых относительно операций выпадения, вставки Дергач П.С. В статье изучаются операции выпадения/вставки, продвижением которых занимался В. И. Левенштейн. Cтавятся и даются ответы на следующие

Подробнее

Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода

Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода Типы систем машинного перевода Системы, основанные на правилах (rulebased) Статистические системы (системы, основанные

Подробнее

АНАЛИТИЧЕСКИЕ ФОРМЫ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЛИТЕРАТУРНОГО ЯЗЫКА

АНАЛИТИЧЕСКИЕ ФОРМЫ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЛИТЕРАТУРНОГО ЯЗЫКА А.В. Венцов, Е.В. Грудева АНАЛИТИЧЕСКИЕ ФОРМЫ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЛИТЕРАТУРНОГО ЯЗЫКА Как известно, цели создания большого (национального) аннотированного корпуса текстов предполагают не только

Подробнее

Рабочая программа по русскому языку 6 класс УМК под редакцией М.М. Разумовской

Рабочая программа по русскому языку 6 класс УМК под редакцией М.М. Разумовской Рабочая программа по русскому языку 6 класс УМК под редакцией М.М. Разумовской I. Планируемые результаты освоения предметного курса. Программа направлена на выработку у учащихся следующих основных умений.

Подробнее

МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ

МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ УДК 004.852 МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ М. А. Нокель Московский государственный университет им. М. В. Ломоносова Поступила в редакцию 24.10.2014 г. Аннотация. В статье представлены

Подробнее

Математическая Модель Порождения Правил Синтаксической Сегментации

Математическая Модель Порождения Правил Синтаксической Сегментации Знания-Онтологии-Теории (ЗОНТ-09) Математическая Модель Порождения Правил Синтаксической Сегментации Манушкин Е.С., Клышинский Э.С. Московский государственный институт электроники и математики, Б. Трехсвятительский

Подробнее

I. Введение. II. Планируемые результаты освоения учебного предмета «Русский язык» за курс 7 класса.

I. Введение. II. Планируемые результаты освоения учебного предмета «Русский язык» за курс 7 класса. 1 I. Введение. Данная рабочая программа составлена на основе Федерального компонента государственного образовательного стандарта общего образования иавторской программы «Русский язык. Рабочие программы.

Подробнее