ВВЕДЕНИЕ В АНАЛИЗ ЕСТЕСТВЕННЫХ ЯЗЫКОВ

Save this PDF as:
 WORD  PNG  TXT  JPG

Размер: px
Начинать показ со страницы:

Download "ВВЕДЕНИЕ В АНАЛИЗ ЕСТЕСТВЕННЫХ ЯЗЫКОВ"

Транскрипт

1 Российский университет дружбы народов Институт системного анализа РАН Смирнов И.В. ВВЕДЕНИЕ В АНАЛИЗ ЕСТЕСТВЕННЫХ ЯЗЫКОВ Учебно-методическое пособие И.В. Смирнов, 2014

2 В пособии рассмотрены основные подходы и методы анализа текстов на естественных языках, а также программные инструментальные средства, которые можно использовать для решения различных практических задач, связанных с обработкой текстов. Пособие имеет практическую направленность, не требует от читателя глубоких познаний в области лингвистики, и предназначено для будущих специалистов в области компьютерных наук (Computer Science). 2

3 Содержание ВВЕДЕНИЕ ЕСТЕСТВЕННЫЕ ЯЗЫКИ. ТИПОЛОГИЯ И СТРОЕНИЕ ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ТЕКСТА. ВЫДЕЛЕНИЕ ПЕРВИЧНЫХ СТРУКТУРНЫХ ЭЛЕМЕНТОВ МОРФОЛОГИЧЕСКИЙ АНАЛИЗ СНЯТИЕ МОРФОЛОГИЧЕСКОЙ МНОГОЗНАЧНОСТИ ОСНОВЫ СИНТАКСИСА. ФОРМАЛЬНЫЕ ГРАММАТИКИ МЕТОДЫ СИНТАКСИЧЕСКОГО АНАЛИЗА СЕМАНТИЧЕСКИЙ АНАЛИЗ. МОДЕЛИ И МЕТОДЫ МЕТОДЫ УСТАНОВЛЕНИЯ СЕМАНТИЧЕСКИХ РОЛЕЙ РЕЛЯЦИОННО-СИТУАЦИОННЫЙ АНАЛИЗ ТЕКСТОВ ПРОГРАММНЫЕ ИНСТРУМЕНТЫ ДЛЯ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ ПРИЛОЖЕНИЯ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ

4 Введение Цель данного учебно-методического пособия ознакомить читателя с основами подходов и методов анализа текстов на естественных языках, а также с программными инструментальными средствами, которые можно использовать для решения различных задач, связанных с обработкой текстов. Пособие имеет практическую направленность, не требует от читателя глубоких познаний в области лингвистики, и предназначено для будущих специалистов в области компьютерных наук (Computer Science). Анализ естественных языков (Natural Language Processing) направление исследований в области искусственного интеллекта и компьютерной лингвистики, которое изучает проблемы понимания естественного языка (речи и текстов) с помощью компьютера. Зарождение этого направления связывают с необходимостью решения задач машинного перевода и взаимодействия (общения) человека с компьютером на естественном языке [Encyclopaedia of Artificial Intelligence. Entry Natural Language Understanding, pp ]. В настоящее время актуальность данного направления определяется необходимостью обрабатывать большие массивы текстовой информации, накопленные человечеством за последнее время в глобальном информационном пространстве. Тексты на естественном языке слабоструктурированная информация, поэтому их обработка представляет собой непростую задачу, выходящую за рамки традиционной алгоритмической обработки структурированных данных. Для того, чтобы получить из текстов полезную информацию, необходимо их структурировать, упорядочить, систематизировать, обеспечить поиск текстов по запросу пользователя. Перечислим основные классы задач, где используются методы анализа текстов на естественных языках: I. Анализ текста и информационный поиск. 1. Машинный перевод с одного языка на другой. 2. Системы, поддерживающие диалог с пользователем. 3. Поиск текстовой информации по запросу пользователя. 4. Извлечение информации из текстов. Извлечение фактов переход от текстов к структурированной информации, перенос фактов в базу данных. 4

5 5. Вопросно-ответные системы. Поиск точного ответа на вопрос, а не документа как при поиске информации. 6. Автоматическое резюмирование. Построение краткого изложения текста. 7. Поиск близких текстов (документов). Выявление заимствований и плагиата. 8. Кластеризация и классификация текстов. Упорядочивание текстов по группам похожих документов или отнесение документа к предопределенному классу. 9. Контентный анализ: определение характеристик текста и автора, эмоциональной окраски текста, построение психолингвистического портрета автора. II. Синтез текстов. Автоматическая генерация текстов с заданными характеристиками. III. Естественно-языковое взаимодействие с компьютером. 1. Распознавание речи - перевод речи (звука) в текст. Перевод телепередач в реальном времени. Управление компьютером. 2. Синтез речи перевод текста в звук. В пособии рассматриваются только задачи обработки текстов, хотя дисциплина "Анализ естественных языков" обычно включает в себя и вопросы, связанные с обработкой речи. Большинство терминов в пособии приводится как на русском, так и на английском языке. Это сделано для того, чтобы читатель мог лучше ориентироваться в зарубежной литературе по данной предметной области. Многие математические понятия (например, конечный автомат, граф и т.п.) намеренно не раскрываются, вместо этого приводятся ссылки на источники для самостоятельного изучения. Предполагается, что читатель обладает элементарными знаниями в области математики и информатики. 5

6 1. Естественные языки. Типология и строение Объектом нашего изучения является естественный язык. Язык это средство общения, коммуникации, и более конкретно средство передачи информации от человека к человеку, от человека к компьютеру или наоборот. Естественный язык (Natural Language, Human Language) язык, на котором общаются люди, и который является для них родным. Следует отличать естественный язык от языков программирования и искусственных языков типа эсперанто. Существует много гипотез и теорий о происхождения языка [Леонтьев], которые, несомненно, связаны с происхождением человека. Вопрос о появлении языка впервые ставился в античной философии. Уже тогда возникли споры о естественном или искусственном характере языка. Некоторые предполагают, что язык возник внезапно, в результате некоторых мутаций, другие полагают, что язык появлялся эволюционно. В доисторические времена язык воплощался в речи. В речи участвуют многие органы человека (язык, гортань, грудная клетка). Неандертальцы могли только извлекать звуки современного младенца, кроманьонцы (35 тыс. лет до н.э.) уже могли говорить примерно как современные люди. Происхождение языка связывают также с появлением общества, государства, возникновением трудовых отношений, которые потребовали коммуникации людей для совместной деятельности. Пинкер [Пинкер] считает, что язык - врожденная способность человека, как инстинкт. Его гипотеза состоит в том, что всем людям свойственна врожденная универсальная грамматика, которая реализуется в конкретных языках, изучаемых людьми в детском возрасте. Его предположения подкреплены, в частности, многолетними наблюдениями за приматами и детьми. По данным ЮНЕСКО сейчас в мире насчитывается более 6 тысяч языков, половина из которых может исчезнуть к концу текущего столетия [Languages Atlas]. В пятерку самых распространенных языков входят: китайский, английский, испанский, арабский, хинди; русский язык по разным оценкам относят на 7-е или 8-е место по распространенности (количеству говорящих). 6

7 Типология языков Языки классифицируются по нескольким признакам: по происхождению, по строению, по письменности и т.д. Генеалогическая классификация распределяет языки по семьям, группам, подгруппам на основе понятия родства языков, которое определяется главным образом сходством слов, а точнее сходством их звучания. «Исследователи давно замечали, что в структурах многих языков Европы и Азии есть общие черты, например, польское woda, русское вода, английское water, немецкое Wasser или древнерусское око, польское oko, немецкое Auge, литовское akis...» [Дьячок, Шаповал]. Анализ расхождения (различия) слов с учётом хронологии изменения слов позволяет отыскать древние формы слов, свойственные праязыку общему для всех языку-предку. Установлено, что со временем языки расходятся, отдаляясь друг от друга. Например, согласно русскому исследователю С.Е. Яхонтову, русский и украинский языки разошлись примерно 500 лет назад, русский и польский лет назад, русский и английский лет назад [Дьячок, Шаповал]. Таким образом, по происхождению языки составляют иерархическую классификацию (подобно зоологической), которую представляют в виде дерева. На рисунке 1 приведено такое дерево для индоевропейской семьи Русский язык относится к подгруппе восточнославянских языков индоевропейской семьи. 7

8 Рисунок 1 - Дерево языков индоевропейской семьи 1 Для обработки текстов на естественном языке важна морфологическая типология языков, а именно типология по морфологической структуре и способу выражения грамматических значений (понятие грамматического значения подробнее рассматривается в главе 3). Следует различать изолирующие, инкорпорирующие, флективные и агглютинативные языки [Вендина]. В изолирующих языках слова не изменяются, не спрягаются и не склоняются. Каждое слово является корнем, но различные значения слова передаются сочетанием служебных слов, порядком слов в предложении и интонацией в речи. К изолирующему типу языков относят вьетнамский, бирманский, китайский и другие языки. В инкорпорирующих языках выражения могут сливаться в комплекс слов, представляющий собой одно целое «слово». Иногда один комплекс может соответствовать целому предложению, например, в чукотском ты-тор- 1 Рисунок с ресурса 8

9 тан-пылвык-ты-пойгы-пэляркын соответствует «Я новое хорошее металлическое копье оставлю». Примерами инкорпорирующих языков являются языки северо- и южноамериканских индейцев, а также палеоазиатские языки (чукотский, эскимосский). В агглютинативных и флективных языках слова могут изменяться в основном за счет присоединения к основам аффиксов (префиксов, суффиксов, окончаний). В флективных языках один аффикс, называемый флексией, может выражать несколько грамматических значений, например, в русском языке флексия -а может передавать грамматические значения единственного числа и именительного падежа существительного (как в слове вод-а). К флективным относятся все индоевропейские языки. В агглютинативных языках аффикс передаёт только одно значение. Например, в узбекском языке киз-лар-га «девушкам» аффикс -лар- передаёт значение множественного числа, -га значение дательного падежа, тогда как в русском одна флексия -ам передаёт оба этих значения. Агглютинативными являются финно-угорские, тюркские, японский и др. языки. В зависимости от того как в языке передаются грамматические значения различают синтетические и аналитические языки. Для синтетических языков характерно изменение слов, объединение различных морфем в одном слове. В аналитических языках для передачи грамматических значений используются служебные слова, порядок слов и интонация. Примером аналитизма может служить будущее время в русском языке (например, в предложении я буду делать уроки), которое выражается глаголом в инфинитиве и служебным глаголом буду, не имеющим своего основного значения быть, существовать, находиться. Другим примером аналитизма в русском языке является форма сослагательного наклонения. Каждый естественный язык не принадлежит только одному типу, а в разной степени характеризуется аналитизмом или синтетизмом, флективностью или агглютинативностью (см. [Гринберг]). Почему важно знать типологию языков? В первую очередь потому, что языки, принадлежащие одной группе, обладают схожим строением, а значит могут обрабатываться похожими методами. Кроме того, тип языка определяет сложность его автоматической обработки и характер неоднозначности, с которой придётся столкнуться при автоматическом анализе языка. 9

10 Язык существует в двух формах: устной и письменной. Письменность (письмо) наиболее эффективное средство передачи и хранения информации [Шайкевич]. В настоящее время существует два принципа письма: идеографический и фонетический. Идеографический принцип подразумевает, что каждый символ письма передаёт определенный смысл. Примером идеографического письма служат китайские иероглифы. Фонетический принцип подразумевает, что каждый символ письма соответствует отдельному звуку. Элементы такого письма буквы, составляют алфавит строго упорядоченный перечень букв. Лингвистический анализ текстов Одной из важных задач автоматического анализа текстов с помощью компьютеров является разработка формальных моделей языка. Именно формальные модели позволяют представлять и обрабатывать информацию, передаваемую с помощью языка, в компьютерных программах. Важно разрабатывать такие модели, которые легко реализуются на языках программирования и просто строятся (формируются) по тексту. Существуют модели языка, которые не реализуемы на компьютерах. Основная проблема при обработке естественного языка это неоднозначность (ambiguity). Большинство задач по обработке естественного языка можно рассматривать как задачи разрешения неоднозначности (disambiguation, resolving ambiguity). Язык стройная система, имеющая свою структуру. Согласно строению языка выделяют следующие этапы анализа, на каждом из которых неоднозначность проявляется по-своему: 1. Предварительный анализ (Basic text processing). Выделение первичных структурных элементов - абзацев, предложений, слов, некоторых оборотов. Основная проблема на данном этапе состоит в корректном поиске границ слов и предложений. Например, в русском языке точка не всегда является разделителем предложений, а разделителем слов не всегда является пробел (Красно-белый ). 2. Морфологический анализ (Part-Of-Speech Tagging, POS Tagging). Сюда входят поиск основ слов, установление словарных форм слов и приписывание им морфологических признаков. Морфологическая неоднозначность (омонимия) здесь является основной проблемой. 10

11 Например, в предложении Мама мыла раму слово мыла может быть формой как существительного мыло, так и глагола мыть. 3. Синтаксический анализ (Parsing, Syntactic parsing) состоит в анализе строения предложения. На данном этапе определяются зависимости между словами (подчинение), выполняется выделение групп связанных слов и построение дерева синтаксической зависимости. И снова здесь проявляется неоднозначность (Он встретил её на поляне с цветами). 4. Семантический анализ (Semantic parsing). На этом этапе происходит определение смысла предложения или отдельных слов (пример неоднозначности: Бытие определяет сознание). Этапы лингвистического анализа текста выполняются последовательно. На каждом этапе анализа используются результаты предыдущих этапов, при этом может происходить снятие неоднозначности, проявившейся на предыдущем этапе. Ошибки анализа на каждом из этапов сказываются на последующих этапах. Грамматика ЕЯ описывает закономерности устройства языка, по которым строятся слова и предложения. Грамматика ЕЯ имеет описательный характер и, к сожалению, не всегда содержит явные и однозначные правила формирования слов и предложений, пригодные для анализа текстов с помощью компьютерных программ. Поэтому одной из задач автоматического анализа текстов является выявление языковых закономерностей. В решении этой задачи существует два пути работа эксперта (лингвиста) и автоматическое обучение на размеченных корпусах. В первом случае эксперты вручную или автоматизировано создают правила анализа текстов, которые потом реализуются в алгоритмах анализа текстов. Во втором случае закономерности выявляются автоматически в результате применения методов машинного обучения на размеченных вручную экспертами корпусах текстов. Оба подхода требуют предварительного формирования множества (корпуса) текстов для анализа. При автоматической обработке текстов на естественных языках важной характеристикой используемых методов анализа являются показатели качества их работы. Обычно вычисляются следующие основные показатели: точность (Precision), полнота (Recall), F-мера (F-measure), аккуратность (Accuracy). Для эмпирического вычисления значений 11

12 данных показателей используются корпуса текстов с разметкой, выполненной вручную или автоматизировано с помощью экспертов. Таким образом, результаты автоматической обработки сопоставляются в результатами анализа человеком, и чем больше совпадений, тем качественней работает метод анализа. Следует заметить, что очень многое при обработке текстов зависит от характеристик анализируемых текстов, а именно жанра, предметной области, источника происхождения. Например, анализ сообщений в социальных сетях отличается от анализа текстов классической литературы. Поэтому при разработке методов анализа текстов необходимо иметь представление о том, какие тексты будут анализироваться в дальнейшем. В данном пособии рассматриваются методы анализа текстов на русском и английском языках. Основная литература [Леонтьев] А. А. Леонтьев. Происхождение языка. // Лингвистический энциклопедический словарь. - М., С [Пинкер] С. Пинкер. Язык как инстинкт. М.:УРСС, с. [Шайкевич] А. Я. Шайкевич. Введение в лингвистику. Учебное пособие. М.: «Academia», с. Дополнительная литература [Дьячок, Шаповал] М. Т. Дьячок, В. В. Шаповал Генеалогическая классификация языков. Новосибирск: НИЭПП, [Вендина] Вендина Т. И. Введение в языкознание: Учебное пособие для педагогических вузов. М., Высш. шк., с. [Гринберг] Дж. Гринберг. Квантитативный подход к морфологической типологии языков //Новое в лингвистике. Вып. III. - М., С [Сепир] Сепир Э. Избранные труды по языкознанию и культурологии. - М.: Прогресс, с. [Гумбольдт] Гумбольдт В. Избранные труды по языкознанию. - М.: Прогресс, с. [Languages Atlas] 12

13 2. Предварительная обработка текста. Выделение первичных структурных элементов При автоматической обработке с помощью компьютеров тексты представляются последовательностью символов (строками). Предварительная обработка текста состоит в выделении базовых элементов текста - слов, чисел, знаков пунктуации и т.д. Этот процесс называется токенизацией (tokenization) или выделением токенов. Токен (token) - последовательность символов, ограниченная с двух сторон символамиразделителями, представляющая лингвистическую значимость и ценность для последующего анализа. Сразу же стоит обратить внимание на то, что токенизация в алфавитных языках значительно отличается от токенизации в идеографических языках, где разделители слов как таковые могут отсутствовать. Далее рассматривается токенизация текстов на примере алфавитных языков. Простейшая токенизация состоит в выделении в тексте подстрок, ограниченных с двух сторон пробелами или знаками пунктуации. В процессе токенизации происходит выделение и более сложных токенов, таких как адреса, ФИО, телефоны и т.п. Таким образом, токены могут быть составными и содержать разделители (например, New York, красно-белый, Петров И.С.). Однако, считать ли, например, строку New York одним токеном или нет, зависит прежде всего от решаемых задач. При токенизации выделяют также сокращения, аббревиатуры, составные предлоги (с помощью, as well as) и некоторые другие элементы текста. В результате токенизации выделенным токенам назначают соответствующий тип: слово, число, дата, адрес и т.д. Особую трудность для токенизации в некоторых языках представляют так называемые клитики (clitics) - части слов, занимающие промежуточное положение между словами и аффиксами (наример, в английском I'm, в русском как-то). Иногда процессу токенизации предшествует выделение крупных фрагментов - абзацев, глав и т.п. Обязательной задачей предварительной обработки текста является выделение предложений, которое выполняется обычно после выделения токенов. Предложение в лингвистике соответствует высказыванию, несущему некоторую законченную мысль. Выделение границ предложений называют сегментацией (Sentence Segmentation) или разбиением (Sentence Splitting) текста на предложения. В языках с алфавитной письменностью разделителями предложений в тексте обычно 13

14 являются отделительные знаки препинания - точка, вопросительный знак, восклицательный знак, многоточие. Однако эти разделители многозначны, т.е. могут обозначать не только конец предложения, но и аббревиатуры (например, г.). Разрешение такой многозначности часто выделяют в отдельную подзадачу (periods disambiguation), которая решается с помощью специальных эвристик или методами машинного обучения на корпусах текстов. В обоих случаях точность решения задачи достигает 99% [Lüdeling]. Выделение границ слов и предложений в контексте информационных технологий часто называют лексическим анализом, российские исследователи в области компьютерной лингвистики обычно называют этот этап графематическим анализом [Сокирко]. Существует два подхода к решению данной задачи. Первый подход основан на сканировании текста как последовательности символов и применении эвристических правил для выделения границ токенов, второй подход основан на использовании регулярных выражений и конечных автоматов. Рассмотрим кратко оба подхода. В первом подходе текст просматривается символ за символом, при этом ищутся символы-разделители, между которыми находится строка токена. Выделение токенов происходит последовательно. Этот процесс упрощенно можно описать следующим образом: итератор (курсор) передвигается по строке символов до тех пор, пока не встретится ближайший символразделитель. Когда это произошло, запоминается начальная позиция итератора и текущая позиция, соответствующая концу токена. Здесь же определяется тип токена, например, если все встретившиеся символы - буквы, то тип токена - строка, если цифры - то число. Токенайзер возвращает строку токена (или позиции начала и конца токена в тексте) и тип токена, на этом процесс сканирования приостанавливается до тех пор, пока не будет запрошен следующий токен, поиск которого начнётся со следующего за разделителем символа. Сложности начинаются при выделении токенов с разделителями, таких как, например, дробные числа или даты в формате дд.мм.гггг. Необходимо просмотреть несколько символов после разделителя, чтобы убедиться в том, что это действительно разделитель, а не часть токена, кроме того, может потребоваться просмотр нескольких символов перед разделителем, при этом в процессе сканирования проверяется регистр символов. При всех таких проверках ветвления алгоритма могут стать 14

15 слишком запутанными, а выделение составных токенов типа ФИО становится очень сложным. Использование описанного подхода оправдано для простой токенизации, его недостаток состоит в том, что правила обработки текста "зашиты" в код программы. Более гибкий подход к токенизации основан на использовании регулярных выражений. Регулярные выражения - это шаблоны для поиска множеств цепочек символов, записанные на формальном языке. Это мощный инструмент для обработки текстов на естественном языке, позволяющий выделять токены любой сложности. Оставив в стороне подробное описание синтаксиса регулярных выражений (читатель может обратиться к источнику [Фридл]), приведем несколько примеров регулярных выражений в общепринятом формате PCRE [PCRE] для выделения различных типов токенов: 1. Слова русского языка: [а-яа-я]+ 2. Числа: -?\d+[\. \,]?\d+ 3. IP адреса: (?:(?:25[0-5] 2[0-4][0-9] [01]?[0-9][0-9]?)\.){3}(?:25[0-5] 2[0-4][0-9] [01]?[0-9][0-9]?) [RE] 4. адреса: [RE] 5. Даты в формате дд.мм.гггг (0[1-9] [12][0-9] 3[01])[- /.](0[1-9] 1[012])[- /.](19 20)\d\d Запись [а-яа-я] обозначает множество букв кириллического алфавита в сточном и заглавном регистре, квантификатор + означает одно или более вхождений, квантификатор? означает ноль или одно вхождение, \d - любая десятичная цифра, в квадратных скобках задаётся класс символов, означает альтернативность вариантов. Замечательной особенностью подхода на основе регулярных выражений является то, что регулярные выражения, описывающие правила анализа, отделены от программы, выполняющей анализ. Это позволяет легко модифицировать выражения и добавлять новые, не меняя алгоритмов обработки. Регулярные выражения компилируются в конечные автоматы, поэтому процесс обработки текста выполняется очень быстро. Существует множество программных библиотек для работы с регулярными выражениями под большинство языков программирования и сред разработки. Кроме того, существуют редакторы и библиотеки примеров 15

16 регулярных выражений, которые упрощают процесс создания новых регулярных выражений (см., например, [RE]). Компонент, выполняющий токенизацию, называется токенизатором или токенайзером (tokenizer). Существует достаточное количество программных реализаций токенизаторов в виде стандартных или дополнительных встраиваемых библиотек для большинства языков программирования. Для решения задач обработки естественных языков обычно требуется дополнительная настройка таких токенизаторов. Существует множество генераторов лексического анализа, значительно упрощающих решение задачи предварительной обработки текстов. Среди таких инструментов укажем lex [Браун], flex [FLEX], которые позволяют задавать шаблоны в виде регулярных выражений и сопоставлять им код на языке С++ непосредственно для обработки текста при совпадении шаблонов. Методы токенизации для языков с идеографической письменностью, где отсутствуют разделители слов (Китайский, Японский и т.д.), описаны, например, в работах [Jurafsky & Martin], [Chunyu], [Lüdeling]. В заключении необходимо отметить, что современные тексты, представленные в Интернете и в социальных медиа, часто написаны без разделителей предложений и с орфографическими ошибками, что создаёт ряд проблем при их обработке. Итак, результатом предварительной обработки текста является множество предложений, каждое из которых состоит из множества элементов (токенов) разных типов: слово, дата, число, ФИО и т.д. Следующая задача состоит в анализе полученных токенов установлении нормальных форм и морфологических признаков слов. Задания Напишите регулярные выражения для выделения токенов типа ФИО в различных форматах (Иванов И.С., Иванов Иван С., и т.д.). Напишите регулярные выражения для выделения автомобильных номеров. Основная литература [Jurafsky & Martin] Daniel Jurafsky, James H. Martin. Speech and Language Processing Prentice Hall, 2000, 975pp. (Draft). 16

17 [Сокирко] Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)", глава 2 // [Фридл] Фридл, Дж. Регулярные выражения. Несколько изданий Дополнительная литература [Lüdeling]Corpus Linguistics. An International Handbook. Ed. by Lüdeling, Anke; Kytö, Merja. Walter de Gruyter, 2008, 776 pp. [Chunyu] Tokenization as the initial phase in NLP. Jonathan J. Webster & Chunyu Kit. City Polytechnic of Hong Kong // [PCRE] Perl Compatible Regular Expressions // [RE] [Браун] Мартин Браун. Создание анализаторов текста при помощи yacc и lex // https://www.ibm.com/developerworks/ru/edu/au-lexyacc/section2.html [FLEX] The Art of Tokenization // https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=ru 17

18 3. Морфологический анализ Морфология (morphology) изучает строение слова, законы словоизменения и словообразования. В лингвистике традиционно считается, что одно и то же слово может выступать в различных грамматических формах [Шайкевич]. Например, слово лес имеет грамматические формы лес, леса, лесу, лесом и т.д., называемые также словоформами, которые выражают различные грамматические значения (в данном примере числа и падежа) слова. Грамматическое значение - это абстрактное значение слова, находящее в языке устойчивое выражение, и противопоставляемое лексическому значению, которое в словоформах неизменно. Примеры грамматических значений: «родительный падеж», «дательный падеж», «множественное число», «женский род». Грамматические значения называют также граммемами ( grammeme). Грамматическая категория ( grammatical category) есть множество взаимоисключающих однородных грамматических значений. Грамматическими категориями являются понятия рода, падежа, числа, лица, залога и т.д. Например, грамматическую категорию «числа» образуют грамматические значения «единственное число» и «множественное число». У одной словоформы не может быть нескольких грамматических значений одной категории, однако одна и та же словоформа в тексте может выражать несколько грамматических значений (например, слово лес имеет значения именительного и винительного падежа), и отсюда возникает одна из разновидностей проблем неоднозначности при анализе текстов. Системы грамматических категорий для разных языков могут сильно различаться как по составу категорий, так и по составу различаемых грамматических значений. Объектом изучения морфологии являются также морфемы (morpheme) - наименьшие неделимые единицы языка, из которых состоят слова. Морфемы составляют два больших класса - основы (stems) и аффиксы (affixes), которые присоединяются к основам. Аффиксы разделяют на префиксы и суффиксы (постфиксы). Грамматические значения выражаются в языке различными грамматическими средствами, которые разделяются на синтетические, замкнутые в пределах слова, и аналитические, 18

19 использующие другие слова и средства для выражения грамматического значения. Самым распространенным синтетическим грамматическим средством является аффиксация, при которой грамматическое значение образуется присоединением к основе аффиксов (лес-у). Другими синтетическими средствами являются чередование, при котором изменяется основа или сам аффикс (неси носи, школьник школьница), и супплетивизм, при котором грамматические формы одного и того же слова образуются при помощи разных корней (идти шел, хороший лучше). К аналитическим средствам относятся: использование служебных слов (делаю буду делать, лес в лесу), порядок слов, интонация. В ходе автоматического морфологического анализа текста на естественном языке обрабатывается каждое слово текста, при этом решаются следующие задачи: стемминг; лемматизация; установление морфологических признаков слова (граммем). Рассмотрим эти задачи более подробно, но перед этим определим некоторые понятия. Под лексемой (lexeme) будем понимать единицу словарного состава языка в совокупности всех его конкретных грамматических форм. Лексема - абстрактное понятие, которое объединяет все возможные формы одного слова (словоформы, word forms). Лемма (lemma) - каноническая (нормальная, словарная) форма лексемы. Лемма соответствует форме слова, которая приводится в любом словаре. В русском языке словарной форме существительного соответствует форма в именительном падеже в единственном числе (брат), для прилагательных словарная форма будет соответствовать форме именительного падежа, мужского рода, единственного числа (умный), у глаголов словарная форма соответствует инфинитиву (бежать). В других языках словарные формы определяются аналогично. Лемматизация (lemmatization) - это процесс установления лемм для слов текста. Стемминг (stemming) - процесс поиска псевдоосновы (stem) слова, некоторой неизменяемой части всех словоформ, которая, вообще говоря, не всегда может совпадать с его корнем. Задача стемминга актуальна при анализе языков с достаточно развитым словоизменением. Лемматизация и стемминг имеют одну цель - свести 19

20 разнообразие форм одного слова к одному инварианту, что необходимо, например, при решении задач информационного поиска или более общей задачи сравнения текстов, когда нужно отождествлять все формы слова (по запросу книга нужно находить документы, содержащие слова книг, книгу, книгам и т.д.). Установление морфологических признаков (по сути грамматических значений, граммем) слов текста необходимо для снятия многозначности результатов лемматизации и для дальнейшего - синтаксического анализа. Задача установления морфологических признаков может рассматриваться как задача разметки или тегирования (tagging) текста установления тегов (морфологических признаков) словам текстов. Набор устанавливаемых признаков зависит от языка. Так, в русском языке устанавливается часть речи, для существительных и прилагательных - число, род и падеж, для глаголов - форма, время и наклонение и т.д., а в английском языке, где отсутствуют грамматические падеж и род, часто ограничиваются установлением части речи. В зарубежных исследованиях этот процесс называют Part-Of-Speech Tagging (POS Tagging). Установление морфологических признаков обычно выполняется совместно с лемматизацией. При решении задач морфологического анализа очень часто проявляется неоднозначность. Так, слова разных частей речи могут иметь одинаковое написание (мыла - существительное и глагол), одной словоформе может соответствовать несколько лемм (например, словоформе мыла соответствуют леммы мыть и мыло), одна словоформа может выражать несколько морфологических признаков (пример падежной многозначности - совпадение форм именительного и винительного падежа для некоторого класса слов русского языка: стол, экран,...), но в результате морфологического анализа у слова должны остаться только однозначные граммемы. Снятие морфологической многозначности выполняется обычно в отдельной от морфологического анализа процедуре, этот процесс описан в следующей главе. Стемминг Методы стемминга основаны на отсечении аффиксов. Первый алгоритм стемминга был предложен для английского языка в 1968 году Ловинсом и лёг в основу большинства последующих алгоритмов [Болховитянов и др.]. 20

21 Наиболее известным методом стемминга является Алгоритм Портера [Jurafsky & Martin], который основан на последовательном применении правил преобразования окончаний слов. Правила имеют следующий вид: (условие): S1 S2 означающий, что если слово оканчивается постфиксом S1, и левая часть перед S1 удовлетворяет заданному условию, то S1 необходимо заменить на S2. Условие в правиле содержит, например, проверку на количество повторений последовательности гласная-согласная, наличие гласной буквы, окончание не удвоенную согласную и т.п. Алгоритм состоит из семи последовательно выполняемых шагов, на каждом из которых применяется определенное множество правил. Приведем примеры правил первого шага [Jurafsky & Martin]: SSES SS caresses caress IES Y ponies pony SS SS caress caress S ε cats cat Эти правила предназначены для выделения основ у существительных множественного числа и глаголов в форме третьего лица единственного числа. Символ ε означает пустой символ. Правила второго шага: (*v*) ED ε feed feed, agreed agree (*v*) ING ε motoring motor, sing sing предназначены для выделения основ у глаголов прошлого времени и инфинитива. Условие (*v*) требует наличия гласной буквы в основе. Существует открытая реализация стеммера Портера [Snowball], в том числе для русского языка. Алгоритм Портера относится к бессловарным подходам, но правила должны составляться лингвистами для каждого языка. Существуют и методы, не требующие ручного составления правил. Такие методы используют частотные закономерности языка, а именно то, что неизменяемые части слов встречаются в тексте реже, чем изменяемые. Основанный на таком подходе N-граммный алгоритм способен к выделению основ словоформ любого языка. 21

22 Правила в алгоритме Портера трансформируются в конечные автоматы, что делает его очень быстрым. Преимущества всех стеммеров - высокая скорость, недостаток - низкая точность. Вообще говоря, стемминг плохо подходит для поиска инвариантной формы слова, т.к. для разных слов порождаются одни псевдоосновы (для люб-ить, люб-овь, люб-оваться будет получена одна основа люб). Лемматизация и установление морфологических признаков Решение задачи лемматизации и установления морфологических признаков отличается для русского и английского языков. Сначала опишем подходы к решению данной проблемы для русского языка. Существует два принципиальных подхода к лемматизации и установлению морфологических признаков - словарный и безсловарный. Первый подход основан на лексиконе - словаре всех слов языка. Такой словарь содержит все словоформы языка, каждой словоформе сопоставлена нормальная форма (лемма), и морфологические признаки. Лексикон можно построить на основе размеченных корпусов, но для русского языка лексикон обычно создаётся на основе словаря Зализняка [Зализняк]. Словарь Зализняка содержит нормальные формы слов (порядка 100 тыс. слов), которым сопоставлен некоторый код. В словаре описаны правила, на основе которых можно породить все словоформы слова, отталкиваясь от нормальной формы и кода, при этом правила позволяют каждой получаемой словоформе приписать морфологические признаки. Применив правила ко всем словам словаря можно получить все словоформы и их морфологические признаки, т.е. таблицу вида: Таблица 1. Пример табличной структуры словаря словоформ нормальная форма словоформа морфологические признаки башня башню Сущ., вин.п., ед.ч., ж.р. башня башней Сущ., твор.п., ед.ч., ж.р. С помощью этой таблицы для заданной словоформы легко устанавливается лемма и морфологические признаки (одной словоформе может соответствовать несколько строк таблицы). Эту таблицу можно 22

23 нормализовать, т.е. разбить на несколько связанных таблиц: первая будет содержать нормальные формы с неизменяемыми морфологическими признаками, во второй таблице будут перечислены формы с соответствующими морфологическими признаками и ссылками на первую таблицу (см. табл. 2). Таблица 2. Преобразованные таблицы словоформ идентификатор нормальная форма морфологические признаки башня Сущ., ж.р. словоформа Морфологические признаки Идентификатор нормальной формы башню вин.п., ед.ч башней твор.п., ед.ч Существует и другое представление лексикона, основанное на единообразии изменения большинства слов. Под парадигмой (paradigm) в лингвистике понимают совокупность форм одного слова [Шайкевич], а в компьютерной лингвистике схему или модель изменения слова по грамматическим категориям (например, различают парадигмы склонения, парадигмы спряжения и т.п.). Иными словами, парадигма это закономерность, согласно которой происходит словоизменение по грамматическим значениям. Так, например, слова башня и песня имеют одну парадигму. Так как аффиксация основное средство выражения грамматических значений (в русском языке), то словарь разбивается на две части: словарь псевдооснов и словарь постфиксов, сгруппированных по парадигмам. При таком подходе парадигма это множество всех постфиксов и связанных с ними параметров для всех словоформ данного слова [Большакова]. Упрощенно словарь теперь можно представить в виде таблиц следующим образом: 23

24 Таблица 3. Словарь псевдооснов псевдооснова номер парадигмы морфологические признаки баш 7 Сущ., ж.р... пес 7 Сущ., ж.р. Таблица 4. Словарь постфиксов номер парадигмы номер словоформы постфикс морфологические признаки 7 4 ню вин.п., ед.ч. 7 5 ней твор.п., ед.ч. Заметим, что в словаре псевдооснов будет много записей с совпадающим строковым представлением псевдоосновы. Табличное представление словарей псевдооснов и постфиксов не совсем подходит для морфологического анализа из-за сложностей, связанных с поиском подстрок. Для оптимизации работы с такого типа словарной структурой обычно применяются специального вида деревья, соответствующие конечным автоматам [Сокирко], [Большакова]. В самом простом случае в узлах дерева находятся буквы слов, а в листьях морфологические признаки и лемма. Создаются деревья псевдооснов и деревья постфиксов. Последние могут быть инвертированы для более быстрого анализа слова. Для хранения словаря и поиска по нему используют также хеширование (см., например, [Сегалович]). Для словарной морфологии представляет проблему чередование в основах. Проблема словарного подхода к морфологическому анализу состоит в неполноте словарей и постоянном появлением новых слов. Для морфологического анализа слов, не найденных в словаре, применяются методы бессловарного анализа. Бессловарная морфология основана на флективности русского языка, а именно на регулярности в соответствии 24

25 флексий и грамматических значений. Принцип бессловарной морфологии состоит преимущественно в анализе окончания слова и предсказании его морфологических признаков. При этом процедура предсказания обучается на описанных выше морфологических словарях или на словарях морфем. В среднем точность предсказания приемлема, например, в работе [Сокирко] составляет 87%, но, конечно значительно меньше, чем для словарного подхода. Подробнее о бессловарной морфологии можно прочитать в работе [Большакова, 2.3]. Итак, для морфологического анализа слов русского языка используются морфологические словари, для анализа слов, не найденных в словарях, используются методы бессловарной морфологии. По-прежнему при этом остаётся проблема неоднозначности разных видов. Наиболее значимые из них это падежная многозначность, когда одной словоформе приписывается несколько падежей, и многозначность лемматизации, при которой одной словоформе назначается несколько нормальных форм разных частей речи. Эти виды неоднозначности сильно сказываются на качестве последующего, синтаксического анализа. Морфологический анализ английского языка основан на использовании конечных автоматов и конечных преобразователей (finite-state transducer) [Jurafsky & Martin]. Конечный преобразователь моделирует регулярные отношения и предназначен для преобразования одной строки в другую и обратно с помощью конечного автомата. Каждый символ конечного преобразователя имеет вид a : b и задаёт отображение символа a из первой строки в символ b второй строки. Например, преобразователь для множественного числа анг. mouse записывается так: m o:i u:ε s:c e. Символ ε обозначает пустой символ. Двухуровневая морфология (two-level morphology) предполагает представление слова на двух уровнях: на лексическом (lexical) уровне слово записано в виде основы и морфологических признаков, на внешнем (surface) уровне слово записано в виде словоформы. Задача анализа состоит в отображении второго уровня на первый с помощью каскада конечных преобразователей. Ниже приведен пример двух уровней для слова cats: 25

26 Лексический уровень: c a t +N +PL Внешний уровень: c a t s Конечные преобразователи строятся для моделей словоизменения и словообразования отдельных частей речи. Таким образом, в результате морфологического анализа каждому слову текста приписаны один или несколько вариантов (омонимов) его разбора. Каждый вариант хранит лемму и соответствующие ей морфологические признаки анализируемой словоформы. Следующая задача состоит в разрешении омонимии, т.е. в выборе правильного варианта омонима для неоднозначных словоформ. Основная литература [Шайкевич] А. Я. Шайкевич. Введение в лингвистику. Учебное пособие. М.: «Academia», с. [Jurafsky & Martin] Daniel Jurafsky, James H. Martin. Speech and Language Processing Prentice Hall, 2000, 975pp. (Draft). [Сокирко] Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)", глава 2 // [Болховитянов и др.] Болховитянов А.В., Гусев А.В., Чеповский А.М. Морфологические модели компьютерной лингвистики: учеб. пособие М. МГУП, [Большакова] Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. М.: МИЭМ, с. Дополнительная литература [Snowball] Реализация алгоритма Портера для русского языка. Russian stemming algorithm // [Зализняк] Зализняк А.А. Грамматический словарь русского языка. Словоизменение. Изд. 5-е, испр. М.: Аст-пресс, [Сегалович] Сегалович И. Реализация словаря на основе разряженой хэштаблицы // Труды Междунар. семинара «Диалог 95». Таруса

27 4. Снятие морфологической многозначности Наибольшую проблему для анализа текстов на естественных языках представляют омоформы формы слов, имеющие одинаковое написание. Формы могут совпадать у слов различных частей речи, например, словоформа мыла является формой глагола мыть и существительного мыло, гоним является формой глагола гнать и прилагательного гонимый, уху является формой существительных уха и ухо. Бывает и совпадение форм одной лексемы в некоторых грамматических значениях, например, мамы соответствует форме именительного падежа множественного числа и форме родительного падежа единственного числа слова мама. Задача снятия морфологической неоднозначности состоит в общем случае в выборе правильного варианта омонима, т.е. однозначного установления части речи, леммы и морфологических признаков у омоформов. Для английского языка задача сводится к выбору части речи и называется part-of-speech disambiguation. Подходы к разрешению морфологической неоднозначности основаны на анализе контекста (окружающих слов) неоднозначного слова и разделяются на статистические (statistical) и основанные на правилах (rulebased). Правила могут составляться вручную или выводиться по размеченным корпусам, статистические методы основаны на обучении по большим размеченным корпусам. Методы разрешения морфологической неоднозначности применяются обычно после первичной разметки, выполняемой с помощью словарей или другими методами (см. предыдущую главу). Подходы, основанные на правилах Одна из основополагающих работ в области применения правил для снятия многозначности основана на грамматике ограничений (constraint grammar) [Karlsson]. Ограничения действуют от обратного они устраняют морфологические признаки (теги) слова, которые не согласуются с контекстом. В качестве контекста учитываются соседние слова и синтаксические отношения между ними. Формально правило-ограничение в первой версии грамматики описывается доменом, оператором, целью и контекстом. Например, запись правила =0 "PREP" ( -1 DET)) 27

28 означает следующее: если слово имеет морфологический признак PREP (предлог), этот признак надо удалить (=0) в том, и только в том случае, если предыдущее слово (т.е. слово, в позиции -1) имеет морфологический признак DET (артикль). Домен указывает элемент, для которого надо разрешить многозначность, т.е. это словоформа в тексте. Цель указывает омоним для словоформы, т.е. вариант морфологических признаков, к которым применяется правило ограничения. Оператор указывает действие над целью, в качестве действия могут быть: а) сохранение целевого признака и удаление остальных вариантов, если ограничение на контекст выполнено, или б) удаление целевого признака и сохранение остальных при выполнении ограничения на контекст. Ограничения на контекст описывают слова справа и слева от анализируемого домена. Обычно грамматика ограничений содержит тысячи правил, которые применяются в определенной последовательности. Применение грамматики ограничений для решения задачи part-of-speech tagging достигает 99% F- меры. Грамматика ограничений применяется и для синтаксического анализа. Существует ряд реализаций парсеров, основанных на грамматике ограничений, для различных языков [Constraint Grammar]. Другой метод снятия многозначности, называемый алгоритмом Брилла (Brill s tagger), основан на применении правил преобразования тегов (Transformation-Based Tagging) [Brill]. Правила имеют следующий вид: «заменить тег А на тег B, если контекст слова с тегом А удовлетворяет заданным условиям». Правила бывают двух типов: лексические и нелексические. Нелексические правила в качестве контекста учитывают только теги соседних слов, лексические правила учитывают также и конкретные слова. Список правил преобразования создается в результате обучения на размеченном корпусе. На первом шаге обучения каждое слово получает наиболее вероятный тег. Затем выбирается правило преобразования тегов, применение которого уменьшает ошибку разбора на проверочном корпусе. Затем это правило применяется и процесс повторяется с первого шага до тех пор, пока не закончатся правила, уменьшающие ошибку на величину, большую заданного порога. 28

29 Примеры нелексических правил для английского языка приведены в таблице 5, примеры лексических правил приведены в таблице 6. Таблица 5. Некоторые нелексические правила алгоритма Брилла Заменить тег На тег Если NN VB Предыдущий тег TO NN VB Один из предыдущих двух тегов MD VB NN Один из предыдущих двух тегов DT IN DT Следующий тег NN Таблица 6. Некоторые лексические правила алгоритма Брилла Заменить тег На тег Если IN RB Второе слово справа as VBP VB Один из двух предыдущих слов n t NN существительное, VB глагол в начальной форме, IN предлог, DT артикль, RB наречие, VBP форма глагола 1-го или 2-го лица, единственного числа, в настоящем времени. Алгоритм Брилла достигает точности 97%. Статистические подходы Модель скрытых марковских цепей (Hidden Markov Model, HMM) относится к статистическим подходам к снятию морфологической неоднозначности. Как и все статистические подходы, он основан на выборе наиболее вероятного признака (тега) у многозначного слова. Алгоритм HMM для последовательности слов предложения выбирает последовательность морфологических тегов, которая максимизирует следующую формулу [Jurafsky & Martin]: P(word \ tag) * P(tag \ previous n tags), где P(word \ tag) условная вероятность встретить слово word в данной позиции с тегом tag, P(tag \ previous n tags) вероятность появления тега teg в данном месте при условии, что предыдущие n тегов уже установлены. Таким образом, подход HMM основан на анализе последовательности (цепочки) слов и их тегов, и выборе наиболее оптимальной (вероятной) последовательности. Такого рода подходы называются N-граммными (Ngramm) моделями; в случае, когда анализируются последовательности из 29

30 двух слов (само слово и одно предыдущее), модель называется биграммной, когда анализируются последовательности трёх слов триграммной и т.д. Биграммная модель устанавливает тег t i слову w i, который наиболее вероятен при условии наличия предыдущего тега t i-1 и данного слова w i : t i = argmax P(t j \ t i - 1 ) P(w i \ t j ) j Алгоритм HMM устанавливает теги для всех слов предложения сразу, таким образом ищется последовательность тегов T для последовательности слов W такая, что: T = argmax P(T) P(W \ T). T Чаще всего используются триграммные модели. Вычисление априорных условных вероятностей происходит на размеченном корпусе текстов. Для повышения эффективности вычислений при данном подходе используют метод динамического программирования Витерби, который позволяет сделать наилучшее предположение о последовательности состояний скрытой Марковской модели на основе последовательности наблюдений. Для обучения модели используется алгоритм Баума-Уэлча [Jurafsky & Martin]. Точность алгоритма HMM для английского языка достигает чуть более 96%. Известны и другие вероятностные методы снятия морфологической многозначности [Зеленков], дающие не менее качественные результаты. Основная литература [Karlsson] Karlsson, Fred. Constraint Grammar as a Framework for Parsing Unrestricted Text. H. Karlgren, ed., // Proceedings of the 13th International Conference of Computational Linguistics, Vol. 3. Helsinki 1990, [Jurafsky & Martin] Daniel Jurafsky, James H. Martin. Speech and Language Processing Prentice Hall, 2000, 975pp. (Draft). Дополнительная литература [Constraint Grammar] [Brill] Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging // Computational Linguistics. Vol P

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор

Корпусная лингвистка. проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве. Докладчик: Бочаров Виктор Корпусная лингвистка проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011 О докладчике Виктор Бочаров: аспирант кафедры математической лингвистики

Подробнее

Введение в языкознание Лекция. Грамматика. Понятие грамматического значения и грамматической категории

Введение в языкознание Лекция. Грамматика. Понятие грамматического значения и грамматической категории Введение в языкознание Лекция 6 Грамматика Понятие грамматического значения и грамматической категории Вопросы для обсуждения Понятие грамматического значения Понятие грамматической категории Способы выражения

Подробнее

Модуль фрагментарного анализа в составе системы машинного перевода Crosslator 2.0

Модуль фрагментарного анализа в составе системы машинного перевода Crosslator 2.0 Модуль фрагментарного анализа в составе системы машинного перевода Crosslator 2.0 Жирнов Р. В. Институт Прикладной Математики им. М.В. Келдыша РАН Россия, 125047, Москва, Миусская пл., д.4 ultro@mail.ru

Подробнее

п/п Наименование оборудования Кол-во 1 Опорные схемы 59 1.Сложноподчинённые предложения. 2.Фонетика. 3.Сложносочинённые предложения. 4.Лексика.

п/п Наименование оборудования Кол-во 1 Опорные схемы 59 1.Сложноподчинённые предложения. 2.Фонетика. 3.Сложносочинённые предложения. 4.Лексика. п/п Наименование оборудования Кол-во 1 Опорные схемы 59 1.Сложноподчинённые предложения. 2.Фонетика. 3.Сложносочинённые предложения. 4.Лексика. 5.Сложное предложение. 6.Члены предложения. 7.Синонимы, антонимы,

Подробнее

Рабочая программа по русскому языку 3 класс Планируемые результаты изучения предмета «Русский язык» Личностными Метапредметными Предметными

Рабочая программа по русскому языку 3 класс Планируемые результаты изучения предмета «Русский язык» Личностными Метапредметными Предметными Рабочая программа по русскому языку 3 класс Планируемые результаты изучения предмета «Русский язык» Личностными результатами изучения русского языка в начальной школе являются: - осознание языка как основного

Подробнее

Аннотация к рабочей программе по русскому языку 5-6 класс

Аннотация к рабочей программе по русскому языку 5-6 класс Аннотация к рабочей программе по русскому языку 5-6 класс Ступень (классы) основное общее образование Нормативно-методические материалы: 1. Федеральный государственный стандарт основного общего образования

Подробнее

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА САНКТ- ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МАТЕМАТИКО- МЕХАНИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА КУРСОВАЯ РАБОТА СТУДЕНТА 361 ГРУППЫ КАЛМЫКОВА АЛЕКСЕЯ ВЛАДИМИРОВИЧА

Подробнее

Второклассник научится: различать, сравнивать, кратко характеризовать:

Второклассник научится: различать, сравнивать, кратко характеризовать: «Русский язык» Первоклассник различать, сравнивать: -звуки и буквы; -ударные и безударные гласные звуки; -твердые и мягкие согласные звуки, глухие и звонкие согласные звуки; -звук, слог, слово; -слово

Подробнее

Календарно-тематическое планирование. по русскому языку. 3 класс

Календарно-тематическое планирование. по русскому языку. 3 класс урок а 1 Собеседники. Диалог 2 Собеседники. Диалог 3 Собеседники. Диалог 4 Собеседники. Диалог. Входящее ное списывание. Календарно-тематическое планирование по русскому языку 3 класс Тема урока Контроль

Подробнее

Постморфологический анализ. Описание МаПоста

Постморфологический анализ. Описание МаПоста Постморфологический анализ. Описание МаПоста Программа постморфологического анализа состоит из нескольких довольно простых правил, разрешающих омонимию по контексту, и правил, достраивающих морфологическую

Подробнее

Пояснительная записка

Пояснительная записка 2.2 Программы отдельных учебных предметов, курсов и курсов внеурочной деятельности 2.2.2.2 «ПУТЬ К ГРАМОТНОСТИ» (ПРОЕКТНАЯ ДЕЯТЕЛЬНОСТЬ) 2-4класс Программа разработана на основе: Пояснительная записка

Подробнее

КОНДАКОВ Валерий Константинович аспирант Московского Авиационного Института КОНСТРУИРОВАНИЕ КОНТРОЛЬНЫХ ЗАДАНИЙ ДЛЯ ЭЛЕКТРОННОГО УЧЕБНИКА

КОНДАКОВ Валерий Константинович аспирант Московского Авиационного Института КОНСТРУИРОВАНИЕ КОНТРОЛЬНЫХ ЗАДАНИЙ ДЛЯ ЭЛЕКТРОННОГО УЧЕБНИКА Информационные ресурсы образования КОНДАКОВ Валерий Константинович аспирант Московского Авиационного Института КОНСТРУИРОВАНИЕ КОНТРОЛЬНЫХ ЗАДАНИЙ ДЛЯ ЭЛЕКТРОННОГО УЧЕБНИКА Непременной составляющей процесса

Подробнее

В соответствии с учебным планом и годовым календарным учебным графиком программа рассчитана на 170 часов, из расчета 5 часов в неделю.

В соответствии с учебным планом и годовым календарным учебным графиком программа рассчитана на 170 часов, из расчета 5 часов в неделю. ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Данная рабочая программа разработана в соответствии с законом «Об образовании в Российской Федерации» от 29.12.12г. 273-ФЗ; федеральным государственным образовательным стандартом

Подробнее

Решать учебно-исследовательскую задачу. Определять наличие изученных орфограмм в словах. Для чего нужна речь. (0,5 часа) 1-я часть урока

Решать учебно-исследовательскую задачу. Определять наличие изученных орфограмм в словах. Для чего нужна речь. (0,5 часа) 1-я часть урока Примерное тематическое планирование по русскому языку для 3 класса (1-я четверть) Чуракова Н.А. Русский язык. 3 класс: Учебник. В 3 ч. Часть 1. Каленчук М. Л., Малаховская О.В., Чуракова Н.А. Русский язык.

Подробнее

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ МГИМО МИД РОССИИ ПО РУССКОМУ ЯЗЫКУ

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ МГИМО МИД РОССИИ ПО РУССКОМУ ЯЗЫКУ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ (УНИВЕРСИТЕТ) МИД РОССИИ» ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ

Подробнее

Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов

Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов Ю.Г. Зеленков, И.В. Сегалович, В.А. Титов Яндекс, Москва {yuryz,iseg,uht}@yandex-team.ru

Подробнее

Примерное планирование уроков русского языка в 7 классе

Примерное планирование уроков русского языка в 7 классе Примерное планирование уроков русского языка в 7 классе Учебное пособие: «Русский язык. Учебник для 7 класса» (авторы составители Наталья Береснева, Наталья Нечунаева). * Планирование составлено с учётом

Подробнее

Глава 2 ГРАММАТИКИ Мотивировка

Глава 2 ГРАММАТИКИ Мотивировка Глава 2 ГРАММАТИКИ 2.1. Мотивировка Имеется один класс порождающих систем, которые представляют для нас первейший интерес системы, называемые грамматиками. Первоначально понятие грамматики было формализовано

Подробнее

Зовнішнє незалежне оцінювання 2013 року з російської мови

Зовнішнє незалежне оцінювання 2013 року з російської мови Зовнішнє незалежне оцінювання 2013 року з російської мови 1 Зміст завдання та правильна відповідь Відповідність завдання Програмі зовнішнього незалежного оцінювання з російської мови Дефис между частями

Подробнее

Рабочая программа по русскому языку учителя начальных классов 1 квалификационной категории Аникиной Ирины Алексеевны Класс 3

Рабочая программа по русскому языку учителя начальных классов 1 квалификационной категории Аникиной Ирины Алексеевны Класс 3 Муниципальное бюджетное общеобразовательное учреждение «Средняя общеобразовательная школа 3 г. Лениногорска» муниципального образования «Лениногорский муниципальный район» Республики Татарстан «Рассмотрено»

Подробнее

Тематическое планирование по русскому языку на учебный год Предмет Класс Программа Методический комплекс для учащихся

Тематическое планирование по русскому языку на учебный год Предмет Класс Программа Методический комплекс для учащихся Тематическое планирование по русскому языку на 20 202 учебный год Предмет: русский язык Класс: 3, количество часов в неделю 5 за год 70. Программа: УМК «Перспективная начальная школа» Чуракова Н.А. Русский

Подробнее

Индексирование русских текстов с использованием словаря, представленного на основе разреженной хэштаблицы

Индексирование русских текстов с использованием словаря, представленного на основе разреженной хэштаблицы Индексирование русских текстов с использованием словаря, представленного на основе разреженной хэштаблицы Современные компьютерные программы, анализирующие текст на естественном языке, как правило, используют

Подробнее

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный лингвистический университет»

Подробнее

ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ Объем требований по русскому языку На вступительных испытаниях по русскому языку абитуриент должен показать:

ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ Объем требований по русскому языку На вступительных испытаниях по русскому языку абитуриент должен показать: ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ Объем требований по русскому языку На вступительных испытаниях по русскому языку абитуриент должен показать: орфографическую и пунктуационную грамотность, знание соответствующих

Подробнее

РАЗРАБОТКА КАЗАХСКО-РУССКОГО СЛОВАРЯ С АВТОМАТИЗИРОВАННЫМ АНАЛИЗОМ КАЗАХСКИХ СЛОВ

РАЗРАБОТКА КАЗАХСКО-РУССКОГО СЛОВАРЯ С АВТОМАТИЗИРОВАННЫМ АНАЛИЗОМ КАЗАХСКИХ СЛОВ РАЗРАБОТКА КАЗАХСКО-РУССКОГО СЛОВАРЯ С АВТОМАТИЗИРОВАННЫМ АНАЛИЗОМ КАЗАХСКИХ СЛОВ Сержанов Азат, гр:7205 Научный руководитель: Сидорова Елена Анатольевна, к.ф.-м.н., ИСИ СО РАН. Введение Казахский язык

Подробнее

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ Предмет Русский язык Уровень образования Начальная школа (1 4 классы) Разработчики программы Иванов С. В., Кузнецова М. И., Евдокимова А. О. Нормативно-методические - Стандарты

Подробнее

МОСКОВСКАЯ АКАДЕМИЯ ЭКОНОМИКИ И ПРАВА

МОСКОВСКАЯ АКАДЕМИЯ ЭКОНОМИКИ И ПРАВА МОСКОВСКАЯ АКАДЕМИЯ ЭКОНОМИКИ И ПРАВА Карлова Т.А. РУССКИЙ ЯЗЫК Программа вступительных испытаний для поступающих в Московскую академию экономики и права Тематический план по Русскому языку 2 Наименование

Подробнее

РУССКИЙ ЯЗЫК, 8 класс

РУССКИЙ ЯЗЫК, 8 класс РУССКИЙ ЯЗЫК, 8 класс Пояснительная записка Рабочая программа по русскому языку для 8 класса составлена на основе программы С.И. Львовой «Программа по русскому языку для общеобразовательных учреждений

Подробнее

Программа по русскому языку 5-й класс (дети лет), (соотносится 2/3 материала из программы для 5 класса русской школы учебник Т.А.

Программа по русскому языку 5-й класс (дети лет), (соотносится 2/3 материала из программы для 5 класса русской школы учебник Т.А. 1 Программа по русскому языку 5-й класс (дети 10-11 лет), (соотносится 2/3 материала из программы для 5 класса русской школы учебник Т.А. Ладыженской) Грамматика и правописание Синтаксис. Пунктуация (при

Подробнее

ПОУРОЧНОЕ ПЛАНИРОВАНИЕ К УЧЕБНИКУ «РУССКИЙ ЯЗЫК. 4 КЛАСС»

ПОУРОЧНОЕ ПЛАНИРОВАНИЕ К УЧЕБНИКУ «РУССКИЙ ЯЗЫК. 4 КЛАСС» Планирование курса «Русский язык» для 4 класса разработано Е.А. Петровой, методичстом ФНМЦ им. Л.В. Занкова ПОУРОЧНОЕ ПЛАНИРОВАНИЕ К УЧЕБНИКУ «РУССКИЙ ЯЗЫК. 4 КЛАСС» (авторы Н.В. Нечаева, С.Г. Яковлева

Подробнее

Программа вступительного испытания по русскому языку для поступающих в ННГАСУ

Программа вступительного испытания по русскому языку для поступающих в ННГАСУ МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Нижегородский государственный архитектурно-строительный университет» (ННГАСУ)

Подробнее

Искусственный интеллект как научная область.

Искусственный интеллект как научная область. Искусственный интеллект как научная область. Лекция 1. Специальность : 230105 Предмет изучения. Под Искусственным Интеллектом (ИИ) понимается область исследований, в которой ставится задача изучения и

Подробнее

Морфемика. Классификация морфем русского языка

Морфемика. Классификация морфем русского языка Морфемика Морфемика раздел языкознания, в котором изучается система морфем языка и морфемная структура слов и их форм. В морфемике решаются два основных вопроса: 1) как классифицируются морфемы русского

Подробнее

Рабочая программа по русскому языку 10 класс 68 часов (2 часа в неделю) Всего-68 ч. (2 ч. в неделю), р/р 5 ч., к\р -4

Рабочая программа по русскому языку 10 класс 68 часов (2 часа в неделю) Всего-68 ч. (2 ч. в неделю), р/р 5 ч., к\р -4 Рабочая программа по русскому языку 10 класс 68 часов (2 часа в неделю) Пояснительная записка Необходимость в создании программы возникла в связи с тем, что в учебном плане МОУСОШ 61 на преподавание русского

Подробнее

АВТОМАТИЗИРОВАННАЯ СИСТЕМА НАУЧНЫХ ИССЛЕДОВАНИЙ ПСИХОЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ (АСНИ ПМ): РАБОЧАЯ ЭКСПЛУАТАЦИОННАЯ ВЕРСИЯ

АВТОМАТИЗИРОВАННАЯ СИСТЕМА НАУЧНЫХ ИССЛЕДОВАНИЙ ПСИХОЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ (АСНИ ПМ): РАБОЧАЯ ЭКСПЛУАТАЦИОННАЯ ВЕРСИЯ 1 А.В.Сиренко АВТОМАТИЗИРОВАННАЯ СИСТЕМА НАУЧНЫХ ИССЛЕДОВАНИЙ ПСИХОЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ (АСНИ ПМ): РАБОЧАЯ ЭКСПЛУАТАЦИОННАЯ ВЕРСИЯ 2012 г. 1 1. Описание системы 1.1. Назначение программного комплекса

Подробнее

Admin [Выберите дату]

Admin [Выберите дату] Admin [Выберите дату] 1. Планируемые предметные результаты освоение курса «Русский язык» К концу обучения во 2 классе учащиеся должны: различать, сравнивать, кратко характеризовать: парные и непарные по

Подробнее

ОСНОВНЫЕ ТРЕБОВАНИЯ ПО РУССКОМУ ЯЗЫКУ. Основные требования по русскому языку к уровню подготовки учащихся 1 класса:

ОСНОВНЫЕ ТРЕБОВАНИЯ ПО РУССКОМУ ЯЗЫКУ. Основные требования по русскому языку к уровню подготовки учащихся 1 класса: ОСНОВНЫЕ ТРЕБОВАНИЯ ПО РУССКОМУ ЯЗЫКУ Основные требования по русскому языку к уровню подготовки учащихся 1 класса: называть, приводить примеры: названия букв русского алфавита; признаки гласных и согласных

Подробнее

Русский язык. Аннотация к рабочим программам

Русский язык. Аннотация к рабочим программам Русский язык Аннотация к рабочим программам Предметные результаты изучения учебного предмета «Русский язык» предметной области "Русский язык и литература" отражают: 1) совершенствование различных видов

Подробнее

Введение в языкознание Лекция. Грамматика ПОНЯТИЕ МОРФЕМЫ И СПОСОБЫ ВЫРАЖЕНИЯ ГРАММАТИЧЕСКОГО ЗНАЧЕНИЯ

Введение в языкознание Лекция. Грамматика ПОНЯТИЕ МОРФЕМЫ И СПОСОБЫ ВЫРАЖЕНИЯ ГРАММАТИЧЕСКОГО ЗНАЧЕНИЯ Введение в языкознание Лекция 5 Грамматика ПОНЯТИЕ МОРФЕМЫ И СПОСОБЫ ВЫРАЖЕНИЯ ГРАММАТИЧЕСКОГО ЗНАЧЕНИЯ Вопросы для обсуждения Грамматика как наука Понятие морфемы и морфа. Варьирование морфем. Классификация

Подробнее

ЛЕКСИЧЕСКАЯ ОНТОЛОГИЯ ПЕРСИДСКИХ ГЛАГОЛОВ

ЛЕКСИЧЕСКАЯ ОНТОЛОГИЯ ПЕРСИДСКИХ ГЛАГОЛОВ ЛЕКСИЧЕСКАЯ ОНТОЛОГИЯ ПЕРСИДСКИХ ГЛАГОЛОВ А.В. Луканин Любой язык является сложной системой взаимосвязанных элементов, отношения между которыми можно условно разделить на синтагматические и парадигматические.

Подробнее

РАБОЧАЯ ПРОГРАММА ПЕДАГОГА

РАБОЧАЯ ПРОГРАММА ПЕДАГОГА У РАБОЧАЯ ПРОГРАММА ПЕДАГОГА по русскому языку в 10 классе Общее количество часов: 72 часа МБОУ «Гимназия» Г.Новозыбков Пояснительная записка Модифицированная программа составлена на основе Программы МО

Подробнее

Предметная программа обучения. 1 класс.

Предметная программа обучения. 1 класс. Предметная программа обучения. 1 класс. Общие компетенции. Учащийся: хочет учиться, испытывает радость, осваивая новые знания и умения; умеет учиться индивидуально и вместе с другими стремится осмысленно

Подробнее

РАБОЧАЯ ПРОГРАММА. II вида

РАБОЧАЯ ПРОГРАММА. II вида Краснодарский край муниципальное образование Новопокровский район посёлок Южный муниципальное бюджетное общеобразовательное учреждение основная общеобразовательная школа 18 УТВЕРЖДЕНО решение педсовета

Подробнее

Календарно-тематическое планирование. Русский язык 5 класс

Календарно-тематическое планирование. Русский язык 5 класс Календарно-тематическое планирование Русский язык 5 класс Содержание (тема урока) Количество часов п/п I. Общие сведения о русском языке 4 (2+2р/р). Язык как основное средство общения в определенном национальном

Подробнее

Программа составлена на основании требований к основной образовательной программе послевузовского профессионального образования по отрасли

Программа составлена на основании требований к основной образовательной программе послевузовского профессионального образования по отрасли Программа составлена на основании требований к основной образовательной программе послевузовского профессионального образования по отрасли 10.00.00 Филологические науки (специальность 10.02.04 германские

Подробнее

РАБОЧИЕ ПРОГРАММЫ РУССКИЙ ЯЗЫК, 6 КЛАСС НА УЧЕБНЫЙ ПЕРИОД Ресурс на учебный год Содержание образования:

РАБОЧИЕ ПРОГРАММЫ РУССКИЙ ЯЗЫК, 6 КЛАСС НА УЧЕБНЫЙ ПЕРИОД Ресурс на учебный год Содержание образования: Ресурс на учебный год Содержание образования: 1. Николаев В.А., Мисюра Я.С. Концепция школьной социокультурной мыследеятельностной и деятельностной рефлексивно-коммуникативной образовательной среды. Методологические

Подробнее

Обязательный минимум содержания основных образовательных программ

Обязательный минимум содержания основных образовательных программ Обязательный минимум содержания основных образовательных программ Содержание, обеспечивающее формирование коммуникативной компетенции Речевое общение. Речь устная и письменная, монологическая и диалогическая.

Подробнее

ПРОГРАМА ІСПИТУ З РОСІЙСЬКОЇ МОВИ

ПРОГРАМА ІСПИТУ З РОСІЙСЬКОЇ МОВИ «ЗАТВЕРДЖУЮ» О. Гончара М. В. ПРОГРАМА ІСПИТУ З РОСІЙСЬКОЇ МОВИ дну ім. О. Гончара Фонетика. Графика Гласные и согласные звуки. Звонкие и глухие, твёрдые и мягкие согласные звуки. Сильная и слабая позиции

Подробнее

Магистрант: Бименова Жанат Батырбековна Научный руководитель: к.ф.-м.н. Сидорова Елена Анатольевна

Магистрант: Бименова Жанат Батырбековна Научный руководитель: к.ф.-м.н. Сидорова Елена Анатольевна Магистрант: Бименова Жанат Батырбековна Научный руководитель: к.ф.-м.н. Сидорова Елена Анатольевна Разработка методов и средств автоматизации построения тезаурусов предметных областей 1 Цели работы Разработка

Подробнее

Как пользоваться Обучающим корпусом русского языка

Как пользоваться Обучающим корпусом русского языка Российская академия наук Институт русского языка им. В. В. Виноградова Как пользоваться Обучающим корпусом русского языка Инструкция Москва 2007 1 ОГЛАВЛЕНИЕ Шаг первый. Как попасть в Обучающий корпус

Подробнее

Пояснительная записка. к урокам русского языка в 7- классе

Пояснительная записка. к урокам русского языка в 7- классе 1 Пояснительная записка к урокам русского языка в 7- классе Цели курса: формирование навыков грамотного письма, изучение орфографических и пунктуационных правил. Организация работы по овладению учащимися

Подробнее

Система менеджмента качества ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ: РУССКИЙ ЯЗЫК

Система менеджмента качества ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ: РУССКИЙ ЯЗЫК Министерство культуры Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Санкт-Петербургский государственный институт культуры» Программа вступительного

Подробнее

РАБОЧАЯ ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ 10 КЛАСС

РАБОЧАЯ ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ 10 КЛАСС РАБОЧАЯ ПРОГРАММА ПО РУССКОМУ ЯЗЫКУ 10 КЛАСС Пояснительная записка Рабочая программа составлена на основе федерального компонента Государственного образовательного стандарта общего образования. утвержденного

Подробнее

Правописание. Культура речи. Повторение изученного в 5-8 классах 9 ч (4+1 к.р.+4 р/р)

Правописание. Культура речи. Повторение изученного в 5-8 классах 9 ч (4+1 к.р.+4 р/р) Календарно-тематическое планирование по русскому языку на 2015-2016 учебный год в 9 классах Учебник: Русский язык: учебник для 9 класса общеобразовательных учреждений. М.М.Разумовская, С.И.Львова, В.И.Капинос

Подробнее

МУНИЦИПАЛЬНОЕ АВТОНОМНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ГОРОДА КАЛИНИНГРАДА СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА 50

МУНИЦИПАЛЬНОЕ АВТОНОМНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ГОРОДА КАЛИНИНГРАДА СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА 50 МУНИЦИПАЛЬНОЕ АВТОНОМНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ГОРОДА КАЛИНИНГРАДА СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА 50 Рассмотрена на педагогическом совете Протокол от 29.08.206 «Утверждаю» В. И. Гулидова Директор

Подробнее

СОДЕРЖАНИЕ ПРОГРАММЫ ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ

СОДЕРЖАНИЕ ПРОГРАММЫ ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ Общие требования Основой данной программы является примерная программа вступительных экзаменов по русскому языку, разработанная Министерством образования России. Вступительные испытания на филологический

Подробнее

Аннотация к рабочей программе дисциплины «Русский язык» 1. Место дисциплины в структуре основной образовательной программы.

Аннотация к рабочей программе дисциплины «Русский язык» 1. Место дисциплины в структуре основной образовательной программы. Аннотация к рабочей программе дисциплины «Русский язык» 1. Место дисциплины в структуре основной образовательной программы. Дисциплина «Русский язык» включена в базовую часть гуманитарного цикла. К исходным

Подробнее

ЧАСТОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ ОТКРЫТЫЙ ИНСТИТУТ ВЫСШАЯ ПРОФЕССИОНАЛЬНАЯ ШКОЛА ПРОГРАММА ВСТУПИТЕЛЬНОГО ЭКЗАМЕНА ЧОУ ВО ОИ ВПШ

ЧАСТОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ ОТКРЫТЫЙ ИНСТИТУТ ВЫСШАЯ ПРОФЕССИОНАЛЬНАЯ ШКОЛА ПРОГРАММА ВСТУПИТЕЛЬНОГО ЭКЗАМЕНА ЧОУ ВО ОИ ВПШ ЧАСТОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ ОТКРЫТЫЙ ИНСТИТУТ ВЫСШАЯ ПРОФЕССИОНАЛЬНАЯ ШКОЛА УТВЕРЖДАЮ Ректор ОИ ВПШ Председатель приемной комиссии ^ " ж / В.А.Шаров «25» января 2016г. ПРОГРАММА

Подробнее

1.1. Основы работы с базами данных Базы данных и системы управления базами данных. Модели данных

1.1. Основы работы с базами данных Базы данных и системы управления базами данных. Модели данных 1.1. Основы работы с базами данных 1.1.1. Базы данных и системы управления базами данных. Модели данных База данных (БД) это именованная совокупность структурированных данных, относящихся к определенной

Подробнее

Календарно-тематический план по русскому языку для 7 А класса на учебный год.

Календарно-тематический план по русскому языку для 7 А класса на учебный год. Календарно-тематический план по русскому языку для 7 А класса на 2015-2016 учебный год. 1 2 3 4 5 п/п Наименование раздела программы, тема Характеристика деятельности учащихся (основные учебные умения

Подробнее

1. РЕЧЬ Речь как деятельность

1. РЕЧЬ Речь как деятельность Государственное бюджетное образовательное учреждение высшего профессионального образования «АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ» Министерства здравоохранения Российской Федерации (ГБОУ ВПО

Подробнее

ОСНОВНОЕ ОБЩЕЕ ОБРАЗОВАНИЕ

ОСНОВНОЕ ОБЩЕЕ ОБРАЗОВАНИЕ ОСНОВНОЕ ОБЩЕЕ ОБРАЗОВАНИЕ Т. М. ФАЛИНА Русский язык Диктанты 5 7 классы ГУМАНИТАРНЫЙ ИЗДАТЕЛЬСКИЙ ЦЕНТР Москва ВЛАДОС 2004 УДК 372.016:811.161.1*05/07 ББК 74.268.1Рус я72 Ф19 Фалина Т. М. Ф19 Русский

Подробнее

Глоссарий по «Теории языка» сост. д.филол.н., проф. Меликян В.Ю. Глоссарий по «Теории языка»

Глоссарий по «Теории языка» сост. д.филол.н., проф. Меликян В.Ю. Глоссарий по «Теории языка» Глоссарий по «Теории языка» 1. Акцентология это раздел языкознания, изучающий природу и функционирование ударения, а также система связанных с ударением явлений языка. 2. Артикуляция это совокупность работ

Подробнее

УМК «Перспектива» Русский язык 4 класс 170 часов (5 часов в неделю) Пояснительная записка

УМК «Перспектива» Русский язык 4 класс 170 часов (5 часов в неделю) Пояснительная записка 2 УМК «Перспектива» Русский язык 4 класс 170 часов (5 часов в неделю) Пояснительная записка Рабочая программа по русскому языку составлена на основе Федерального государственного образовательного стандарта

Подробнее

Муниципальное бюджетное общеобразовательное учреждение г. Мурманска гимназия 1

Муниципальное бюджетное общеобразовательное учреждение г. Мурманска гимназия 1 1 Муниципальное бюджетное общеобразовательное учреждение г. Мурманска гимназия 1 Рассмотрено на заседании МО учителей начальных классов Протокол 4 от «22» мая 2015 года Руководитель МО Ефимова А.В. Согласовано

Подробнее

Русский язык. 10 класс. Профильный уровень (102 часа, 3часа в неделю)

Русский язык. 10 класс. Профильный уровень (102 часа, 3часа в неделю) уро ка Тема урока Русский язык. 10 класс. Профильный уровень (102 часа, 3часа в неделю) Ко ли чес тво час ов Основные термины и понятия 1 Слово о русском языке 1 Русский литературный язык, язык межнационального

Подробнее

ПРОГРАММА. вступительного экзамена по направлению подготовки Языкознание и литературоведение (профиль: Русский язык)

ПРОГРАММА. вступительного экзамена по направлению подготовки Языкознание и литературоведение (профиль: Русский язык) Министерство образования и науки Российской Федерации федеральное государственное бюджетное образовательное учреждение высшего образования «Петрозаводский государственный университет» (ПетрГУ) ПРОГРАММА

Подробнее

Рабочая программа по русскому языку, 7 класс. Пояснительная записка

Рабочая программа по русскому языку, 7 класс. Пояснительная записка Рабочая программа по русскому языку, 7 класс Пояснительная записка Календарно-тематическое планирование составлено на основе общеобразовательного стандарта основного общего образования по русскому языку

Подробнее

Сегментация текста в проекте «Открытый корпус»

Сегментация текста в проекте «Открытый корпус» Сегментация текста в проекте «Открытый корпус» Бочаров В. В. (bocharov@opencorpora.org), Алексеева С. В. (alexeeva@opencorpora.org), Грановский Д. В. (granovsky@opencorpora.org), Остапук Н. А. (nataxan90@gmail.com),

Подробнее

ПОНЯТИЕ ИНФОРМАЦИИ. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕССОВ СБОРА, ПЕРЕДАЧИ, ОБРАБОТКИ И НАКОПЛЕНИЯ ИНФОРМАЦИИ

ПОНЯТИЕ ИНФОРМАЦИИ. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕССОВ СБОРА, ПЕРЕДАЧИ, ОБРАБОТКИ И НАКОПЛЕНИЯ ИНФОРМАЦИИ ПОНЯТИЕ ИНФОРМАЦИИ. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕССОВ СБОРА, ПЕРЕДАЧИ, ОБРАБОТКИ И НАКОПЛЕНИЯ ИНФОРМАЦИИ лектор к.т.н. доцент АЗАРЧЕНКОВ Андрей Анатольевич СОДЕРЖАНИЕ РАЗДЕЛА Предмет и структура информатики

Подробнее

1. Пояснительная записка. Рабочая программа по информатике для 9 класса основной школы разработана

1. Пояснительная записка. Рабочая программа по информатике для 9 класса основной школы разработана 1. Пояснительная записка Рабочая программа по информатике для 9 класса основной школы разработана в соответствии: 1.С требованиями Федерального Государственного образовательного стандарта общего образования

Подробнее

Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов

Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов Московский государственный университет имени М. В. Ломоносова На правах рукописи Турдаков Денис Юрьевич Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов

Подробнее

СПЕЦИФИКАЦИЯ проверочной работы по русскому языку для индивидуальной оценки достижений четвероклассников Московской области

СПЕЦИФИКАЦИЯ проверочной работы по русскому языку для индивидуальной оценки достижений четвероклассников Московской области СПЕЦИФИКАЦИЯ проверочной работы по русскому языку для индивидуальной оценки достижений четвероклассников Московской области Назначение работы Работа предназначена для контроля и оценки индивидуальных достижений

Подробнее

«Занимательный русский язык»

«Занимательный русский язык» Программа Внеурочного модуля «Занимательный русский язык» для учащихся 6 классов 205 г. Калининград Пояснительная записка. Общие цели с учетом специфики курса. Рабочая программа по курсу внеурочной деятельности

Подробнее

Рабочая программа по учебному курсу «Русский язык» 3 класс. Пояснительная записка

Рабочая программа по учебному курсу «Русский язык» 3 класс. Пояснительная записка Рабочая программа по учебному курсу «Русский язык» 3 класс Пояснительная записка Данная рабочая программа составлена на основе федерального компонента государственного стандарта начального общего образования

Подробнее

Учебная программа по русскому языку 3 класс

Учебная программа по русскому языку 3 класс Учебная программа по русскому языку 3 класс Месяц Результаты обучения. Темы, подтемы. Содержание обучения. сентябрь -понимает значения языка как средства установления контакта, общения между людьми; -воспринимает

Подробнее

Русский язык. 8 класс (расширенный вариант)

Русский язык. 8 класс (расширенный вариант) Русский язык. 8 класс (расширенный вариант) Предметными результатами освоения учащимися программы по русскому языку являются: 1) представление об основных функциях русского языка, о роли русского языка

Подробнее

ПРОГРАММЫ. подготовительных курсов. 7 класс ТЕХНИЧЕСКИЙ МОСКОВСКИЙ. Адрес лицея: , Москва, Тихвинский пер., д.3 тел./факс (499)

ПРОГРАММЫ. подготовительных курсов. 7 класс ТЕХНИЧЕСКИЙ МОСКОВСКИЙ. Адрес лицея: , Москва, Тихвинский пер., д.3 тел./факс (499) МОСКОВСКИЙ Департамент образования города Москвы Многопрофильный технический лицей 1501 МНОГОПРОФИЛЬНЫЙ ТЕХНИЧЕСКИЙ Адрес лицея: 127055, Москва, Тихвинский пер., д.3 тел./факс (499) 973-02-84 Проезд: метро

Подробнее

Физическое проектирование базы данных

Физическое проектирование базы данных ОБЛАСТНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «СМОЛЕНСКИЙ АВТОТРАНСПОРТНЫЙ КОЛЛЕДЖ имени Е.Г. Трубицына» МЕТОДИЧЕСКИЕ УКАЗАНИЯ по подготовке к выполнению

Подробнее

Календарно-тематическое планирование по русскому языку 3 класс. Виды контроля. Язык и речь (2ч) словеснонаглядные,

Календарно-тематическое планирование по русскому языку 3 класс. Виды контроля. Язык и речь (2ч) словеснонаглядные, Календарно-тематическое планирование по русскому языку 3 класс Тема урока Содержательная линия Элементы содержания 1 2 3 Наша речь. Виды речи. Наш язык. Урок исследование. Текст. познакомить с учебником,

Подробнее

Рабочая программа индивидуально-групповых занятий «Практика английского языка» для учащихся 11 класса

Рабочая программа индивидуально-групповых занятий «Практика английского языка» для учащихся 11 класса Муниципальное общеобразовательное учреждение «Средняя общеобразовательная школа 1» г. Воркуты РАССМОТРЕНА школьным методическим объединением учителей гуманитарного цикла Протокол 1 от 30.08. 201 УТВЕРЖДЕНА

Подробнее

Пояснительная записка.

Пояснительная записка. Пояснительная записка. Рабочая программа составлена на основе Примерной программы основного общего и среднего (полного) образования по русскому языку и в соответствии с концепцией курса, представленной

Подробнее

урока часов Наша речь (4 ч) 1 Знакомство с учебником. Какая бывает речь? 1 2 Что можно узнать о человеке по его речи? 1

урока часов Наша речь (4 ч) 1 Знакомство с учебником. Какая бывает речь? 1 2 Что можно узнать о человеке по его речи? 1 урока Тема урока Наша речь (4 ч) Кол-во часов Знакомство с учебником. Какая бывает речь? Что можно узнать о человеке по его речи? 3 Как отличить диалог от монолога? 4 Проверка знаний Текст (5ч) 5 Что такое

Подробнее

Научный поиск: описание

Научный поиск: описание Научный поиск: описание Система научного поиска ИНФРА-М разработана для оптимизации учебной и исследовательской работы. На основе платформы Znanium.com создан сервис, способный не только находить нужную

Подробнее

Календарно-тематическое планирование 3 класс

Календарно-тематическое планирование 3 класс п/п 1-4 5-7 Культура устной и письменной речи. Календарно-тематическое планирование 3 класс Тема урока Элементы содержания Примечания Речевое общение. Повторяем узнаем новое (16 ч) Диалог. Собеседники.

Подробнее

Пояснительная записка

Пояснительная записка Пояснительная записка Тематическое планирование по русскому языку для 8 класса составлено на основе рабочей программы по русскому языку для 5-9 классов в соответствии с федеральным компонентом государственного

Подробнее

Объяснительная записка

Объяснительная записка Объяснительная записка Программа вступительного испытания по русскому языку разработана с учетом действующей программы по русскому языку для 5-9 классов (письмо Министерства образования и науки Украины

Подробнее

102 Целью данного курса является научить обучающихся:

102 Целью данного курса является научить обучающихся: Программа разработана на основе Федерального государственного образовательного стандарта начального общего образования с учетом межпредметных и внутрипредметных связей, логики учебного процесса, задачи

Подробнее

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ ПО РУССКОМУ ЯЗЫКУ 1-4 КЛАСС

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ ПО РУССКОМУ ЯЗЫКУ 1-4 КЛАСС АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ ПО РУССКОМУ ЯЗЫКУ 1-4 КЛАСС Рабочая программа по русскому языку для 1-3 классов разработана на основе ФГОС НОО (приказ МоиН РФ от 06.10.2009 г. 373), соответствии с Примерной

Подробнее

СПЕЦИФИКАЦИЯ стандартизированной контрольной работы по русскому языку

СПЕЦИФИКАЦИЯ стандартизированной контрольной работы по русскому языку СПЕЦИФИКАЦИЯ стандартизированной контрольной работы по русскому языку В Федеральном законе «Об образовании в Российской Федерации» дается определение понятия «качество образования» это «комплексная характеристика

Подробнее

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ

ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ ПО РУССКОМУ ЯЗЫКУ Лицензия: регистрационный 2490 от 22 февраля 2012 года, на бланке серии ААА 002608 Свидетельство о государственной аккредитации: регистрационный 1736 от 12 апреля 2012 года, на бланке серии ВВ 001755 115191,

Подробнее

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ

АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ АННОТАЦИЯ К РАБОЧЕЙ ПРОГРАММЕ Предмет Уровень образования Разработчики программы Нормативно-методические материалы Русский язык Основное общее (5-9 классы) Афанасьева Л.В. Курсакова Л.М. Приказ Минобрнауки

Подробнее

Кодификатор по русскому языку 1 класс

Кодификатор по русскому языку 1 класс Кодификатор по русскому языку 1 класс Планируемый результат Проверяемые умения Код 1.Раздел «Фонетика, графика» 1 Звуки и буквы Классифицировать звуки русского языка 1.1 по значимым основаниям. 2 Устанавливать

Подробнее

Рабочая программа по русскому языку для 8 класса (140 часов) Учитель: Корень Л.В.

Рабочая программа по русскому языку для 8 класса (140 часов) Учитель: Корень Л.В. ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА СЕВАСТОПОЛЯ Государственное бюджетное образовательное учреждение города Севастополя "Средняя общеобразовательная школа 26 имени Е.М.Бакуниной" УТВЕРЖДАЮ Директор ГБОУ «СОШ

Подробнее

Постановка проблемы. Базис решения проблемы

Постановка проблемы. Базис решения проблемы Технологии семантического поиска и полного лингвистического анализа в информационных библиотечных системах Semantic Search Technologies and Complete Linguistic Analysis in Information Library Systems А.

Подробнее

подготовлена государственным бюджетным учреждением «Региональный центр развития образования Оренбургской области»

подготовлена государственным бюджетным учреждением «Региональный центр развития образования Оренбургской области» Спецификация комплексной проверочной работы для оценки достижения планируемых результатов освоения программ начального образования в общеобразовательных организациях в 2014 году подготовлена государственным

Подробнее

РУССКИЙ ЯЗЫК (УМК «Перспектива») Пояснительная записка

РУССКИЙ ЯЗЫК (УМК «Перспектива») Пояснительная записка РУССКИЙ ЯЗЫК (УМК «Перспектива») Пояснительная записка Рабочая программа составлена на основе следующих нормативных документов и методических рекомендаций: Федеральный компонент государственного стандарта

Подробнее

ПРИМЕРНАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ. Основы латинского языка с медицинской терминологией г.

ПРИМЕРНАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ. Основы латинского языка с медицинской терминологией г. ПРИМЕРНАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ Основы латинского языка с медицинской терминологией 0 г. Примерная программа учебной дисциплины разработана на основе Федерального государственного образовательного

Подробнее

1. ВВЕДЕНИЕ

1. ВВЕДЕНИЕ О построении статистических языковых моделей для систем распознавания русской речи А.Б. Холоденко МГУ им. М.В. Ломоносова, Воробьёвы Горы, Москва, Россия. Механико-математический факультет, кафедра МаТИС.

Подробнее

Программа по русскому языку для поступающих в Волгоградский государственный университет в 2015 году

Программа по русскому языку для поступающих в Волгоградский государственный университет в 2015 году Министерство образования и науки Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Волгоградский государственный университет»

Подробнее