Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета

Save this PDF as:
 WORD  PNG  TXT  JPG

Размер: px
Начинать показ со страницы:

Download "Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета"

Транскрипт

1 С. В. Свечников Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета Предложен подход для реализации высокорелевантного поиска и автоматической категоризации интернет-ресурсов. Рассматривается механизм индексации интернет-ресурсов, т. е. преобразования их в единый формат посредством выделения терминов и присвоения им весовых коэффициентов, что позволяет достаточно быстро и эффективно оценить содержимое интернет-ресурса. Рассматривается задача, связанная с автоматической категоризацией интернет-ресурсов, обучением системы и отнесением текстовой информации к заранее определенной категории за счет использования степени соответствия между категорией и интернет-ресурсом. Экспоненциальный рост объема информации, содержащейся в Интернете является причиной возрастающей трудности поиска необходимых документов и организации их в виде структурированных по смыслу каталогов. Большое количество источников информации, резко возрастающий объем данных в Интернете и необходимость их быстрой обработки вызвали потребность в создании специализированных систем высокорелевантного поиска и автоматической категоризации ресурсов Интернета. В настоящее время потребность в системах высокорелевантного поиска и автоматической категоризации, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений. Открытое информационное пространство содержит большое количество ресурсов различного содержания. Наряду с полезной информацией, Интернет содержит ресурсы, объективно опасные для нравственного здоровья общества, оказывающие негативное воздействие в первую очередь на подрастающее поколение. Российский сегмент сети один из самых быстроразвивающихся. Количество пользователей Интер- 538 Аннотация * * *

2 нета в России по различным данным составляет около 25 миллионов человек, из них 2 миллиона дети [6]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети Интернет представляет серьезную угрозу для детей. Также Интернет бесконтрольно используется в личных целях работниками, имеющими доступ к глобальной сети, что снижает эффективность их работы и снижает производительность корпоративной сети [1]. При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей Интернета и юридически несостоятельны, поскольку противоречат естественным правам граждан на свободу воли, высказываний и волеизъявления. В связи с этим решение этой проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от нежелательного контента, который пользователи могут использовать по своей воле и по своему усмотрению [2]. Реализация такого инструмента тесно связана с тематической категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений. Одним из них является механизм фильтрации полезной информации от агрессивного контента. При этом все интернет-ресурсы разбиваются на категории и после соответствующего обучения становится возможной автоматическая фильтрация. Основные представленные на российском рынке программные продукты в области тематической категоризации интернет-ресурсов принадлежат следующим компаниям: Производитель Страна Программный продукт Secure computing США Sentian Surfcontrol США Surfcontrol web-filter Websense США Websense Enterprise Cobion Германия Proventia Web Filter Другие системы или не поддерживают фильтрацию русскоязычных интернет-ресурсов; или являются непригодными для корпоративной эксплуатации. Перечисленные решения представляют собой программы, которые устанавливаются в локальной сети организации и работают по принципу анализа и тематической категоризации интернет-ресурсов. 539

3 Эти программные продукты позволяют: повысить эффективность работы сотрудников; оптимизировать пропускную способность сети; усилить безопасность сети; предотвратить появление неэтичных материалов; снизить расходы за доступ в Интернет. К достоинствам представленных программных продуктов можно отнести: обеспечение защиты от основных актуальных угроз безопасности; высокий уровень настраиваемости; поддержку большой и постоянно обновляемой базы данных URL; простоту использования. Все вышеуказанные системы прекрасно фильтруют, в первую очередь англоязычный контент. При работе с русскоязычным контентом эти продукты демонстрируют: некорректную работу с контентом по причине отсутствия специальных инструментов работы с информацией на русском языке; бедность базы данных русскоязычных ресурсов по причине, указанной выше, а также потому, что Рунет составляет 5% от мировой сети Интернет и, вероятно, не является зоной первоочередных интересов иностранных компаний; неучет национальных особенностей при категоризации русскоязычных ресурсов, потому что иностранные компании не всегда адекватно учитывают специфику и политические реалии; систематическую погрешность категорирования сайтов, связанную, как правило, с полностью автоматическим определением категорий русскоязычных сайтов; низкую оперативность обновления; слабое сопровождение программного продукта; отсутствие возможности объединения данных от разных организаций с целью консолидации отчетности, потому что существующие системы рассчитаны преимущественно на локальное использование в коммерческих организациях. В связи с этим существует необходимость создания системы для высокорелевантного поиска и тематической категоризации, адаптируемой для русскоязычных интернет-ресурсов. Реализация системы высокорелевантного поиска и тематической категоризации интернет-ресурсов предполагает решение следующих задач: индексация интернет-ресурсов (преобразование интернетресурсов к единому формату); автоматическая категоризация интернет-ресурсов, обучение системы и отнесение текстовой информации к заранее определенной категории; 540

4 оценка качества категоризации с использованием метрик из информационного поиска. Представленные подзадачи связаны, в первую очередь, с анализом текстовой информации web-страницы, т. е. ее содержанием (контентом). Пусть дано множество интернет-ресурсов D, разделенное на два непересекающихся подмножества T r и T s, называемых обучающей и тестовой выборкой. На основании обучающей выборки строится классификатор категорий, а на тестовой выборке проверяется качество категоризации. Пусть также дано соответствие между интернет-ресурсами и некоторой категорией c в виде Ф D {0,1}, устанавливающее для каждого интернетресурса значение 1, в случае принадлежности интернет-ресурса категории, и 0 в противном случае [2,3,4,7]. Необходимо построить, используя только информацию из обучающей выборки T r, функцию Ф' D {0,1}, аппроксимирующую Ф, чтобы число ошибок E на тестовой выборке T s было наименьшим. E = Ф Ф' min. (1) T s Пусть T множество терминов, каким-либо образом, выделенное из интернет-ресурсов категории c. Тогда интернет-ресурс можно представить в виде терминологического вектора: d j = (w 1j,... w T j ) T, (2) где w lj вес термина t i в интернет-ресурсе d j. Описания каждой из категорий представим в виде векторов той же размерности, что и вектора интернет-ресурсов: c =(c 1,..., c T ) T, (3) где c i вес термина t i в описании категории c. При таком подходе существуют два ограничения: нет дополнительной информации о категориях, к которым прикрепляются интернет-ресурсы; нет никакой внешней информации о интернет-ресурсе, кроме той информации, которая содержится в нем. Каждый интернет-ресурс это вектор, где номера терминов (слов) его координаты, а веса терминов значения координат; размерность вектора это количество терминов, встречающихся в интернет-ресурсе. Так как учитываются все термины, вектора получаются большого размера, что затрудняет процесс индексации, поэтому необходимо уменьшить размерность вектора. Для уменьшения размерности вектора в качестве терминов используем не слова, а устойчивые словосочетания, не учитываем редкие слова, которые не несут полезной информации, не рассматриваем часто встречающиеся слова. 541

5 Процесс индексации представим следующим образом (рис. 1): очистка страницы; выделение терминов; исключение терминов, не несущих смысловой нагрузки; замена общих и специфичных терминов; присваивание терминам весовых коэффициентов. Сначала проводится очистка страницы интернетресурса, т. е. удаляется навигационная часть, теги html, скрипты, стоп-слова частотные слова языка, не несущие смысловой нагрузки (предлоги, союзы, частицы, местоимения, некоторые глаголы). За счет этого уменьшается объем поисковой базы и повышается производительность поиска [9, 10, 11]. После этого в тексте с Рис. 1. Индексация интернет-ресурсов помощью функции анализа контента интернет-ресурса выделяются термины логические выражения, состоящие из слов и словосочетаний, связанные операторами AND, OR, NOT. Для исключения терминов, не несущих смысловой нагрузки, используется пометка «исключение», которая показывает, что термин не относится к теме. Оставшиеся термины могут также обладать недостатками: существуют термины, которые слишком специфичны или, наоборот, значение которых слишком общо, поэтому их необходимо заменить более подходящими терминами. Это увеличивает полноту индексирования. Для замены специфичных терминов используется тезаурус RCO, который представляет собой словарь общей лексики с семантическими отношениями между словами [8]. Использование тезауруса повышает качество анализа текста и полноту поиска информации, позволяя расширять запрос синонимичными, более общими и более частными понятиями. Общие термины заменяются сочетаниями терминов или несколькими связанными терминами, имеющими более определенное значение. После того как были определены термины, необходимо провести лемматизацию приведение терминов к нормальной форме (мужской род, единственное число). Тем самым уменьшается словарь терминов и повышается скорость работы индексации. 542

6 Рис. 2. Интернет-ресурсы, содержащие термины Заключительным этапом является присвоение терминам весовых коэффициентов. Исходное представление интернетресурса выглядит следующим образом: интернет-ресурс = коллекция слов (терминов) T. Каждый термин ti T имеет определенный вес w ij по отношению к интернет-ресурсу dj D (рис. 2), т. е. встречаемость этого слова на странице интернетресурса. Порядок слов учитывать не будем. На основании этих признаков каждому слову сопоставляется его вес. Таким образом, каждый ресурс можно представить в виде вектора весов его терминов d j ={w 1j,...w T j }. Веса документов нормируем так, чтобы w ij 0 и w ij 1, где i (0, T ) и j (0, D ). Для вычисления веса термина на странице интернет-ресурса используем классический частотный метод вычисления степени соответствия интернет-ресурса, так как этот метод относительно прост и имеет несложный алгоритм, что принципиально при обработке больших объемов документов. Вычисляем вес термина следующим образом: f 1 wij = t ij, d fj (4) где t f ij (частота термина) это отношение числа терминов t i в интернет-ресурсе d j к общему количеству терминов в этом интернет-ресурсе. Таким образом, оценивается важность термина t i в пределах одного интернет-ресурса: t f ij = T ij Ti, (5) где j = 1,..., T, i = 1,..., D, T ij число терминов t i в интернет-ресурсе d j, T i, общее число терминов в интернет-ресурсе d j. d f j (частота интернет-ресурса) это отношение количества интернет-ресурсов категории, в которых встретился термин t i к общему количеству интернет-ресурсов категории: где j = 1,..., T, d f = j Dj D, (6) 543

7 D j число интернет-ресурсов, в которых встретился термин t i, D общее количество интернет-ресурсов категории. Таким образом, чем чаще термин встречается на странице данного интернет-ресурса, но реже во всех интернет-ресурсах, тем выше будет его вес в данном интернет-ресурсе. Наиболее трудоемкой частью реализации системы является разработка процесса, отвечающего за автоматическую категоризацию интернет-ресурсов, обучение системы на уже категоризированных интернет-ресурсах и определение соответствия категории. Алгоритм автоматической категоризации интернет-ресурсов заключается в следующем (рис. 3): 544 Рис. 3. Алгоритм автоматической категоризации интернет-ресурсов

8 вычисляется мера близости страницы интернет-ресурса и категории степень соответствия ресурса категории; для каждой страницы выбирается категория, наиболее близкая к ресурсу; в случае если значение степени соответствия ресурса превышает некоторое пороговое значение категории, ресурс добавляется в категорию; в случае если значение степени соответствия ресурса не превысило порогового значение категории, ресурс не добавляется в категорию и решение о принадлежности его к категории определяет эксперт. Степень соответствия (CSV) между категорией c и интернет-ресурсом d j определяем как скалярное произведение между их векторными представлениями: CSV ( c, d ) = c d = c d, (7) Φ (, cd) = j j j i ij i Точность категоризации интернет-ресурсов вычисляется как отношение количества правильно категоризированных ин- Будем принимать решение о принадлежности интернет-ресурса к категории, если степень соответствия достигнет заданного порога τ. Таким образом, получаем: r = 1, CSV( c, dj ) τ. (8) 0, CSV ( c, d ) < τ После того как вычислена степень соответствия между категорией и интернет-ресурсом, а также пороговое значение категории, необходимо провести обучение. Цель обучения настройка весовых коэффициентов и порогового значения таким образом, чтобы процедура категоризации относила положительные примеры к категории, а отрицательные примеры не относила, т. е. чтобы суммы весовых коэффициентов всех положительных примеров были равны либо превышали пороговое значение, а суммы для отрицательных примеров были ниже порога. Для оценки качества категоризации интернет-ресурсов применяем метрики из информационного поиска, такие, как полнота, точность, F-мера [5]. Пусть D r множество интернет-ресурсов, категоризированных экспертами, а D a множество интернет-ресурсов, категоризированных автоматически. Полнота категоризации интернет-ресурсов по категории вычисляется как отношение количества правильно категоризированных интернет-ресурсов системой к общему числу интернет-ресурсов, относящихся к этой категории: D Da Dr r j. (9) 545

9 тернет-ресурсов системой к общему числу интернет-ресурсов, автоматически категоризированных системой: Da Dr p =. (10) Da Для идеального алгоритма полнота и точность должны быть равны 100%. F-мера, т. е. сводная оценка качества категоризации, определяется как гармонически среднее полноты и точности: = 2 r F p. (11) r + p Основная структура разрабатываемой системы высокорелевантного поиска, анализа и категоризации интернет-ресурсов и взаимодействие ее подсистем выглядит следующим образом (рис. 4): Рис. 4. Структура системы и взаимодействие ее подсистем Подсистема «Поиск новых ресурсов» предназначена для поиска новых интернет-ресурсов. Результатом ее деятельности является набор новых адресов сайтов, пополняющих базу тематической категоризации. 546

10 Далее вся информация о новых ресурсах поступает в подсистему «Ведение информационных ресурсов». При этом есть только базовая информация о ресурсе, он не привязан к категориям. После этого в работу включается подсистема «Обход интернет-ресурсов». В рамках данной подсистемы осуществляется обход сайта и получение набора страниц, которые можно анализировать тематически. Следующим является подсистема каталогизации интернетресурсов, которая анализирует тексты страниц, составляет их профиль и на основании этого решает об отнесении сайта к той или иной тематической категории. Процессом, контролирующим качество классификации, управляет подсистема «Контроль и настройка процедуры классификации». В результате классификации в рамках подсистемы «Ведение информационных ресурсов» сайты получают соответствие категориям. Дополнительно ведется специализированный журнал отслеживания изменений о сайтах и категориях, который используется подсистемой «Обмен с системами контентной фильтрации (СКФ)» для обновления данных в базах СКФ и получения от них новых неизвестных адресов для анализа. Подсистема «Ведение пользователей и управление правами доступа» позволяет использовать систему в многопользовательском режиме, с разграничением прав доступа между пользователями и контролем действий, выполняемых пользователем. Подсистема «Отчеты и статистика» собирает информацию от всех модулей и предоставляет ее для анализа. Разрабатываемая система позволит выполнять поиск новых ресурсов в сети Интернет, анализировать текстовое содержимое этих ресурсов, актуализировать накопленную информацию в соответствии с заданным списком, состоящим из 48 категорий, которые охватывают более 200 тем. Литература 1. Абсалямов А. Борьба с киберслэкингом / А. Абсалямов // Windows 2000 Magazine Плешко В. В. RCO на РОМИП 2004 / В. В. Плешко, А. Е. Ермаков, В. П. Голенков // Российский семинар по оценке методов информационного поиска (РОМИП 2004). Пущино, Плешко В. В. RCO на РОМИП 2003: отчет об участии в российском семинаре по оценке методов информационного поиска / В. В. Плешко, А. Е. Ермаков, В. А. Митюхин // Труды первого российского семинара по оценке методов информацион- 547

11 ного поиска / под ред. И. С. Некрестьянова. СПб.: НИИ химии СПбГУ, Поляков И. Е. Опыт создания системы фильтрации агрессивного web-контента / И. Е. Поляков // Труды XII Всероссийской научно-методической конференции «Телематика 2005» (6 9 июня 2005 г., Санкт-Петербург). СПб., Поляков П. Ю. RCO на РОМИП 2006 / П. Ю. Поляков, В. В. Плешко // Труды четвертого российского семинара по оценке методов информационного поиска. СПб.: НИИ химии СПбГУ, Фонд «Общественное мнение», 7. Sebastiani F. Machine Learning in Automated Text Categorization, 8. Russian Context Optimizer. Технологии анализа и поиска текстовой информации, 9. Некрестьянов И. С. Обнаружение структурного подобия HTML-документов / И. С. Некрестьянов, Е. Ю. Павлова // Труды четвертой всероссийской конференции RCDL Дубна, Ziv Bar-Yossef. Template Detection via Data Mining and its Applications / Ziv Bar-Yossef, Sridhar Rajagopalan // Proceedings of WWW2002, May, 7 11, 2002, Honolulu, Hawaii, USA. 11. Automating Content Extraction of HTML Documents / S. Gupta, G. Kaiser, P. Grimm, M. Chiang, J. Starren // World Wide Web Journal. January, 2005.

Тематическая классификация текстов

Тематическая классификация текстов Тематическая классификация текстов С.В. Панков, С.П. Шебанин, А.А. Рыбаков ROOKEE sergey.pankov@re-actor.ru, sergey.shebanin@re-actor.ru, alexander.ribakov@re-actor.ru Аннотация В статье описан алгоритм

Подробнее

Юрий Лифшиц. Осень 2006

Юрий Лифшиц. Осень 2006 Автоматическая классификация текстов Лекция N 6 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 30 ... классификация осуществляется на добровольной основе Владимир Стржалковский

Подробнее

Основа NNCS - модель представления текстовых документов в виде семантических векторов, получаемых с помощью специальной рекуррентной нейронной сети.

Основа NNCS - модель представления текстовых документов в виде семантических векторов, получаемых с помощью специальной рекуррентной нейронной сети. BINEURO 2005 Основа NNCS - модель представления текстовых документов в виде семантических векторов, получаемых с помощью специальной рекуррентной нейронной сети. "NNCS (Neural Network Classification &

Подробнее

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции План лекции Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1, подходы и применения 1 / 22 2 / 22 План лекции Акценты

Подробнее

1 / 22

1 / 22 Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 22 План лекции 1 Постановка задачи, подходы и применения Постановка

Подробнее

Принципы построения поисковой системы для образовательного портала

Принципы построения поисковой системы для образовательного портала 1 П.Н. Матвеев Принципы построения поисковой системы для образовательного портала Аннотация В статье освещаются вопросы, связанные с организацией контекстного поиска на портале сферы образования. Рассматриваются

Подробнее

Mail.Ru на РОМИП 2007

Mail.Ru на РОМИП 2007 Mail.Ru на РОМИП 2007 Костин Михаил, Проскурин Андрей Mail.Ru kostin@corp.mail.ru, proskurin@corp.mail.ru Аннотация Статья посвящена участию компании Mail.Ru в семинаре РОМИП-2007. Основное внимание уделено

Подробнее

Анализ вопросов автоматизации поиска информации

Анализ вопросов автоматизации поиска информации УДК 025.4.03 Анализ вопросов автоматизации поиска информации Н. Ю. Рязанова 1 1 МГТУ им. Н.Э. Баумана, Москва, 105005, Россия Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для

Подробнее

RCO на РОМИП Поляков П.Ю., Плешко В.В. Аннотация

RCO на РОМИП Поляков П.Ю., Плешко В.В. Аннотация Труды РОМИП'2006. (http://romip.narod.ru) RCO на РОМИП 2006 Поляков П.Ю., Плешко В.В. rco@metric.ru Аннотация Настоящая работа является отчетом об экспериментах, проведенных авторами в рамках цикла семинара

Подробнее

Анализ результатов тестирования алгоритма София при решении задачи классификации коллекции правовых документов

Анализ результатов тестирования алгоритма София при решении задачи классификации коллекции правовых документов Анализ результатов тестирования алгоритма София при решении задачи классификации коллекции правовых документов Наталия Осипова СПбГУ osipovanata@mail.ru Аннотация Статья посвящена информационно-поисковому

Подробнее

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» RCO на РОМИП

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» RCO на РОМИП RCO на РОМИП 2004 Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» rco@metric.ru 01.10.2004 RCO на РОМИП 2004 1 Дорожки Документальный поиск Классификация правовых документов Классификация

Подробнее

Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ»

Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ» СПБГУ Кафедра системного программирования Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ» Студент: Коноплев Юрий 445гр. Научный руководитель: кандидат физ-мат. наук Сергей Сысоев

Подробнее

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ И ОБРАЗОВАНИИ МЕТОДЫ КЛАССИФИКАЦИИ ВЫЧИСЛИТЕЛЬНЫХ СЕРВИСОВ

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ И ОБРАЗОВАНИИ МЕТОДЫ КЛАССИФИКАЦИИ ВЫЧИСЛИТЕЛЬНЫХ СЕРВИСОВ УДК 004.75 МЕТОДЫ КЛАССИФИКАЦИИ ВЫЧИСЛИТЕЛЬНЫХ СЕРВИСОВ Б.В. Палюх, И.А. Егерева В институте системного анализа РАН под руководством А.П. Афанасьева разработана распределенная среда MathCloud, ориентированная

Подробнее

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский Рассматриваются особенности динамической обработки стохастических сигналов с использованием дискретных

Подробнее

Извлечение значимой информации из web-страниц для задач информационного поиска

Извлечение значимой информации из web-страниц для задач информационного поиска Извлечение значимой информации из web-страниц для задач информационного поиска М.С. Агеев 1, 2, И.В. Вершинников 2, Б.В. Добров 1, 2 1 Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова

Подробнее

ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ

ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ Филиппович А.Ю., Кирнарский А.Б. ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ В настоящее время в среде Интернет активно развиваются технологии web 2.0 (wiki-ресурсы, социальные

Подробнее

1 / 29

1 / 29 Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 29 План лекции 1 Архитектура поисковых систем 2 Алгоритмы

Подробнее

Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев

Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев Пусть, как и прежде, необходимо выбрать одно из множества решений X из области их допустимых значений. Но в отличие

Подробнее

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы.

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы. План лекции Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru 1 Архитектура поисковых систем 2 Алгоритмы поисковых систем PageRank

Подробнее

ФОРМАЛЬНОЕ ОПРЕДЕЛЕНИЕ ТЕМЫ И ОСНОВНОГО СОДЕРЖАНИЯ ТЕКСТА КАК ОСНОВА ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО ОБЪЕДИНЕНИЯ НОВОСТНЫХ СООБЩЕНИЙ В ЕДИНЫЙ СЮЖЕТ

ФОРМАЛЬНОЕ ОПРЕДЕЛЕНИЕ ТЕМЫ И ОСНОВНОГО СОДЕРЖАНИЯ ТЕКСТА КАК ОСНОВА ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО ОБЪЕДИНЕНИЯ НОВОСТНЫХ СООБЩЕНИЙ В ЕДИНЫЙ СЮЖЕТ А.О. Третьяк (Минск, МГЛУ) ФОРМАЛЬНОЕ ОПРЕДЕЛЕНИЕ ТЕМЫ И ОСНОВНОГО СОДЕРЖАНИЯ ТЕКСТА КАК ОСНОВА ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО ОБЪЕДИНЕНИЯ НОВОСТНЫХ СООБЩЕНИЙ В ЕДИНЫЙ СЮЖЕТ В современном мире происходит большое

Подробнее

Библиопортал: что ожидает пользователь?

Библиопортал: что ожидает пользователь? Библиопортал: что ожидает пользователь? Достовалов Сергей Сергеевич, программист, Институт корпоративных библиотечно-информационных систем Санкт-Петербургского государственного политехнического университета

Подробнее

Построение отношений в гибридной онтологической сети. Пономарёв С. В. «Спутник»

Построение отношений в гибридной онтологической сети. Пономарёв С. В. «Спутник» Построение отношений в гибридной онтологической сети Пономарёв С. В. ponomarev@corp.sputnik.ru «Спутник» Гибридная онтологическая сеть Объединим в одной сети: частотные источники информации (достоверность

Подробнее

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета»

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Юрий Лифшиц 2 ноября 2006 г. Содержание 1. Постановка задачи, подходы и применения 2 1.1. Введение.................................................

Подробнее

Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком»

Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком» Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком» Системы фильтрации, используемые для образовательных учреждений,

Подробнее

Классификатор веб-страниц на базе SVM-Multiclass

Классификатор веб-страниц на базе SVM-Multiclass Труды РОМИП'2006. (http://romip.narod.ru) Классификатор веб-страниц на базе SVM-Multiclass Р.Ф. Кузнецов Балтийский Государственный Технический Университет ruslkuznetsov@gmail.com Аннотация Статья посвящена

Подробнее

Лекция 9. Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция. Лектор Сенько Олег Валентинович

Лекция 9. Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция. Лектор Сенько Олег Валентинович Лекция 9 Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег

Подробнее

ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1

ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1 ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1 О.И. Боровикова olesya@iis.nsk.su Ю.А. Загорулько zagor@iis.nsk.su Е.А. Сидорова lena@iis.nsk.su Институт систем информатики

Подробнее

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА С.В. Гусев, программист ЗАО «НОРСИ-ТРАНС» А.М. Чеповский, кандидат технических наук, профессор кафедры информационных систем Московского государственного

Подробнее

Автоматическая классификация текстовых документов с помощью онтологий

Автоматическая классификация текстовых документов с помощью онтологий УДК 005 Автоматическая классификация текстовых документов с помощью онтологий # 09, сентябрь 2012 Грушин М.А. Научный руководитель: д.т.н., профессор, Норенков И.П. МГТУ им. Н.Э.Баумана, Москва, Россия

Подробнее

КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК

КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК УДК 004.728.4.056.53 КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК Ульянов М.В. студент гр. ИТб-121, IV курс Научный руководитель: А.В. Протодьяконов, к.т.н., доцент Кузбасский Государственный Технический

Подробнее

ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ, N 10, 2010 ПРИМЕНЕНИЕ КОНТЕКСТНЫХ ВЕКТОРОВ В КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ. Получена 27 сентября 2010 г.

ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ, N 10, 2010 ПРИМЕНЕНИЕ КОНТЕКСТНЫХ ВЕКТОРОВ В КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ. Получена 27 сентября 2010 г. УДК 004.93'1 ПРИМЕНЕНИЕ КОНТЕКСТНЫХ ВЕКТОРОВ В КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ А.С. Епрев Омский государственный университет им. Ф.М. Достоевского Получена 27 сентября 2010 г. Аннотация. В работе представлен

Подробнее

7-я лекция. Эффективность информационных систем

7-я лекция. Эффективность информационных систем 7-я лекция. Эффективность информационных систем На прошедших лекциях мы рассматривали принципы действия информационных систем. Теперь сосредоточимся на вопросах оценки эффективности этого действия. Функция

Подробнее

Выявление аномальных значений [M.077]

Выявление аномальных значений [M.077] Выявление аномальных значений [M.77] Часто в больших наборах данных встречаются значения, которые не укладываются в общую модель поведения анализируемого процесса. Такие значения, которые сильно отличаются

Подробнее

Контекстно-ассоциативный метод уточнения поисковых запросов и. аннотирования текстовых документов.

Контекстно-ассоциативный метод уточнения поисковых запросов и. аннотирования текстовых документов. Труды РОМИП'2006. (http://romip.naro.ru) Контекстно-ассоциативный метод уточнения поисковых запросов и аннотирования текстовых документов Дмитрий Беляев ОВИОНТ ИНФОРМ belyaev@oviont.ru Аннотация В статье

Подробнее

Система рубрикации данных «Синдбад» В.В. Рыбинкин ООО «Бюро Интернет Технологий БИТ»

Система рубрикации данных «Синдбад» В.В. Рыбинкин ООО «Бюро Интернет Технологий БИТ» Система рубрикации данных «Синдбад» В.В. Рыбинкин ООО «Бюро Интернет Технологий БИТ» ryb@2bit.ru Иерархическая рубрикация Рекурсивный обход дерева рубрик с выполнением на каждом уровне иерархии полнотекстового

Подробнее

Машинное обучение Тематическое моделирование. https://yandexdataschool.ru/edu-process/courses/machine-learning

Машинное обучение Тематическое моделирование. https://yandexdataschool.ru/edu-process/courses/machine-learning Машинное обучение Тематическое моделирование https://yandexdataschool.ru/edu-process/courses/machine-learning 1 Содержание лекции Постановка задачи Предыстория Латентный семантический анализ (LSA) Вероятностный

Подробнее

HeadHunter на РОМИП-2008

HeadHunter на РОМИП-2008 HeadHunter на РОМИП-28 А.В. Сафронов HeadHunter safronov@hh.ru Аннотация Статья посвящена участию компании HeadHunter в дорожках поиска по документам на семинаре РОМИП-28. Подробно описывается алгоритм

Подробнее

НАУЧНЫЕ ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

НАУЧНЫЕ ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ НАУЧНЫЕ ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ УДК 004.832.2 Д. В. Бондарчук Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске Автоматическая классификация

Подробнее

Д.А. Кушнарев (Минск, БГУ) КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ В связи с постоянно возрастающим объемом информации, доступной

Д.А. Кушнарев (Минск, БГУ) КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ В связи с постоянно возрастающим объемом информации, доступной Д.А. Кушнарев (Минск, БГУ) КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ В связи с постоянно возрастающим объемом информации, доступной в электронном виде, все большую актуальность приобретают

Подробнее

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ А.В. Юрасов, О.А. Дегтярёва Самарский государственный аэрокосмический университет имени академика С.П. Королёва (национальный исследовательский

Подробнее

Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ *

Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ * Известия высших учебных заведений. Поволжский регион УДК 681.31 144 Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ * Изложены теоретические основы экспресс-анализа

Подробнее

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных Введение в анализ данных: Классификация текста Юля Киселёва juliakiseleva@yandex-team.ru Школа анализа данных План на сегодня Постановка задачи, подходы и применения Построение и обучение классификатора

Подробнее

АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ

АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ Гаврилов С.В., студент V курса физико-математического факультета МордГПИ, г. Саранск. Сайты являются

Подробнее

СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ И СЕМАНТИЧЕСКИЕ РАССТОЯНИЯ МЕЖДУ ТЕКСТАМИ

СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ И СЕМАНТИЧЕСКИЕ РАССТОЯНИЯ МЕЖДУ ТЕКСТАМИ УДК 681.324 АСАУ 10(30) 2007 А.Ш. Сулейманов СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ И СЕМАНТИЧЕСКИЕ РАССТОЯНИЯ МЕЖДУ ТЕКСТАМИ Формальные процедуры эсетного анализа предусматривают выделение в тексте терминологических

Подробнее

Лабораторная работа 1 Тема: Сетевые модели.

Лабораторная работа 1 Тема: Сетевые модели. Лабораторная работа 1 Тема: Сетевые модели. 1.Цель работы Решение задач, использующих сетевые модели представления, изучение различных методов решения и анализа. 2.Краткие теоретические сведения 2.1. Алгоритмы

Подробнее

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006 Информационный поиск Архитектура поисковых систем PageRank Лекция N 3 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 29 Авторы алгоритмов ссылочной популярности В ноябре

Подробнее

УДК Алгоритм классификации отпечатков пальцев

УДК Алгоритм классификации отпечатков пальцев УДК 004.932 Алгоритм классификации отпечатков пальцев Ломов Д.С., студент Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Программное обеспечение ЭВМ и информационные технологии» Научный руководитель:

Подробнее

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА САНКТ- ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МАТЕМАТИКО- МЕХАНИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА КУРСОВАЯ РАБОТА СТУДЕНТА 361 ГРУППЫ КАЛМЫКОВА АЛЕКСЕЯ ВЛАДИМИРОВИЧА

Подробнее

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ УДК 519.237 К. В. Воронцов, К. В. Рудаков, В. А. Лексин, А. Н. Ефимов Вычислительный центр РАН, г. Москва, Россия voron@ccas.ru ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ

Подробнее

Информатика и ИКТ 11 класс. Тематическое содержание курса Основы социальной информатики 4 1 резерв 1 итого 35. График контрольных работ

Информатика и ИКТ 11 класс. Тематическое содержание курса Основы социальной информатики 4 1 резерв 1 итого 35. График контрольных работ Наименование темы, раздела 1 2 Средства и технологии создания и преобразования информационных объектов Средства и технологии обмена информацией с помощью компьютерных сетей (сетевые технологии) Информатика

Подробнее

ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ

ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ Сидорова Е.А. Российский НИИ Искусственного Интеллекта, г. Новосибирск lena@iis.nsk.su Рассматриваемый

Подробнее

Разработка программных средств создания и ведения классификаторов

Разработка программных средств создания и ведения классификаторов 726 Разработка программных средств создания и ведения классификаторов Захарушкин В.Ф. ( zakharushkin@mail.ru ) Институт физико-технической информатики 1. Введение Создание классификаторов является ответственной

Подробнее

RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска

RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска RCO на РОМИП 23: отчет об участии в семинаре по оценке методов информационного поиска Плешко В.В., Ермаков А.Е., Митюнин В.А. ООО «Гарант-Парк-Интернет» rco@metric.ru Аннотация Настоящая работа является

Подробнее

Статистическое исследование алгоритма случайного поиска

Статистическое исследование алгоритма случайного поиска Статистическое исследование алгоритма случайного поиска В. Т. Кушербаева, Ю. А. Сушков Санкт-Петербургский государственный университет 1 В работе рассматривается статистическое исследование одного алгоритма

Подробнее

ЛУ

ЛУ УТВЕРЖДАЮ Генеральный директор OOO «НПП «ИТБ» А.Ю. Щеглов 2016 г. КОМПЛЕКСНАЯ СИСТЕМА ЗАЩИТЫ ИНФОРМАЦИИ «ПАНЦИРЬ+» ДЛЯ ОС MICROSOFT WINDOWS Настройка и алгоритм контроля доступа к статичным объектам. Создание

Подробнее

394 Секция 7. Технологии и системы искусственного интеллекта

394 Секция 7. Технологии и системы искусственного интеллекта 394 Секция 7. Технологии и системы искусственного интеллекта УДК 004.89 Арбузова О.В.,Егошина А.А., Линкин В.О. Донецкий Национальный Технический Университет, г. Донецк кафедра систем искусственного интеллекта

Подробнее

Системы информационного обеспечения для проведения распределенных научных исследований

Системы информационного обеспечения для проведения распределенных научных исследований Системы информационного обеспечения для проведения распределенных научных исследований План доклада Задачи систем информационного обеспечения распределенных научных исследований Тематический поиск информации

Подробнее

Лекция #12. Базыданных. Михаил Моисеев. Технологиианализа данных

Лекция #12. Базыданных. Михаил Моисеев. Технологиианализа данных Лекция #12 Базыданных Михаил Моисеев Технологиианализа данных СППР Системыподдержки принятия решений (DSS) предоставляют собой инструмент для анализа большого объема данных. 2 Подсистемаввода данных On-Line

Подробнее

KC-классификатор и дорожка классификации веб-сайтов РОМИП Маслов М. Ю., Пяллинг А.А.

KC-классификатор и дорожка классификации веб-сайтов РОМИП Маслов М. Ю., Пяллинг А.А. KC-классификатор и дорожка классификации веб-сайтов РОМИП 2010. Маслов М. Ю., Пяллинг А.А. Яндекс {maslov, pyal}@yandex-team.ru Аннотация В настоящей работе исследуются особенности метрик РОМИП для дорожки

Подробнее

Модели информационного поиска

Модели информационного поиска Модели информационного поиска Б. Задача информационного поиска Информационные потребности,документы, cемантическое соответствие: пертинентность Поисковые образы документов: Релевантность Неточность запросов

Подробнее

Информационные системы

Информационные системы Московский государственный университет культуры и искусств Кафедра виртуальных коммуникаций Информационные системы Учебная программа по специальности 351400 Прикладная информатика (в менеджменте) Составитель

Подробнее

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» Аннотация

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» Аннотация RCO на РОМИП 2004 Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» rco@metric.ru Аннотация Настоящая работа является отчетом об экспериментах, проведенных в рамках инициативы РОМИП.

Подробнее

Темы курсовых работ для группы 1-ХД История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию

Темы курсовых работ для группы 1-ХД История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию Темы курсовых работ для группы 1-ХД-44 Наименование 1. История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию по теме, используя элементы анимации (обязательно)

Подробнее

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П., Поляков П.Ю. ООО «Гарант-Парк-Интернет» RCO на РОМИП

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П., Поляков П.Ю. ООО «Гарант-Парк-Интернет» RCO на РОМИП RCO на РОМИП 2005 Плешко В.В., Ермаков А.Е., Голенков В.П., Поляков П.Ю. ООО «Гарант-Парк-Интернет» rco@metric.ru 06.10.2005 RCO на РОМИП 2005 1 Дорожки Классификация правовых документов Классификация

Подробнее

Извлечение терминов из русскоязычных текстов при помощи графовых моделей

Извлечение терминов из русскоязычных текстов при помощи графовых моделей Извлечение терминов из русскоязычных текстов при помощи графовых моделей Усталов Дмитрий Алексеевич dmitry@eveel.ru УрФУ, Екатеринбург, Россия Аннотация. Статья посвящена вопросу извлечения терминов из

Подробнее

СИСТЕМЫ ЛИНЕЙНЫХ УРАВНЕНИЙ

СИСТЕМЫ ЛИНЕЙНЫХ УРАВНЕНИЙ СИСТЕМЫ ЛИНЕЙНЫХ УРАВНЕНИЙ После изучения данной темы вы сможете: проводить численное решение задач линейной алгебры. К решению систем линейных уравнений сводятся многочисленные практические задачи, решение

Подробнее

Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ

Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ М.Г. Крейнес, А.А. Афонин, А.В. Тихонов Рассмотрены особенности технологии смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ, характер

Подробнее

INFORMATION CRITERION FOR THE CATEGORIZATION QUALITY EVALUATION

INFORMATION CRITERION FOR THE CATEGORIZATION QUALITY EVALUATION UDC 519.67 INFORMATION CRITERION FOR THE CATEGORIZATION QUALITY EVALUATION 1 Yulia E. Balykina 2 Michail V. Svirkin 1 Saint-Petersburg State University 7/9, Universitetskaya nab., St.Petersburg, 199034

Подробнее

Модуль генерации контента

Модуль генерации контента УЧЕБНЫЙ ЦЕНТР «ТОПЭКСПЕРТ» Модуль генерации контента 9 поток профессионального курса по SEO Работу выполнила: Жанна Тепсуева Модуль генерации контента Описание Модуль позволяет задавать для конкретного

Подробнее

МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А.

МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А. МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А. Санкт-Петербургский институт информатики и автоматизации РАН СПИИРАН, 14-я линия ВО, д. 39, Санкт-Петербург, 199178

Подробнее

Категорирование Web сайтов. с неприемлемым содержимым

Категорирование Web сайтов. с неприемлемым содержимым СПИИРАН Категорирование Web сайтов Wb й для систем блокирования Web страниц с неприемлемым содержимым Комашинский Д.В., Котенко И.В., Чечулин А.А., Шоров А.В. (СПИИРАН) Содержание Введение Архитектура

Подробнее

376 Секция 7. Технологии и системы искусственного интеллекта

376 Секция 7. Технологии и системы искусственного интеллекта 376 Секция 7. Технологии и системы искусственного интеллекта УДК 004.89 А.А. Прокапович, А.А. Егошина Донецкий национальный технический университет, г. Донецк кафедра систем искусственного интеллекта АНАЛИЗ

Подробнее

АЛГОРИТМЫ СИТУАЦИОННОГО УПРАВЛЕНИЯ РИСКАМИ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ

АЛГОРИТМЫ СИТУАЦИОННОГО УПРАВЛЕНИЯ РИСКАМИ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ АЛГОРИТМЫ СИТУАЦИОННОГО УПРАВЛЕНИЯ РИСКАМИ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Е.Н. Надеждин Россия, Москва В.А. Шептуховский Россия, г. Шуя Закономерным следствием

Подробнее

Глубинный анализ текстовых данных: определение интересов пользователей

Глубинный анализ текстовых данных: определение интересов пользователей Глубинный анализ текстовых данных: определение интересов пользователей Руководители Ефремова Мария, Шиф Алексей Студенты Корскова Наталья, Краюшкин Олег, Смирнов Максим, Чернобай Юлия Что такое интерес?

Подробнее

Доступ к научным публикациям: выбор платформы. Е.В.Ковязина, научный сотрудник Институт вычислительного моделирования СО РАН

Доступ к научным публикациям: выбор платформы. Е.В.Ковязина, научный сотрудник Институт вычислительного моделирования СО РАН Доступ к научным публикациям: выбор платформы Е.В.Ковязина, научный сотрудник Институт вычислительного моделирования СО РАН elena@icm.krasn.ru Электронно-библиотечная система (ЭБС): Автоматизированная

Подробнее

Занятие 15 Структура процесса информационного поиска представлена на Рис. 58б.

Занятие 15 Структура процесса информационного поиска представлена на Рис. 58б. Занятие 15 Структура процесса информационного а представлена на Рис. 58б. Рис. 58б. Структура процесса информационного а Типология видов а приведена в Таблице 1. Предметному у соответствует ситуация формирования

Подробнее

Метод анализа иерархий

Метод анализа иерархий Метод анализа иерархий Назаров Д.М., Бегичева С.В. Задача: Пусть необходимо выбрать банковский вклад, имеющий наиболее удобные для вкладчика условия. При этом в отборе участвуют вклады, годовые процентные

Подробнее

Об одном методе распознавания изображений

Об одном методе распознавания изображений Модел. и анализ информ. систем. Т.14, 4 (2007) 7 12 УДК 519.68:[681.5137+612.8.001.57+007.51/52] Об одном методе распознавания изображений Михайлов И. А. Ярославский государственный университет 150 000,

Подробнее

Организация больших данных для их эффективного использования в машинном обучении

Организация больших данных для их эффективного использования в машинном обучении Организация больших данных для их эффективного использования в машинном обучении Дмитрий Бабаев Эксперт по наукам о данных ПАО МТС, OpenDataScience ODS.ai Большие данные - это события Обычно состоят из

Подробнее

2DL.Beagle. Описание системы

2DL.Beagle. Описание системы 2DL.Beagle Описание системы Общая схема Описание поисковой системы Система состоит из трёх основных модулей: индексатора, поискового сервиса и справочного сервиса. Индексатор запускается в отдельном процессе

Подробнее

Новые возможности облачного сервиса контент-фильтрации и базы категорированных интернет-ресурсов SkyDNS

Новые возможности облачного сервиса контент-фильтрации и базы категорированных интернет-ресурсов SkyDNS Новые возможности облачного сервиса контент-фильтрации и базы категорированных интернет-ресурсов SkyDNS Содержание 1. Продукты SkyDNS для сервисных компаний. 2. Совместимость сервисов SkyDNS с антивирусами

Подробнее

Лекция 5. Прицип частичной прецедентности, тестовый алгоритм, модель АВО. Лектор Сенько Олег Валентинович

Лекция 5. Прицип частичной прецедентности, тестовый алгоритм, модель АВО. Лектор Сенько Олег Валентинович Лекция 5 Прицип частичной прецедентности, тестовый алгоритм, модель АВО Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович

Подробнее

ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение

ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение Получение признакового описания изображений является одним из главных этапов в таких задачах машинного (технического)

Подробнее

Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства

Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства Москвы # 08, август 2014 Кузовлев В. И., Орлов А. О. УДК: 004.052.42 Россия, МГТУ им.

Подробнее

Алгоритмы обучения нейронных сетей [M.165]

Алгоритмы обучения нейронных сетей [M.165] Алгоритмы обучения нейронных сетей [M.165] Обучение нейронных сетей как задача оптимизации Процесс обучения нейронной сети заключается в подстройке весов ее нейронов. Целью обучения является поиск состояния

Подробнее

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. очень большими. В результате получаются большие дисперсии. X X b X y

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. очень большими. В результате получаются большие дисперсии. X X b X y МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность

Подробнее

Нижние оценки Гилмора и Гомори

Нижние оценки Гилмора и Гомори Нижние оценки Гилмора и Гомори Имеется неограниченное число контейнеров единичной вместимости. Для каждой заготовки i L задана длина 0 < w i < 1 и их количество n i 1. Требуется упаковать заготовки в минимальное

Подробнее

В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ

В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ Рассматривается один класс случайных функций описывающих статистическую зависимость между количеством произведенных

Подробнее

Плагиат в статьях и диссертациях: трудности обнаружения перевода

Плагиат в статьях и диссертациях: трудности обнаружения перевода antiplagiat.ru 5-я международная конференция НЭИКОН ЭЛЕКТРОННЫЕ НАУЧНЫЕ И ОБРАЗОВАТЕЛЬНЫЕ РЕСУРСЫ: СОЗДАНИЕ, ПРОДВИЖЕНИЕ И ИСПОЛЬЗОВАНИЕ Плагиат в статьях и диссертациях: трудности обнаружения перевода

Подробнее

Интеграция информационных систем с применением семантических технологий

Интеграция информационных систем с применением семантических технологий Интеграция информационных систем с применением семантических технологий Сергей Горшков «Бизнес Семантика», Екатеринбург, Россия. serge@business-semantic.ru Аннотация. Статья посвящена описанию способа

Подробнее

Алексеев Юрий Геннадьевич ИНТЕЛЛЕКТУАЛЬНЫЙ ФИЛЬТР ЭЛЕКТРОННЫХ СООБЩЕНИЙ

Алексеев Юрий Геннадьевич ИНТЕЛЛЕКТУАЛЬНЫЙ ФИЛЬТР ЭЛЕКТРОННЫХ СООБЩЕНИЙ Министерство образования Республики Беларусь Учреждение образования Белорусский государственный университет информатики и радиоэлектроники УДК 004.021 Алексеев Юрий Геннадьевич ИНТЕЛЛЕКТУАЛЬНЫЙ ФИЛЬТР

Подробнее

Интеллектуальные информационные системы. Тема 1 Модели и методы ИП. Павел Исаакович Браславский весенний семестр 2006

Интеллектуальные информационные системы. Тема 1 Модели и методы ИП. Павел Исаакович Браславский весенний семестр 2006 Интеллектуальные информационные системы Тема 1 Модели и методы ИП Павел Исаакович Браславский pb@imach.uran.ru весенний семестр 2006 План Индексирование Булевская модель Векторная модель Оценка качества

Подробнее

МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ. Лектор Сенько Олег Валентинович Лекция 5

МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ. Лектор Сенько Олег Валентинович Лекция 5 МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ Лектор Сенько Олег Валентинович Лекция 5 Принцип частичной прецедентности Существует ряд методов распознавания, основанных на Принципе частичной прецедентности.

Подробнее

ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой

ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой Этот пример основан на "стандартном" наборе новостных документов, публикуемых интернет-сайтом lenta.ru. С данного сайта

Подробнее

Машинное обучение (Machine Learning)

Машинное обучение (Machine Learning) Машинное обучение (Machine Learning) Глубокое обучение: Cверточные сети (Deep Learning: Convolutional nets) Уткин Л.В. Санкт-Петербургский политехнический университет Петра Великого Содержание 1 Причины

Подробнее

успешно данный каталог (или какая-то иная поисковая система) дает возможность быстро разыскать необходимый документ.

успешно данный каталог (или какая-то иная поисковая система) дает возможность быстро разыскать необходимый документ. Нохрина В.А. О критериях эффективности каталогизации // Библиотечное дело 2012: Библиотечно-информационная деятельность в пространстве науки культуры и образования материалы семнадцатой международной научной

Подробнее

ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О. И. Кутузов, Т. М. Татарникова, Й. Шанти, С. Амари (Санкт-Петербург)

ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О. И. Кутузов, Т. М. Татарникова, Й. Шанти, С. Амари (Санкт-Петербург) ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О И Кутузов, Т М Татарникова, Й Шанти, С Амари (Санкт-Петербург) Традиционные технологии хранения, основанные на выделенных каналах, не обеспечивают

Подробнее

Использование ковариационной матрицы для вычисления весовых коэффициентов классификаторов в задаче многоклассового распознавания

Использование ковариационной матрицы для вычисления весовых коэффициентов классификаторов в задаче многоклассового распознавания Использование ковариационной матрицы для вычисления весовых коэффициентов классификаторов в задаче многоклассового распознавания Using covariation matrix for calculating classifiers weight coefficients

Подробнее

ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance

ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance Общество с ограниченной ответственностью «Технологии системного анализа» ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance Илья Тихомиров к.т.н. +7

Подробнее

b) key[0...10]=[2,1,1,1,1,1,1,1,1,1], n = бит

b) key[0...10]=[2,1,1,1,1,1,1,1,1,1], n = бит Результаты тестирования генераторов псевдослучайных последовательностей, безопасных для конечного пользователя. 1. Как указано в предыдущих статьях, воздействие конечным пользователем на работу генераторов

Подробнее