Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета

Размер: px
Начинать показ со страницы:

Download "Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета"

Транскрипт

1 С. В. Свечников Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета Предложен подход для реализации высокорелевантного поиска и автоматической категоризации интернет-ресурсов. Рассматривается механизм индексации интернет-ресурсов, т. е. преобразования их в единый формат посредством выделения терминов и присвоения им весовых коэффициентов, что позволяет достаточно быстро и эффективно оценить содержимое интернет-ресурса. Рассматривается задача, связанная с автоматической категоризацией интернет-ресурсов, обучением системы и отнесением текстовой информации к заранее определенной категории за счет использования степени соответствия между категорией и интернет-ресурсом. Экспоненциальный рост объема информации, содержащейся в Интернете является причиной возрастающей трудности поиска необходимых документов и организации их в виде структурированных по смыслу каталогов. Большое количество источников информации, резко возрастающий объем данных в Интернете и необходимость их быстрой обработки вызвали потребность в создании специализированных систем высокорелевантного поиска и автоматической категоризации ресурсов Интернета. В настоящее время потребность в системах высокорелевантного поиска и автоматической категоризации, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений. Открытое информационное пространство содержит большое количество ресурсов различного содержания. Наряду с полезной информацией, Интернет содержит ресурсы, объективно опасные для нравственного здоровья общества, оказывающие негативное воздействие в первую очередь на подрастающее поколение. Российский сегмент сети один из самых быстроразвивающихся. Количество пользователей Интер- 538 Аннотация * * *

2 нета в России по различным данным составляет около 25 миллионов человек, из них 2 миллиона дети [6]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети Интернет представляет серьезную угрозу для детей. Также Интернет бесконтрольно используется в личных целях работниками, имеющими доступ к глобальной сети, что снижает эффективность их работы и снижает производительность корпоративной сети [1]. При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей Интернета и юридически несостоятельны, поскольку противоречат естественным правам граждан на свободу воли, высказываний и волеизъявления. В связи с этим решение этой проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от нежелательного контента, который пользователи могут использовать по своей воле и по своему усмотрению [2]. Реализация такого инструмента тесно связана с тематической категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений. Одним из них является механизм фильтрации полезной информации от агрессивного контента. При этом все интернет-ресурсы разбиваются на категории и после соответствующего обучения становится возможной автоматическая фильтрация. Основные представленные на российском рынке программные продукты в области тематической категоризации интернет-ресурсов принадлежат следующим компаниям: Производитель Страна Программный продукт Secure computing США Sentian Surfcontrol США Surfcontrol web-filter Websense США Websense Enterprise Cobion Германия Proventia Web Filter Другие системы или не поддерживают фильтрацию русскоязычных интернет-ресурсов; или являются непригодными для корпоративной эксплуатации. Перечисленные решения представляют собой программы, которые устанавливаются в локальной сети организации и работают по принципу анализа и тематической категоризации интернет-ресурсов. 539

3 Эти программные продукты позволяют: повысить эффективность работы сотрудников; оптимизировать пропускную способность сети; усилить безопасность сети; предотвратить появление неэтичных материалов; снизить расходы за доступ в Интернет. К достоинствам представленных программных продуктов можно отнести: обеспечение защиты от основных актуальных угроз безопасности; высокий уровень настраиваемости; поддержку большой и постоянно обновляемой базы данных URL; простоту использования. Все вышеуказанные системы прекрасно фильтруют, в первую очередь англоязычный контент. При работе с русскоязычным контентом эти продукты демонстрируют: некорректную работу с контентом по причине отсутствия специальных инструментов работы с информацией на русском языке; бедность базы данных русскоязычных ресурсов по причине, указанной выше, а также потому, что Рунет составляет 5% от мировой сети Интернет и, вероятно, не является зоной первоочередных интересов иностранных компаний; неучет национальных особенностей при категоризации русскоязычных ресурсов, потому что иностранные компании не всегда адекватно учитывают специфику и политические реалии; систематическую погрешность категорирования сайтов, связанную, как правило, с полностью автоматическим определением категорий русскоязычных сайтов; низкую оперативность обновления; слабое сопровождение программного продукта; отсутствие возможности объединения данных от разных организаций с целью консолидации отчетности, потому что существующие системы рассчитаны преимущественно на локальное использование в коммерческих организациях. В связи с этим существует необходимость создания системы для высокорелевантного поиска и тематической категоризации, адаптируемой для русскоязычных интернет-ресурсов. Реализация системы высокорелевантного поиска и тематической категоризации интернет-ресурсов предполагает решение следующих задач: индексация интернет-ресурсов (преобразование интернетресурсов к единому формату); автоматическая категоризация интернет-ресурсов, обучение системы и отнесение текстовой информации к заранее определенной категории; 540

4 оценка качества категоризации с использованием метрик из информационного поиска. Представленные подзадачи связаны, в первую очередь, с анализом текстовой информации web-страницы, т. е. ее содержанием (контентом). Пусть дано множество интернет-ресурсов D, разделенное на два непересекающихся подмножества T r и T s, называемых обучающей и тестовой выборкой. На основании обучающей выборки строится классификатор категорий, а на тестовой выборке проверяется качество категоризации. Пусть также дано соответствие между интернет-ресурсами и некоторой категорией c в виде Ф D {0,1}, устанавливающее для каждого интернетресурса значение 1, в случае принадлежности интернет-ресурса категории, и 0 в противном случае [2,3,4,7]. Необходимо построить, используя только информацию из обучающей выборки T r, функцию Ф' D {0,1}, аппроксимирующую Ф, чтобы число ошибок E на тестовой выборке T s было наименьшим. E = Ф Ф' min. (1) T s Пусть T множество терминов, каким-либо образом, выделенное из интернет-ресурсов категории c. Тогда интернет-ресурс можно представить в виде терминологического вектора: d j = (w 1j,... w T j ) T, (2) где w lj вес термина t i в интернет-ресурсе d j. Описания каждой из категорий представим в виде векторов той же размерности, что и вектора интернет-ресурсов: c =(c 1,..., c T ) T, (3) где c i вес термина t i в описании категории c. При таком подходе существуют два ограничения: нет дополнительной информации о категориях, к которым прикрепляются интернет-ресурсы; нет никакой внешней информации о интернет-ресурсе, кроме той информации, которая содержится в нем. Каждый интернет-ресурс это вектор, где номера терминов (слов) его координаты, а веса терминов значения координат; размерность вектора это количество терминов, встречающихся в интернет-ресурсе. Так как учитываются все термины, вектора получаются большого размера, что затрудняет процесс индексации, поэтому необходимо уменьшить размерность вектора. Для уменьшения размерности вектора в качестве терминов используем не слова, а устойчивые словосочетания, не учитываем редкие слова, которые не несут полезной информации, не рассматриваем часто встречающиеся слова. 541

5 Процесс индексации представим следующим образом (рис. 1): очистка страницы; выделение терминов; исключение терминов, не несущих смысловой нагрузки; замена общих и специфичных терминов; присваивание терминам весовых коэффициентов. Сначала проводится очистка страницы интернетресурса, т. е. удаляется навигационная часть, теги html, скрипты, стоп-слова частотные слова языка, не несущие смысловой нагрузки (предлоги, союзы, частицы, местоимения, некоторые глаголы). За счет этого уменьшается объем поисковой базы и повышается производительность поиска [9, 10, 11]. После этого в тексте с Рис. 1. Индексация интернет-ресурсов помощью функции анализа контента интернет-ресурса выделяются термины логические выражения, состоящие из слов и словосочетаний, связанные операторами AND, OR, NOT. Для исключения терминов, не несущих смысловой нагрузки, используется пометка «исключение», которая показывает, что термин не относится к теме. Оставшиеся термины могут также обладать недостатками: существуют термины, которые слишком специфичны или, наоборот, значение которых слишком общо, поэтому их необходимо заменить более подходящими терминами. Это увеличивает полноту индексирования. Для замены специфичных терминов используется тезаурус RCO, который представляет собой словарь общей лексики с семантическими отношениями между словами [8]. Использование тезауруса повышает качество анализа текста и полноту поиска информации, позволяя расширять запрос синонимичными, более общими и более частными понятиями. Общие термины заменяются сочетаниями терминов или несколькими связанными терминами, имеющими более определенное значение. После того как были определены термины, необходимо провести лемматизацию приведение терминов к нормальной форме (мужской род, единственное число). Тем самым уменьшается словарь терминов и повышается скорость работы индексации. 542

6 Рис. 2. Интернет-ресурсы, содержащие термины Заключительным этапом является присвоение терминам весовых коэффициентов. Исходное представление интернетресурса выглядит следующим образом: интернет-ресурс = коллекция слов (терминов) T. Каждый термин ti T имеет определенный вес w ij по отношению к интернет-ресурсу dj D (рис. 2), т. е. встречаемость этого слова на странице интернетресурса. Порядок слов учитывать не будем. На основании этих признаков каждому слову сопоставляется его вес. Таким образом, каждый ресурс можно представить в виде вектора весов его терминов d j ={w 1j,...w T j }. Веса документов нормируем так, чтобы w ij 0 и w ij 1, где i (0, T ) и j (0, D ). Для вычисления веса термина на странице интернет-ресурса используем классический частотный метод вычисления степени соответствия интернет-ресурса, так как этот метод относительно прост и имеет несложный алгоритм, что принципиально при обработке больших объемов документов. Вычисляем вес термина следующим образом: f 1 wij = t ij, d fj (4) где t f ij (частота термина) это отношение числа терминов t i в интернет-ресурсе d j к общему количеству терминов в этом интернет-ресурсе. Таким образом, оценивается важность термина t i в пределах одного интернет-ресурса: t f ij = T ij Ti, (5) где j = 1,..., T, i = 1,..., D, T ij число терминов t i в интернет-ресурсе d j, T i, общее число терминов в интернет-ресурсе d j. d f j (частота интернет-ресурса) это отношение количества интернет-ресурсов категории, в которых встретился термин t i к общему количеству интернет-ресурсов категории: где j = 1,..., T, d f = j Dj D, (6) 543

7 D j число интернет-ресурсов, в которых встретился термин t i, D общее количество интернет-ресурсов категории. Таким образом, чем чаще термин встречается на странице данного интернет-ресурса, но реже во всех интернет-ресурсах, тем выше будет его вес в данном интернет-ресурсе. Наиболее трудоемкой частью реализации системы является разработка процесса, отвечающего за автоматическую категоризацию интернет-ресурсов, обучение системы на уже категоризированных интернет-ресурсах и определение соответствия категории. Алгоритм автоматической категоризации интернет-ресурсов заключается в следующем (рис. 3): 544 Рис. 3. Алгоритм автоматической категоризации интернет-ресурсов

8 вычисляется мера близости страницы интернет-ресурса и категории степень соответствия ресурса категории; для каждой страницы выбирается категория, наиболее близкая к ресурсу; в случае если значение степени соответствия ресурса превышает некоторое пороговое значение категории, ресурс добавляется в категорию; в случае если значение степени соответствия ресурса не превысило порогового значение категории, ресурс не добавляется в категорию и решение о принадлежности его к категории определяет эксперт. Степень соответствия (CSV) между категорией c и интернет-ресурсом d j определяем как скалярное произведение между их векторными представлениями: CSV ( c, d ) = c d = c d, (7) Φ (, cd) = j j j i ij i Точность категоризации интернет-ресурсов вычисляется как отношение количества правильно категоризированных ин- Будем принимать решение о принадлежности интернет-ресурса к категории, если степень соответствия достигнет заданного порога τ. Таким образом, получаем: r = 1, CSV( c, dj ) τ. (8) 0, CSV ( c, d ) < τ После того как вычислена степень соответствия между категорией и интернет-ресурсом, а также пороговое значение категории, необходимо провести обучение. Цель обучения настройка весовых коэффициентов и порогового значения таким образом, чтобы процедура категоризации относила положительные примеры к категории, а отрицательные примеры не относила, т. е. чтобы суммы весовых коэффициентов всех положительных примеров были равны либо превышали пороговое значение, а суммы для отрицательных примеров были ниже порога. Для оценки качества категоризации интернет-ресурсов применяем метрики из информационного поиска, такие, как полнота, точность, F-мера [5]. Пусть D r множество интернет-ресурсов, категоризированных экспертами, а D a множество интернет-ресурсов, категоризированных автоматически. Полнота категоризации интернет-ресурсов по категории вычисляется как отношение количества правильно категоризированных интернет-ресурсов системой к общему числу интернет-ресурсов, относящихся к этой категории: D Da Dr r j. (9) 545

9 тернет-ресурсов системой к общему числу интернет-ресурсов, автоматически категоризированных системой: Da Dr p =. (10) Da Для идеального алгоритма полнота и точность должны быть равны 100%. F-мера, т. е. сводная оценка качества категоризации, определяется как гармонически среднее полноты и точности: = 2 r F p. (11) r + p Основная структура разрабатываемой системы высокорелевантного поиска, анализа и категоризации интернет-ресурсов и взаимодействие ее подсистем выглядит следующим образом (рис. 4): Рис. 4. Структура системы и взаимодействие ее подсистем Подсистема «Поиск новых ресурсов» предназначена для поиска новых интернет-ресурсов. Результатом ее деятельности является набор новых адресов сайтов, пополняющих базу тематической категоризации. 546

10 Далее вся информация о новых ресурсах поступает в подсистему «Ведение информационных ресурсов». При этом есть только базовая информация о ресурсе, он не привязан к категориям. После этого в работу включается подсистема «Обход интернет-ресурсов». В рамках данной подсистемы осуществляется обход сайта и получение набора страниц, которые можно анализировать тематически. Следующим является подсистема каталогизации интернетресурсов, которая анализирует тексты страниц, составляет их профиль и на основании этого решает об отнесении сайта к той или иной тематической категории. Процессом, контролирующим качество классификации, управляет подсистема «Контроль и настройка процедуры классификации». В результате классификации в рамках подсистемы «Ведение информационных ресурсов» сайты получают соответствие категориям. Дополнительно ведется специализированный журнал отслеживания изменений о сайтах и категориях, который используется подсистемой «Обмен с системами контентной фильтрации (СКФ)» для обновления данных в базах СКФ и получения от них новых неизвестных адресов для анализа. Подсистема «Ведение пользователей и управление правами доступа» позволяет использовать систему в многопользовательском режиме, с разграничением прав доступа между пользователями и контролем действий, выполняемых пользователем. Подсистема «Отчеты и статистика» собирает информацию от всех модулей и предоставляет ее для анализа. Разрабатываемая система позволит выполнять поиск новых ресурсов в сети Интернет, анализировать текстовое содержимое этих ресурсов, актуализировать накопленную информацию в соответствии с заданным списком, состоящим из 48 категорий, которые охватывают более 200 тем. Литература 1. Абсалямов А. Борьба с киберслэкингом / А. Абсалямов // Windows 2000 Magazine Плешко В. В. RCO на РОМИП 2004 / В. В. Плешко, А. Е. Ермаков, В. П. Голенков // Российский семинар по оценке методов информационного поиска (РОМИП 2004). Пущино, Плешко В. В. RCO на РОМИП 2003: отчет об участии в российском семинаре по оценке методов информационного поиска / В. В. Плешко, А. Е. Ермаков, В. А. Митюхин // Труды первого российского семинара по оценке методов информацион- 547

11 ного поиска / под ред. И. С. Некрестьянова. СПб.: НИИ химии СПбГУ, Поляков И. Е. Опыт создания системы фильтрации агрессивного web-контента / И. Е. Поляков // Труды XII Всероссийской научно-методической конференции «Телематика 2005» (6 9 июня 2005 г., Санкт-Петербург). СПб., Поляков П. Ю. RCO на РОМИП 2006 / П. Ю. Поляков, В. В. Плешко // Труды четвертого российского семинара по оценке методов информационного поиска. СПб.: НИИ химии СПбГУ, Фонд «Общественное мнение», 7. Sebastiani F. Machine Learning in Automated Text Categorization, 8. Russian Context Optimizer. Технологии анализа и поиска текстовой информации, 9. Некрестьянов И. С. Обнаружение структурного подобия HTML-документов / И. С. Некрестьянов, Е. Ю. Павлова // Труды четвертой всероссийской конференции RCDL Дубна, Ziv Bar-Yossef. Template Detection via Data Mining and its Applications / Ziv Bar-Yossef, Sridhar Rajagopalan // Proceedings of WWW2002, May, 7 11, 2002, Honolulu, Hawaii, USA. 11. Automating Content Extraction of HTML Documents / S. Gupta, G. Kaiser, P. Grimm, M. Chiang, J. Starren // World Wide Web Journal. January, 2005.

Тематическая классификация текстов

Тематическая классификация текстов Тематическая классификация текстов С.В. Панков, С.П. Шебанин, А.А. Рыбаков ROOKEE sergey.pankov@re-actor.ru, sergey.shebanin@re-actor.ru, alexander.ribakov@re-actor.ru Аннотация В статье описан алгоритм

Подробнее

Юрий Лифшиц. Осень 2006

Юрий Лифшиц. Осень 2006 Автоматическая классификация текстов Лекция N 6 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 30 ... классификация осуществляется на добровольной основе Владимир Стржалковский

Подробнее

Принципы построения поисковой системы для образовательного портала

Принципы построения поисковой системы для образовательного портала 1 П.Н. Матвеев Принципы построения поисковой системы для образовательного портала Аннотация В статье освещаются вопросы, связанные с организацией контекстного поиска на портале сферы образования. Рассматриваются

Подробнее

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции

План лекции. Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики. Акценты лекции. План лекции План лекции Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1, подходы и применения 1 / 22 2 / 22 План лекции Акценты

Подробнее

1 / 22

1 / 22 Классификация текстов Лекция N 6 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru ИТМО Осень 2005 1 / 22 План лекции 1 Постановка задачи, подходы и применения Постановка

Подробнее

Mail.Ru на РОМИП 2007

Mail.Ru на РОМИП 2007 Mail.Ru на РОМИП 2007 Костин Михаил, Проскурин Андрей Mail.Ru kostin@corp.mail.ru, proskurin@corp.mail.ru Аннотация Статья посвящена участию компании Mail.Ru в семинаре РОМИП-2007. Основное внимание уделено

Подробнее

Анализ вопросов автоматизации поиска информации

Анализ вопросов автоматизации поиска информации УДК 025.4.03 Анализ вопросов автоматизации поиска информации Н. Ю. Рязанова 1 1 МГТУ им. Н.Э. Баумана, Москва, 105005, Россия Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для

Подробнее

Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ»

Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ» СПБГУ Кафедра системного программирования Отчет по курсовой работе «Повышение прозрачности сайта госзакупок РФ» Студент: Коноплев Юрий 445гр. Научный руководитель: кандидат физ-мат. наук Сергей Сысоев

Подробнее

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» RCO на РОМИП

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» RCO на РОМИП RCO на РОМИП 2004 Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» rco@metric.ru 01.10.2004 RCO на РОМИП 2004 1 Дорожки Документальный поиск Классификация правовых документов Классификация

Подробнее

Извлечение значимой информации из web-страниц для задач информационного поиска

Извлечение значимой информации из web-страниц для задач информационного поиска Извлечение значимой информации из web-страниц для задач информационного поиска М.С. Агеев 1, 2, И.В. Вершинников 2, Б.В. Добров 1, 2 1 Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова

Подробнее

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский Рассматриваются особенности динамической обработки стохастических сигналов с использованием дискретных

Подробнее

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета»

Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Автоматическая классификация текстов Лекция 6 курса «Алгоритмы для Интернета» Юрий Лифшиц 2 ноября 2006 г. Содержание 1. Постановка задачи, подходы и применения 2 1.1. Введение.................................................

Подробнее

Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев

Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев Лекция 10 Многокритериальные задачи принятия решений (продолжение). Нормализация критериев Пусть, как и прежде, необходимо выбрать одно из множества решений X из области их допустимых значений. Но в отличие

Подробнее

HeadHunter на РОМИП-2008

HeadHunter на РОМИП-2008 HeadHunter на РОМИП-28 А.В. Сафронов HeadHunter safronov@hh.ru Аннотация Статья посвящена участию компании HeadHunter в дорожках поиска по документам на семинаре РОМИП-28. Подробно описывается алгоритм

Подробнее

ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ

ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ Филиппович А.Ю., Кирнарский А.Б. ПРОДВИЖЕНИЕ WEB-САЙТОВ НА ОСНОВЕ ДАННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТОВ В настоящее время в среде Интернет активно развиваются технологии web 2.0 (wiki-ресурсы, социальные

Подробнее

ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1

ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1 ПОДХОД К АВТОМАТИЗАЦИИ СБОРА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ИНТЕРНЕТ-ПОРТАЛА ЗНАНИЙ 1 О.И. Боровикова olesya@iis.nsk.su Ю.А. Загорулько zagor@iis.nsk.su Е.А. Сидорова lena@iis.nsk.su Институт систем информатики

Подробнее

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА

МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА МОДЕЛЬ ДЛЯ ИДЕНТИФИКАЦИИ ЕСТЕСТВЕННОГО ЯЗЫКА ТЕКСТА С.В. Гусев, программист ЗАО «НОРСИ-ТРАНС» А.М. Чеповский, кандидат технических наук, профессор кафедры информационных систем Московского государственного

Подробнее

Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком»

Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком» Система фильтрации интернет-ресурсов для образовательных учреждений «Inside ISP Server» на инфраструктуре Саратовского филиала ОАО «Ростелеком» Системы фильтрации, используемые для образовательных учреждений,

Подробнее

Лекция 9. Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция. Лектор Сенько Олег Валентинович

Лекция 9. Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция. Лектор Сенько Олег Валентинович Лекция 9 Структура ошибки выпуклых комбинаций, комитетные методы, логическая коррекция Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег

Подробнее

Контекстно-ассоциативный метод уточнения поисковых запросов и. аннотирования текстовых документов.

Контекстно-ассоциативный метод уточнения поисковых запросов и. аннотирования текстовых документов. Труды РОМИП'2006. (http://romip.naro.ru) Контекстно-ассоциативный метод уточнения поисковых запросов и аннотирования текстовых документов Дмитрий Беляев ОВИОНТ ИНФОРМ belyaev@oviont.ru Аннотация В статье

Подробнее

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы.

План лекции. Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики. Анатомия поисковой системы. План лекции Введение в поисковые системы Лекция N 5 курса Современные задачи теоретической информатики Юрий Лифшиц yura@logic.pdmi.ras.ru 1 Архитектура поисковых систем 2 Алгоритмы поисковых систем PageRank

Подробнее

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА САНКТ- ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МАТЕМАТИКО- МЕХАНИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА КУРСОВАЯ РАБОТА СТУДЕНТА 361 ГРУППЫ КАЛМЫКОВА АЛЕКСЕЯ ВЛАДИМИРОВИЧА

Подробнее

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНКИ ЕСТЕСТВЕННОСТИ ТЕКСТОВ А.В. Юрасов, О.А. Дегтярёва Самарский государственный аэрокосмический университет имени академика С.П. Королёва (национальный исследовательский

Подробнее

RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска

RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска RCO на РОМИП 23: отчет об участии в семинаре по оценке методов информационного поиска Плешко В.В., Ермаков А.Е., Митюнин В.А. ООО «Гарант-Парк-Интернет» rco@metric.ru Аннотация Настоящая работа является

Подробнее

Выявление аномальных значений [M.077]

Выявление аномальных значений [M.077] Выявление аномальных значений [M.77] Часто в больших наборах данных встречаются значения, которые не укладываются в общую модель поведения анализируемого процесса. Такие значения, которые сильно отличаются

Подробнее

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных

Введение в анализ данных: Классификация текста. Юля Киселёва Школа анализа данных Введение в анализ данных: Классификация текста Юля Киселёва juliakiseleva@yandex-team.ru Школа анализа данных План на сегодня Постановка задачи, подходы и применения Построение и обучение классификатора

Подробнее

Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ *

Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ * Известия высших учебных заведений. Поволжский регион УДК 681.31 144 Н. В. Мясникова, М. П. Берестень, В. А. Дудкин ЭКСПРЕСС-АНАЛИЗ СЕЙСМИЧЕСКИХ СИГНАЛОВ * Изложены теоретические основы экспресс-анализа

Подробнее

АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ

АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ АНАЛИЗ ШКОЛЬНОЙ УЧЕБНО-МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ ПО ИНФОРМАТИКЕ НА ПРЕДМЕТ ОБУЧЕНИЯ РАЗРАБОТКЕ САЙТОВ Гаврилов С.В., студент V курса физико-математического факультета МордГПИ, г. Саранск. Сайты являются

Подробнее

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ

ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ И РЕСУРСОВ ИНТЕРНЕТ УДК 519.237 К. В. Воронцов, К. В. Рудаков, В. А. Лексин, А. Н. Ефимов Вычислительный центр РАН, г. Москва, Россия voron@ccas.ru ВЫЯВЛЕНИЕ И ВИЗУАЛИЗАЦИЯ МЕТРИЧЕСКИХ СТРУКТУР НА МНОЖЕСТВАХ ПОЛЬЗОВАТЕЛЕЙ

Подробнее

ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ

ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ТЕХНОЛОГИЯ РАЗРАБОТКИ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ СОЧЕТАНИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ Сидорова Е.А. Российский НИИ Искусственного Интеллекта, г. Новосибирск lena@iis.nsk.su Рассматриваемый

Подробнее

Статистическое исследование алгоритма случайного поиска

Статистическое исследование алгоритма случайного поиска Статистическое исследование алгоритма случайного поиска В. Т. Кушербаева, Ю. А. Сушков Санкт-Петербургский государственный университет 1 В работе рассматривается статистическое исследование одного алгоритма

Подробнее

376 Секция 7. Технологии и системы искусственного интеллекта

376 Секция 7. Технологии и системы искусственного интеллекта 376 Секция 7. Технологии и системы искусственного интеллекта УДК 004.89 А.А. Прокапович, А.А. Егошина Донецкий национальный технический университет, г. Донецк кафедра систем искусственного интеллекта АНАЛИЗ

Подробнее

394 Секция 7. Технологии и системы искусственного интеллекта

394 Секция 7. Технологии и системы искусственного интеллекта 394 Секция 7. Технологии и системы искусственного интеллекта УДК 004.89 Арбузова О.В.,Егошина А.А., Линкин В.О. Донецкий Национальный Технический Университет, г. Донецк кафедра систем искусственного интеллекта

Подробнее

Извлечение терминов из русскоязычных текстов при помощи графовых моделей

Извлечение терминов из русскоязычных текстов при помощи графовых моделей Извлечение терминов из русскоязычных текстов при помощи графовых моделей Усталов Дмитрий Алексеевич dmitry@eveel.ru УрФУ, Екатеринбург, Россия Аннотация. Статья посвящена вопросу извлечения терминов из

Подробнее

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» Аннотация

RCO на РОМИП Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» Аннотация RCO на РОМИП 2004 Плешко В.В., Ермаков А.Е., Голенков В.П. ООО «Гарант-Парк-Интернет» rco@metric.ru Аннотация Настоящая работа является отчетом об экспериментах, проведенных в рамках инициативы РОМИП.

Подробнее

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006

Информационный поиск Архитектура поисковых систем PageRank. Юрий Лифшиц. Осень 2006 Информационный поиск Архитектура поисковых систем PageRank Лекция N 3 курса Алгоритмы для Интернета Юрий Лифшиц ПОМИ РАН - СПбГУ ИТМО Осень 2006 1 / 29 Авторы алгоритмов ссылочной популярности В ноябре

Подробнее

Лекция #12. Базыданных. Михаил Моисеев. Технологиианализа данных

Лекция #12. Базыданных. Михаил Моисеев. Технологиианализа данных Лекция #12 Базыданных Михаил Моисеев Технологиианализа данных СППР Системыподдержки принятия решений (DSS) предоставляют собой инструмент для анализа большого объема данных. 2 Подсистемаввода данных On-Line

Подробнее

Модели информационного поиска

Модели информационного поиска Модели информационного поиска Б. Задача информационного поиска Информационные потребности,документы, cемантическое соответствие: пертинентность Поисковые образы документов: Релевантность Неточность запросов

Подробнее

Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ

Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ Технология смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ М.Г. Крейнес, А.А. Афонин, А.В. Тихонов Рассмотрены особенности технологии смыслового анализа и поиска информации КЛЮЧИ К ТЕКСТУ, характер

Подробнее

КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК

КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК УДК 004.728.4.056.53 КОМПЛЕКСНЫЙ ПОДХОД К ОБНАРУЖЕНИЮ СЕТЕВЫХ АТАК Ульянов М.В. студент гр. ИТб-121, IV курс Научный руководитель: А.В. Протодьяконов, к.т.н., доцент Кузбасский Государственный Технический

Подробнее

Практический опыт применения поисковых технологий для библиотечных фондов

Практический опыт применения поисковых технологий для библиотечных фондов Практический опыт применения поисковых технологий для библиотечных фондов Набатчиков Дмитрий Евгеньевич, ведущий руководитель проектов, Корпорация ЭЛАР, dnabatchikov@elar.ru В докладе рассматриваются потребности

Подробнее

Разработка программных средств создания и ведения классификаторов

Разработка программных средств создания и ведения классификаторов 726 Разработка программных средств создания и ведения классификаторов Захарушкин В.Ф. ( zakharushkin@mail.ru ) Институт физико-технической информатики 1. Введение Создание классификаторов является ответственной

Подробнее

МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А.

МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А. МЕТОД И АЛГОРИТМЫ РЕАЛИЗАЦИИ АДАПТИВНО- ДИНАМИЧЕСКОЙ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Зайцева А.А. Санкт-Петербургский институт информатики и автоматизации РАН СПИИРАН, 14-я линия ВО, д. 39, Санкт-Петербург, 199178

Подробнее

Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства

Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства Повышение качества данных с использованием методики поиска аномалий на примере Портала открытых данных правительства Москвы # 08, август 2014 Кузовлев В. И., Орлов А. О. УДК: 004.052.42 Россия, МГТУ им.

Подробнее

Алгоритмы обучения нейронных сетей [M.165]

Алгоритмы обучения нейронных сетей [M.165] Алгоритмы обучения нейронных сетей [M.165] Обучение нейронных сетей как задача оптимизации Процесс обучения нейронной сети заключается в подстройке весов ее нейронов. Целью обучения является поиск состояния

Подробнее

Системы информационного обеспечения для проведения распределенных научных исследований

Системы информационного обеспечения для проведения распределенных научных исследований Системы информационного обеспечения для проведения распределенных научных исследований План доклада Задачи систем информационного обеспечения распределенных научных исследований Тематический поиск информации

Подробнее

Темы курсовых работ для группы 1-ХД История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию

Темы курсовых работ для группы 1-ХД История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию Темы курсовых работ для группы 1-ХД-44 Наименование 1. История развития вычислительной техники Историческая справка с иллюстрациями. Подготовить презентацию по теме, используя элементы анимации (обязательно)

Подробнее

Занятие 15 Структура процесса информационного поиска представлена на Рис. 58б.

Занятие 15 Структура процесса информационного поиска представлена на Рис. 58б. Занятие 15 Структура процесса информационного а представлена на Рис. 58б. Рис. 58б. Структура процесса информационного а Типология видов а приведена в Таблице 1. Предметному у соответствует ситуация формирования

Подробнее

Категорирование Web сайтов. с неприемлемым содержимым

Категорирование Web сайтов. с неприемлемым содержимым СПИИРАН Категорирование Web сайтов Wb й для систем блокирования Web страниц с неприемлемым содержимым Комашинский Д.В., Котенко И.В., Чечулин А.А., Шоров А.В. (СПИИРАН) Содержание Введение Архитектура

Подробнее

Программные средства создания и наполнения полнотекстовых электронных библиотек

Программные средства создания и наполнения полнотекстовых электронных библиотек Программные средства создания и наполнения полнотекстовых электронных библиотек Г.И. Назаренко 1, В.А. Плотникова 1, И.В. Смирнов 2, И.В. Соченков 2, И.А. Тихомиров 2 1 Медицинский центр Банка России 2

Подробнее

Модуль генерации контента

Модуль генерации контента УЧЕБНЫЙ ЦЕНТР «ТОПЭКСПЕРТ» Модуль генерации контента 9 поток профессионального курса по SEO Работу выполнила: Жанна Тепсуева Модуль генерации контента Описание Модуль позволяет задавать для конкретного

Подробнее

ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой

ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой ЛАБОРАТОРНАЯ РАБОТА 14 Автоматическая классификация статей, связанных с политикой Этот пример основан на "стандартном" наборе новостных документов, публикуемых интернет-сайтом lenta.ru. С данного сайта

Подробнее

ЛУ

ЛУ УТВЕРЖДАЮ Генеральный директор OOO «НПП «ИТБ» А.Ю. Щеглов 2016 г. КОМПЛЕКСНАЯ СИСТЕМА ЗАЩИТЫ ИНФОРМАЦИИ «ПАНЦИРЬ+» ДЛЯ ОС MICROSOFT WINDOWS Настройка и алгоритм контроля доступа к статичным объектам. Создание

Подробнее

Интеллектуальные информационные системы. Тема 1 Модели и методы ИП. Павел Исаакович Браславский весенний семестр 2006

Интеллектуальные информационные системы. Тема 1 Модели и методы ИП. Павел Исаакович Браславский весенний семестр 2006 Интеллектуальные информационные системы Тема 1 Модели и методы ИП Павел Исаакович Браславский pb@imach.uran.ru весенний семестр 2006 План Индексирование Булевская модель Векторная модель Оценка качества

Подробнее

Автоматизация процесса создания цифровых архивов научно-технической документации.

Автоматизация процесса создания цифровых архивов научно-технической документации. Электронные ресурсы и электронные библиотеки: Ежегодный межведомственный сборник научных трудов. М.: ГПНТБ России, 2006, с. 37 42. Автоматизация процесса создания цифровых архивов научно-технической документации.

Подробнее

успешно данный каталог (или какая-то иная поисковая система) дает возможность быстро разыскать необходимый документ.

успешно данный каталог (или какая-то иная поисковая система) дает возможность быстро разыскать необходимый документ. Нохрина В.А. О критериях эффективности каталогизации // Библиотечное дело 2012: Библиотечно-информационная деятельность в пространстве науки культуры и образования материалы семнадцатой международной научной

Подробнее

Анализ формальных понятий и сжатие текстовой информации в задаче автоматизированного контроля знаний. Емельянов Г.М., Михайлов Д.В.

Анализ формальных понятий и сжатие текстовой информации в задаче автоматизированного контроля знаний. Емельянов Г.М., Михайлов Д.В. Анализ формальных понятий и сжатие текстовой информации в задаче автоматизированного контроля знаний. Емельянов Г.М., Михайлов Д.В. Новгородский государственный университет имени Ярослава Мудрого Настоящая

Подробнее

МЕТОДЫ РАНЖИРОВАНИЯ В ПОЛНОТЕКСТОВОМ ПОИСКЕ ПО КОЛЛЕКЦИИ HTML-ДОКУМЕНТОВ FULLTEXT SEARCH RANKING METHODS IN HTML DOCUMENT COLLECTION

МЕТОДЫ РАНЖИРОВАНИЯ В ПОЛНОТЕКСТОВОМ ПОИСКЕ ПО КОЛЛЕКЦИИ HTML-ДОКУМЕНТОВ FULLTEXT SEARCH RANKING METHODS IN HTML DOCUMENT COLLECTION МЕТОДЫ РАНЖИРОВАНИЯ В ПОЛНОТЕКСТОВОМ ПОИСКЕ ПО КОЛЛЕКЦИИ HTML-ДОКУМЕНТОВ FULLTEXT SEARCH RANKING METHODS IN HTML DOCUMENT COLLECTION А.Н. Федоровский (edorovsky@cor.mail.ru) М.Ю. Костин (kostin@cor.mail.ru)

Подробнее

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович

Лекция 4. Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ. Лектор Сенько Олег Валентинович Лекция 4 Статистические методы распознавания, Распознавание при заданной точности для некоторых классов, ROC-анализ Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й

Подробнее

ОПЫТ ВЗАИМОДЕЙСТВИЯ БИБЛИОТЕК г. НОВОУРАЛЬСКА НА БАЗЕ КОРПОРАТИВНОГО БИБЛИОТЕЧНОГО ПАРТНЕРСТВА

ОПЫТ ВЗАИМОДЕЙСТВИЯ БИБЛИОТЕК г. НОВОУРАЛЬСКА НА БАЗЕ КОРПОРАТИВНОГО БИБЛИОТЕЧНОГО ПАРТНЕРСТВА ОПЫТ ВЗАИМОДЕЙСТВИЯ БИБЛИОТЕК г. НОВОУРАЛЬСКА НА БАЗЕ КОРПОРАТИВНОГО БИБЛИОТЕЧНОГО ПАРТНЕРСТВА Н. А. Корнилнцина Сотрудничество библиотек города Новоуральска Свердловской области имеет давнюю историю и

Подробнее

РОЛЬ И МЕСТО БИБЛИОТЕКИ В ФОРМИРОВАНИИ КУЛЬТУРЫ СОВРЕМЕННОГО ЧИТАТЕЛЯ

РОЛЬ И МЕСТО БИБЛИОТЕКИ В ФОРМИРОВАНИИ КУЛЬТУРЫ СОВРЕМЕННОГО ЧИТАТЕЛЯ РОЛЬ И МЕСТО БИБЛИОТЕКИ В ФОРМИРОВАНИИ КУЛЬТУРЫ СОВРЕМЕННОГО ЧИТАТЕЛЯ И.А. Наумов, кандидат философских наук, доцент кафедры «Экономическая теория» Санкт-Петербургского государственного университета путей

Подробнее

Система динамической контентной фильтрации для предотвращения доступа к интернет-ресурсам нежелательной тематики

Система динамической контентной фильтрации для предотвращения доступа к интернет-ресурсам нежелательной тематики Система динамической контентной фильтрации для предотвращения доступа к интернет-ресурсам нежелательной тематики Федеральное государственное бюджетное учреждение науки Институт системного анализа Российской

Подробнее

ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance

ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance Общество с ограниченной ответственностью «Технологии системного анализа» ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АНАЛИЗА БОЛЬШИХ МАССИВОВ ТЕКСТОВ TextAppliance Илья Тихомиров к.т.н. +7

Подробнее

Применение программного продукта «Яндекс. Сервер» для организации поиска в электронном каталоге библиотеки

Применение программного продукта «Яндекс. Сервер» для организации поиска в электронном каталоге библиотеки УДК 025.4.036 : 004.4 ББК 78.362.5 Применение программного продукта «Яндекс. Сервер» для организации поиска в электронном каталоге библиотеки Накопленные библиотеками за последние годы огромные массивы

Подробнее

Поиск информации в Интернете. 8 класс

Поиск информации в Интернете. 8 класс Поиск информации в Интернете. 8 класс Способы поиска информации: Поиск информации одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три

Подробнее

Яндекс на РОМИП Тестирование простой ранжирующей формулы.

Яндекс на РОМИП Тестирование простой ранжирующей формулы. Яндекс на РОМИП-2010. Тестирование простой ранжирующей формулы. Сафронов Александр Яндекс alsafr@yandex-team.ru Аннотация Статья представляет собой отчет об участии в дорожках веб-поиска семинара РОМИП.

Подробнее

Тематика контрольных работ по дисциплине " Компьютерные информационные технологии" для студентов заочной формы обучения.

Тематика контрольных работ по дисциплине  Компьютерные информационные технологии для студентов заочной формы обучения. Тематика контрольных работ по дисциплине " Компьютерные информационные технологии" для студентов заочной формы обучения. Примечание: номер варианта контрольной работы определяется по сумме цифр номера

Подробнее

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428

Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 Кластеризация. Обзор алгоритмов. Агаев Нурлан, 428 План Понятие кластеризации Меры близости Классификация алгоритмов Неиерархические алгоритмы кластеризации Иерархические алгоритмы кластеризации План Понятие

Подробнее

Поиск изображений по визуальному подобию на основе цветовой модели HSV

Поиск изображений по визуальному подобию на основе цветовой модели HSV Поиск изображений по визуальному подобию на основе цветовой модели HSV Крешихин Д.Н. Рязанский Государственный Радиотехнический Университет pelou@yandex.ru Аннотация В статье описана поисковая система,

Подробнее

О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский

Подробнее

Галактика-Зум: Отчет об участии в

Галактика-Зум: Отчет об участии в Галактика-Зум: Отчет об участии в семинаре РОМИП 2004 Антонов А.В, Козачук М.В., Мешков В.С. Корпорация «Галактика» {alexa, kozachuk, meshkov}@galaktika.ru kozachuk Аннотация В статье описывается опыт

Подробнее

ИТОГИ ПРОЕКТА АЙТИ И ВШЭ ТРИ ЗАДАЧИ ДЛЯ ВУЗА: КАК НЕ ПРОПУСТИТЬ НУЖНЫЙ ГРАНТ ИЛИ КОНКУРС НА НИОКР, НАЙТИ ЭКСПЕРТА В НАУЧНОЙ СРЕДЕ И ВЫЯВИТЬ ПЛАГИАТ

ИТОГИ ПРОЕКТА АЙТИ И ВШЭ ТРИ ЗАДАЧИ ДЛЯ ВУЗА: КАК НЕ ПРОПУСТИТЬ НУЖНЫЙ ГРАНТ ИЛИ КОНКУРС НА НИОКР, НАЙТИ ЭКСПЕРТА В НАУЧНОЙ СРЕДЕ И ВЫЯВИТЬ ПЛАГИАТ ИТОГИ ПРОЕКТА АЙТИ И ВШЭ ТРИ ЗАДАЧИ ДЛЯ ВУЗА: КАК НЕ ПРОПУСТИТЬ НУЖНЫЙ ГРАНТ ИЛИ КОНКУРС НА НИОКР, НАЙТИ ЭКСПЕРТА В НАУЧНОЙ СРЕДЕ И ВЫЯВИТЬ ПЛАГИАТ Дмитрий Романов, директор по развитию технологий информационного

Подробнее

В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ

В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ В. В. НЕШИТОЙ МОДЕЛИРОВАНИЕ КРИВОЙ РОСТА И СТАТИСТИЧЕСКОЙ СТРУКТУРЫ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ Рассматривается один класс случайных функций описывающих статистическую зависимость между количеством произведенных

Подробнее

Предположим, требуется визуализировать с помощью таблицы продажу нескольких наименований товаров по нескольким датам и городам (таблица 1).

Предположим, требуется визуализировать с помощью таблицы продажу нескольких наименований товаров по нескольким датам и городам (таблица 1). OLAP-анализ [M.052] Большинство реальных бизнес-процессов являются сложными, поскольку в них участвует много объектов, которые находятся в самых разнообразных отношениях и с каждым из которых может быть

Подробнее

Анализ сетевой нагрузки в распределенной системе организационного управления

Анализ сетевой нагрузки в распределенной системе организационного управления Анализ сетевой нагрузки в распределенной системе организационного управления Д.В. Волчков ИППИ РАН vol@tp.ru В.А. Шарануца ИППИ РАН knshk@mal.ru Аннотация В данной работе предлагается модель оценки сетевой

Подробнее

ПОРТАЛ "ЕДИНОЕ ОКНО ДОСТУПА К ОБРАЗОВАТЕЛЬНЫМ РЕСУРСАМ": КОНЦЕПЦИЯ ПРОЕКТА, ИНФОРМАЦИОННОЕ СОДЕРЖАНИЕ, ОПЫТ СОПРОВОЖДЕНИЯ

ПОРТАЛ ЕДИНОЕ ОКНО ДОСТУПА К ОБРАЗОВАТЕЛЬНЫМ РЕСУРСАМ: КОНЦЕПЦИЯ ПРОЕКТА, ИНФОРМАЦИОННОЕ СОДЕРЖАНИЕ, ОПЫТ СОПРОВОЖДЕНИЯ ПОРТАЛ "ЕДИНОЕ ОКНО ДОСТУПА К ОБРАЗОВАТЕЛЬНЫМ РЕСУРСАМ": КОНЦЕПЦИЯ ПРОЕКТА, ИНФОРМАЦИОННОЕ СОДЕРЖАНИЕ, ОПЫТ СОПРОВОЖДЕНИЯ А. Г. Абрамов, М. Б. Булакина, А. В. Сигалов Государственный научно-исследовательский

Подробнее

Программная реализация семантической модели социально-значимой предметной

Программная реализация семантической модели социально-значимой предметной 1 Программная реализация семантической модели социально-значимой предметной области Зайцева Татьяна Валентиновна, кандидат технических наук, доцент; Пусная Ольга Петровна, аспирант; Шуваева Екатерина Юрьевна,

Подробнее

Конфигурация Переводчик Редакция 2.0 Руководство пользователя

Конфигурация Переводчик Редакция 2.0 Руководство пользователя Конфигурация Переводчик Редакция 2.0 Руководство пользователя Назначение конфигурации Продукт «1С:Переводчик» предназначен для упрощения перевода конфигураций и документации на другие языки, включая тексты

Подробнее

3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ Основные понятия статистической проверки гипотезы

3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ Основные понятия статистической проверки гипотезы 3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,

Подробнее

Приближенная обработка запросов с использованием вейвлет преобразований в OLAP системах.

Приближенная обработка запросов с использованием вейвлет преобразований в OLAP системах. Приближенная обработка запросов с использованием вейвлет преобразований в OLAP системах. Ухаров А.О. oukharov@gmail.com Московский Государственный Технический Университет им Н.Э. Бумана Информационные

Подробнее

b) key[0...10]=[2,1,1,1,1,1,1,1,1,1], n = бит

b) key[0...10]=[2,1,1,1,1,1,1,1,1,1], n = бит Результаты тестирования генераторов псевдослучайных последовательностей, безопасных для конечного пользователя. 1. Как указано в предыдущих статьях, воздействие конечным пользователем на работу генераторов

Подробнее

Реализация географического поиска информации в гетерогенных источниках данных на примере платформы ZooSPACE

Реализация географического поиска информации в гетерогенных источниках данных на примере платформы ZooSPACE Реализация географического поиска информации в гетерогенных источниках данных на примере платформы ZooSPACE Скачков Д. М., Жижимов О. Л. danil.skachkov@gmail.com, zhizhim@sbras.ru Институт вычислительных

Подробнее

ГИБКИЙ ПОДХОД К ПРОБЛЕМЕ ПОИСКА ПОХОЖИХ ДОКУМЕНТОВ Веретенников А.Б.

ГИБКИЙ ПОДХОД К ПРОБЛЕМЕ ПОИСКА ПОХОЖИХ ДОКУМЕНТОВ Веретенников А.Б. ГИБКИЙ ПОДХОД К ПРОБЛЕМЕ ПОИСКА ПОХОЖИХ ДОКУМЕНТОВ Веретенников А.Б. e-mail: abvmt@e1.ru Поиск похожих документов является весьма важной задачей. Рассмотрим электронные библиотеки: над большим объемом

Подробнее

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения

Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения УДК 004.93'1 Реализация и исследование методов автоматической кластеризации текстовых документов с помощью методов машинного обучения Лыфенко Н.Д., аспирант Россия, 125993, г. Москва, Российский государственный

Подробнее

(АИБС) «МегаПро»: Автоматизированная интегрированная библиотечная система. инновационный программный продукт для библиотек и их пользователей АИБС

(АИБС) «МегаПро»: Автоматизированная интегрированная библиотечная система. инновационный программный продукт для библиотек и их пользователей АИБС Автоматизированная интегрированная библиотечная система (АИБС) «МегаПро»: инновационный программный продукт для библиотек и их пользователей Все права на презентацию принадлежат ООО «Дата Экспресс». Несанкционированное

Подробнее

Глава 2. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ NP -ПОЛНОТЫ

Глава 2. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ NP -ПОЛНОТЫ Глава 2. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ NP -ПОЛНОТЫ Определим класс задач распознавания свойств как множество проблем, решением которых является ответ «Да» или «Нет». Приведем пример. Простой цикл, содержащий

Подробнее

АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ ПРОДВИЖЕНИЯ ВЕБ САЙТА

АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ ПРОДВИЖЕНИЯ ВЕБ САЙТА УДК 621.9.048.7 АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ ПРОДВИЖЕНИЯ ВЕБ САЙТА Тихон А.В. БНТУ, МИДО, г. Минск, Беларусь, optimalyo@gmail.com Первое и, пожалуй, самое основное с чего нужно начать процесс поискового

Подробнее

Корень Итераций Корень Итераций. -- вывод о качестве методов после их сравнения по количеству выполненных итераций для достижения заданной точности.

Корень Итераций Корень Итераций. -- вывод о качестве методов после их сравнения по количеству выполненных итераций для достижения заданной точности. Methods.doc Методы приближенных вычислений Стр.1 из 6 Общее условие задачи: Двумя заданными численными методами вычислить приближенное значение корня 1 функционального уравнения вида f()=0 для N значений

Подробнее

Выводы Науч. рук. к.т.н., доц. Звенигородский А.С. Определение биграмм на материале научных текстов по извлечению данных из текстов

Выводы Науч. рук. к.т.н., доц. Звенигородский А.С. Определение биграмм на материале научных текстов по извлечению данных из текстов Рис. 3. Пример сдвига на две позиции Выводы Рассмотренные методы позволяют совершенствовать технологию формирования растровых стереоизображений, а разработанный плагин дает возможность ускорения этого

Подробнее

Resumagic: система автоматической обработки резюме

Resumagic: система автоматической обработки резюме Resumagic: система автоматической обработки резюме Аннотация В статье описывается система Resumagic, предназначенная для автоматической обработки резюме. Рассмотрены задачи фильтрации и классификации резюме.

Подробнее

Яндекс на РОМИП 2010: Поиск похожих изображений и дубликатов

Яндекс на РОМИП 2010: Поиск похожих изображений и дубликатов Яндекс на РОМИП 2010: Поиск похожих изображений и дубликатов Слесарев А.В. 1,2, Мучник И.Б. 3, Михалев Д.К. 1, Крайнов А.Г. 1, Котляров Д.И. 1, Беляев Д.В. 1 1 Яндекс, 2 МФТИ, 3 Университет Ратгерса {slesarev,

Подробнее

Система Управления Проектами Минэкономразвития России

Система Управления Проектами Минэкономразвития России Система Управления Проектами Минэкономразвития России Сведения о заказчике Министерство Экономического Развития и Торговли России. Департамент Корпоративного Управления и Новой Экономики (ДКУНЭ). Описание

Подробнее

2. Цели и задачи электронной библиотеки

2. Цели и задачи электронной библиотеки 1. Общие положения 1.1.Электронная библиотека (далее - ЭБ) Санкт-Петербургской юридической академии это информационная система, позволяющая надежно накапливать, сохранять и эффективно использовать разнообразные

Подробнее

ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение

ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЁ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ 1. Введение Получение признакового описания изображений является одним из главных этапов в таких задачах машинного (технического)

Подробнее

Интеграция информационных систем с применением семантических технологий

Интеграция информационных систем с применением семантических технологий Интеграция информационных систем с применением семантических технологий Сергей Горшков «Бизнес Семантика», Екатеринбург, Россия. serge@business-semantic.ru Аннотация. Статья посвящена описанию способа

Подробнее

Галактика Zoom на РОМИП 2005: оценка модификации метода формирования инфопортрета

Галактика Zoom на РОМИП 2005: оценка модификации метода формирования инфопортрета Галактика Zoom на РОМИП 2005: оценка модификации метода формирования инфопортрета Антонов А. В. Баглей С. Г. Мешков В. С. Корпорация Галактика {alexa, baglei, meshkov}@galaktika.ru Аннотация В статье приводится

Подробнее

АНАЛИЗ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ НА ОСНОВЕ КОРРЕЛЯЦИОННЫХ ОТНОШЕНИЙ 1

АНАЛИЗ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ НА ОСНОВЕ КОРРЕЛЯЦИОННЫХ ОТНОШЕНИЙ 1 УДК 519.33.5 М. А. НОВОЖИЛОВ Санкт-Петербургский политехнический университет Петра Великого Санкт-Петербург АНАЛИЗ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ НА ОСНОВЕ КОРРЕЛЯЦИОННЫХ ОТНОШЕНИЙ 1 В данной работе сформулирована

Подробнее

ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О. И. Кутузов, Т. М. Татарникова, Й. Шанти, С. Амари (Санкт-Петербург)

ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О. И. Кутузов, Т. М. Татарникова, Й. Шанти, С. Амари (Санкт-Петербург) ПОСТАНОВКА ЗАДАЧИ ПО УСКОРЕННОЙ ИМИТАЦИИ СЕТЕЙ ХРАНЕНИЯ ДАННЫХ О И Кутузов, Т М Татарникова, Й Шанти, С Амари (Санкт-Петербург) Традиционные технологии хранения, основанные на выделенных каналах, не обеспечивают

Подробнее

«Библиопортал: что ожидает пользователь?»

«Библиопортал: что ожидает пользователь?» «Библиопортал: что ожидает пользователь?» Достовалов Сергей Сергеевич, программист, Институт корпоративных библиотечно-информационных систем Санкт- Петербургского государственного политехнического университета

Подробнее

1. Численные методы решения уравнений

1. Численные методы решения уравнений 1. Численные методы решения уравнений 1. Системы линейных уравнений. 1.1. Прямые методы. 1.2. Итерационные методы. 2. Нелинейные уравнения. 2.1. Уравнения с одним неизвестным. 2.2. Системы уравнений. 1.

Подробнее