На правах рукописи. Игнатьев Владимир Юрьевич

Save this PDF as:
 WORD  PNG  TXT  JPG

Размер: px
Начинать показ со страницы:

Download "На правах рукописи. Игнатьев Владимир Юрьевич"

Транскрипт

1 Федеральное государственное автономное образовательное учреждения высшего образования «Московский физико-технический институт (государственный университет)» (МФТИ) На правах рукописи Игнатьев Владимир Юрьевич Методы математического моделирования для распознавания и прогнозирования характеристик областей земной поверхности по мультиспектральным космическим изображениям Математическое моделирование, численные методы и комплексы программ (технические науки) диссертация на соискание ученой степени кандидата технических наук Научный руководитель д. ф.-м. н., проф. Цурков В.И. Москва 2017

2 2 Оглавление ОГЛАВЛЕНИЕ 2 ВВЕДЕНИЕ 5 ГЛАВА 1. СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ МОДЕЛЬНЫХ ПРЕДСТАВЛЕНИЙ АНАЛИЗА ДИНАМИКИ И ПРОГНОЗИРОВАНИЯ ХАРАКТЕРИСТИК ОБЛАСТЕЙ ЗЕМНОЙ ПОВЕРХНОСТИ ПО КОСМИЧЕСКИМ ИЗОБРАЖЕНИЯМ РОЛЬ КОСМИЧЕСКИХ ДАННЫХ В ПРОГНОЗИРОВАНИИ ПРОГНОЗИРОВАНИЕ ПО ДАННЫМ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗАДАЧА ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ Спутниковая система мониторинга окружающей среды Космические средства при мониторинге Земли ОБРАБОТКА МУЛЬТИСПЕКТРАЛЬНЫХ ДАННЫХ В ЗАДАЧАХ ПРОГНОЗИРОВАНИЯ СОСТОЯНИЯ ОБЛАСТЕЙ ЗЕМНОЙ ПОВЕРХНОСТИ Географическая привязка изображений Особенности мультиспектральных изображений Оценка состояния различных типов подстилающей поверхности по мультиспектральным изображениям МОДЕЛИ ОЦЕНКИ И ПРОГНОЗИРОВАНИЯ СОСТОЯНИЯ ОБЛАСТЕЙ ЗЕМНОЙ ПОВЕРХНОСТИ Классификация моделей и методов прогнозирования АНАЛИЗ МЕТОДОВ ОЦЕНКИ И ПРОГНОЗИРОВАНИЯ ХАРАКТЕРИСТИК, ОПИСЫВАЮЩИХ СОСТОЯНИЕ ОБЛАСТЕЙ, НА ПРИМЕРЕ ПРОГНОЗИРОВАНИЯ УРОЖАЙНОСТИ Метод выявления года-аналога Регрессионный метод Метод прогнозирования урожайности на основе моделирования прироста биомассы растений Итоги анализа и сопоставления методов прогнозирования урожайности _ 43

3 3 ГЛАВА 2. РАЗРАБОТКА ЧИСЛЕННОГО МЕТОДА ПРОГНОЗИРОВАНИЯ СОСТОЯНИЯ ОБЛАСТЕЙ АНТРОПОГЕННОГО И ПРИРОДНОГО ВОЗДЕЙСТВИЯ ПО КОСМИЧЕСКИМ ИЗОБРАЖЕНИЯМ ПОСТАНОВКА ЗАДАЧИ ВЫБОР ДАННЫХ ДЗЗ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ Получение и предварительная обработка космических изображений ВЫДЕЛЕНИЕ ИНФОРМАТИВНОГО СИГНАЛА ИЗ ПОЛУЧЕННЫХ ДАННЫХ Метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений Детектирование растительности по сериям космических изображениях на основе анализа динамики вегетации Метод уточнения карт растительности ОСНОВНАЯ КОНЦЕПЦИЯ РАЗРАБОТАННОГО МЕТОДА Сезонные и долгосрочные наблюдения Процесс обучения Процесс прогнозирования. 83 ГЛАВА 3. ПОСТРОЕНИЕ МОДЕЛЕЙ ПРОГНОЗА ПЛОДОРОДИЯ И ПРОГНОЗИРОВАНИЕ УРОЖАЙНОСТИ РАЗЛИЧНЫХ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ СОСТОЯНИЯ ОБЛАСТЕЙ ЗЕМНОЙ ПОВЕРХНОСТИ Предикативный вектор, описывающий изменение состояния областей Корреляция индексов состояния областей c их количественными характеристиками ПОСТРОЕНИЕ МОДЕЛИ Общий вид модели плодородия РАЗВИТИЕ МОДЕЛИ ПЛОДОРОДИЯ С УЧЕТОМ СПЕЦИФИКИ ЗАДАЧИ Базовая многомерная модель прогнозирования урожайности Локальная многомерная модель для отдельных областей Модель с мультипликативной поправкой для областей Трендовая модель с мультипликативной поправкой для областей Использование метео-климатических данных для построения предикативного вектора 102

4 Рекомендации по применению разработанных моделей 103 ГЛАВА 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПРИМЕНЕНИЯ ЧИСЛЕННОГО МЕТОДА ДЛЯ ПРОГНОЗИРОВАНИЯ УРОЖАЙНОСТИ РАЗЛИЧНЫХ ОБЛАСТЕЙ РФ И РАЗЛИЧНЫХ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР НАСТРОЙКА МОДЕЛЕЙ ПЛОДОРОДИЯ Планирование численного эксперимента. Сбор данных для численного эксперимента Численный эксперимент Оценка точности прогноза СОПОСТАВЛЕНИЕ РЕЗУЛЬТАТОВ ПРОГНОЗИРОВАНИЯ УРОЖАЙНОСТИ С ИСПОЛЬЗОВАНИЕМ РАЗРАБОТАННЫХ МОДЕЛЕЙ Прогнозы с использованием модели Прогнозы с использованием модели Прогнозы с использованием модели Прогнозы с использованием модели Сравнение моделей ОЦЕНКА СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ ПОЛУЧЕННЫХ ПРОГНОЗОВ ОЦЕНКА ПРИМЕНИМОСТИ МОДЕЛИ ПОСРЕДСТВОМ ПРОЦЕДУРЫ КРОСС-ВАЛИДАЦИИ ЗАВИСИМОСТЬ ТОЧНОСТИ ПРОГНОЗА ОТ МОМЕНТА ПРОГНОЗИРОВАНИЯ И ТИПА С/Х КУЛЬТУРЫ УТОЧНЕНИЕ ПАРАМЕТРОВ ПРОГНОСТИЧЕСКОЙ МОДЕЛИ ПОСЛЕ РАСШИРЕНИЯ ОБУЧАЮЩИХ ДАННЫХ Уточнение оптимального момента прогнозирования и состава вектора состояния растительности для расширенного вектора признаков Прогнозы с использованием уточнённой модели Прогнозы с использованием уточнённой модели Прогнозы с использованием уточнённой модели Прогнозы с использованием уточнённой модели ЗАКЛЮЧЕНИЕ 135 СПИСОК СОКРАЩЕНИЙ 137 СПИСОК ЛИТЕРАТУРЫ 139

5 5 Введение В работе рассматривается задача прогнозирования различных характеристик объектов внутри определённого класса (например, административных регионов РФ) по данным дистанционного зондирования (мультиспектральным аэрокосмическим изображениям). Основной идеей является использование долгосрочных наблюдений за состоянием объекта при обучении многомерных параметрических моделей и сезонных наблюдений при прогнозировании характеристик объектов. Такое структурирование данных обеспечивает увеличение размера обучающей выборки в сравнении с другими известными подходами, что позволяет повысить точность и статистическую значимость прогнозирования, сохраняя при этом надёжность работы моделей. Актуальность темы. Постоянно увеличивающееся число сфер деятельности человека, в которых чрезвычайно важную роль играет использование данных ДЗЗ в силу их объективности и оперативности получения, приводит к росту спроса на методы и программные средства, позволяющие успешно решать актуальные задачи для каждой из областей. Такая востребованность ДДЗ в современном мире способствует запуску новых спутников и постоянному усовершенствованию методов автоматизированной обработки и анализа изображений дистанционного зондирования. Среди наиболее востребованных и сложных задач, решаемых с использованием данных ДЗЗ, выделяются мониторинг, обнаружение чрезвычайных ситуаций и оценка их последствий, моделирование процессов окружающей среды и прогнозирование характеристик объектов на земной поверхности. Одной из наиболее важных и интересных является задача прогнозирования характеристик объектов на земной поверхности по космическим изображениям. Примером является задача прогнозирования урожайности сельскохозяйственных культур в заданном пространственном масштабе. Ключевыми моментами при прогнозировании урожайности на основе ДДЗ являются создание модели прогнозирования определение аналитического вида прогностической функции и процесс обучения созданной модели на основе наземных наблюдений поиск параметров модели наилучшим образом приближающих значения прогностической функции на множестве данных, выбранных для обучения.

6 6 Построение модели прогнозирования урожайности в большинстве случаев основывается либо на непосредственном моделировании процессов роста и созревания культуры, либо на использовании данных ДЗЗ в качестве предикторов прогностической функции совместно с данными наземных наблюдений. В качестве предикторов обычно используются, так называемые, индексы состояния растительности, которые имеют высокий коэффициент корреляции с состоянием исследуемого объекта на земной поверхности. Предложенные в данной работе модели прогнозирования используют новые индексы состояния растительности и являются усовершенствованием моделей второй группы. Качество работы модели прогнозирования урожайности определяется выбором предикторов прогностической функции. В большинстве современных исследований по прогнозированию урожайности на основе данным ДЗЗ используются одноточечные (одномоментные измерения за период вегетации) индексы состояния растительности или набор одноточечных индексов, описывающих изменение параметров различной природы. В данной работе делается попытка использовать для обучения (построения) модели прогнозирования комплексный темпоральный индекс (несколько моментов наблюдения в течение всего периода вегетации), описывающий динамику изменения во времени состояния растительности. Актуальность разработки новых обобщённых методов автоматизированной обработки и анализа изображений дистанционного зондирования возрастает непосредственно для Российской Федерации, которая на сегодняшний день усиленными темпами наращивает свой космический потенциал. Об этом свидетельствует Федеральная космическая программа РФ на гг. Целями данной программы являются: 1. запуск группировки искусственных спутников Земли для решения задач мониторинга окружающей среды (~ 30 КА); 2. создание всероссийского центра данных ДЗЗ централизация процессов получения, хранения, обработки и поставки данных ДЗЗ на всей территории РФ. Предложенный в данной работе обобщённый подход, позволяет прогнозировать значения характеристик объектов на земной поверхности в заданном пространственном масштабе, оценивать точность и значимость получаемых прогнозов. Цель и задачи исследования. создание метода и моделей прогнозирования характеристик областей на поверхности Земли по данным дистанционного зондирования в заданном пространственном масштабе;

7 7 разработка метода выделения областей интереса на основе анализа динамики состояния объектов по разновременным сериям космических изображений; разработка методов валидации и верификации созданных моделей прогнозирования; исследования по выявлению наиболее информативных признаков состояния объектов и зависимости точности прогнозирования от момента совершения прогноза; экспериментальное исследование работоспособности предложенных методов и моделей для прогнозирования урожайности различных сельскохозяйственных культур для набора административных регионов РФ, установление возможности их практического применения. Научная новизна данной работы заключается в том, что в результате проведенных автором исследований: Разработан метод прогнозирования характеристик объектов на поверхности Земли по данным дистанционного зондирования в заданном пространственном масштабе. Создан набор моделей прогнозирования характеристик объектов, принадлежащих к определённому классу процессов или явлений. Разработанные модели выполнены на примере прогнозирования урожайности сельскохозяйственных культур по данным долгосрочных наблюдений за состоянием вегетации. При построении моделей используется комплексный темпоральный индекс состояния вегетации, описывающий динамику изменения во времени состояния растительности, что позволяет значительно повысить заблаговременность осуществляемых прогнозов. Разработан метод выделения областей интереса на основе анализа динамики состояния объектов по разновременным сериям космических изображений. Метод основан на статистическом анализе изменения состояния объектов по данным наблюдений за несколько лет (коллекция спутниковых изображений) с целью построения «трубки» допустимых траекторий индекса состояния пикселя изображения на периоде наблюдений в один год. Такой подход позволяет повысить качество детектирования растительности на спутниковых изображениях в сравнении с поточечной классификацией. Теоретическая значимость работы заключается в разработке новых моделей и методов: метода прогнозирования характеристик областей земной поверхности по мультиспектральным космическим изображениям в заданном пространственном масштабе, метода выделения областей интереса на основе анализа динамики состояния объектов по разновременным сериям

8 8 космических изображений, а также набора моделей прогнозирования характеристик объектов, принадлежащих к определённому классу процессов или явлений. Практическая ценность. Разработанные методы и модели могут быть применены в различных практических приложениях, в которых требуется прогнозирование, статистический анализ характеристик объектов на земной поверхности, классификация, сегментация по мультиспектральным аэрокосмическим изображениям. Программные модули могут быть использованы в составе систем мониторинга объектов нефтегазового комплекса и планирования для обеспечения продовольственной безопасности в региональном и государственном масштабах. Предложенный метод выделения областей интереса на основе анализа динамики состояния объектов может быть использован для выявления аномалий и последствий антропогенного воздействия на окружающую среду по мультиспектральным аэрокосмическим изображениям в авиационных и космических приложениях. Методология и методы исследования. В диссертационной работе использовались методы математического моделирования, многомерной оптимизации и статистического анализа. Результаты расчетов сравнивались с результатами других авторов и экспериментов. На защиту выносятся: 1. Метод прогнозирования характеристик областей земной поверхности по мультиспектральным космическим изображениям в заданном пространственном масштабе. 2. Метод выделения областей интереса на основе анализа динамики состояния объектов по разновременным сериям космических изображений. 3. Набор моделей прогнозирования характеристик объектов, принадлежащих к определённому классу процессов или явлений. Обоснованность и достоверность результатов и выводов. Выводы диссертации обоснованы аналитическими расчетами и подтверждены данными численных экспериментов, полученными с помощью разработанных алгоритмов и комплекса программ. Теоретическую и методологическую основу проведенных разработок и исследований составили труды отечественных и зарубежных авторов в области обработки изображений и прогнозирования на основе данных ДЗЗ, а также технические решения, созданные и опубликованные в российских и зарубежных патентах и свидетельствах на изобретения РФ. Для анализа полученных результатов использовались методы статистической обработки данных. Апробация работы. Основные результаты диссертации докладывались на следующих конференциях:

9 9 4-м международном семинаре «Извлечение информации из изображений. Теория и приложения» (IMTA-4), Барселона, 2013; тема доклада Analysis of large long-term remote Sensing image sequence for agricultural yield forecasting. Международной конференция по «Компьютерной графике, визуализации, компьютерному зрению и обработке изображений» (CGVCVIP-2013), Прага, 2013; тема доклада Trainable method for predicting characteristics of land surface objects. 9-ой международной конференции по «Интеллектуальному анализу данных» (DMIN-13) Лас-Вегас, 2013; тема доклада Efficiency of crop yield forecasting depending on the moment of prediction based on large remote sensing data set. 10-ой, 11-ой, 12-ой всероссийских открытых конференциях «Современные проблемы дистанционного зондирования Земли из космоса» Москва, 2012, 2013, 2014; темы докладов «Прогнозирование урожайности на основе многолетних космических наблюдений за динамикой развития вегетации», «Уточнение нелинейной регрессионной модели прогнозирования урожайности по данным спутникового мониторинга», «Усовершенствование модели прогнозирования урожайности по данным спутникового мониторинга». Международной научной конференция «Открытия и достижения науки» (МДК ) Москва, 2015; тема доклада «Анализ динамики вегетации растительности в импактных районах по космическим изображениям». Публикации. Материалы диссертации опубликованы в 9 печатных работах, из них 3 статьи в журналах из списка ВАК [19, 45, 59], 1 статья индексируется в SCOPUS [45], 2 статьи индексируются в Web of Science [45, 59]. Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Личный вклад в работах с соавторами заключается в следующем: [19] разработка метода прогнозирования урожайности по космическим данным ДЗЗ; [59] усовершенствование метода и моделей прогнозирования урожайности с целью повышения точности и заблаговременности прогнозов; [45] разработка обобщённого метода прогнозирования характеристик объектов на земной поверхности по мультиспектральным космическим изображениям и его программная реализация; проведение вычислительных экспериментов по всем работам [19, 45, 59]. Все представленные в диссертации результаты получены лично автором. Структура и объём диссертации. Диссертация состоит из введения, обзора литературы, 4 глав, заключения, списка сокращений и библиографии. Общий объём диссертации 156

10 10 страниц, из них 107 страниц текста, 45 рисунков и 9 таблиц. Библиография включает 223 наименований на 18 страницах. Краткая характеристика содержания работы. Диссертация включает в себя четыре главы. Глава 1 представляет собой обзор состояния методов и моделей прогнозирования характеристик объектов на земной поверхности по данным ДЗЗ. Описывается роль космических данных при прогнозировании. Рассматриваются особенности обработки мультиспектральных изображений при совместном использовании спутниковых данных с разных сенсоров и данных наземных наблюдений. Проводится анализ методов и моделей прогнозирования урожайности. В Главе 2 рассмотрена задача построения метода прогнозирования характеристик областей на поверхности Земли по данным ДЗЗ в заданном пространственном масштабе. Описывается класс явлений (процессов), для которых целесообразно использование предлагаемого подхода, тем самым определяются границы применимости метода. Формулируется критерий оценки качества прогнозирования, состоящий из 5 пунктов. Ставится задача разработки метода для прогнозирования характеристик объектов на земной поверхности, удовлетворяющего всем пунктам критерия. Описываются основные принципы выбора и систематизации данных ДЗЗ при прогнозировании состояния объектов на земной поверхности. Решение задачи прогнозирования по данным ДЗЗ основывается на выявлении закономерностей по многолетним периодическим наблюдениям. После чего выявленные закономерности применяются к сезонным наблюдениям для текущего года. Такой подход требует предварительного планирования, которое определяет выбор исходных данных, в том числе выбираются конкретный тип спутниковых изображений для использования, продолжительность многолетних и сезонных наблюдений, области интереса. Разработанный метод прогнозирования предполагает наличие коллекции изображений ДЗЗ, которые регистрируют состояние объектов на земной поверхности в течение продолжительного промежутка времени нескольких лет. Все изображения структурируются в многослойные датасеты по признаку области интереса. Датасет представляет собой многослойное изображение, каждый слой которого соответствует наблюдению, проведённому в определенный момент времени, то есть объединение спутниковых изображений происходит вдоль оси времени в порядке его увеличения внутри одного года. Поскольку объекты на изображении зачастую представлены вместе с прилегающей к их границам территории, то для выделения информативного сигнала разработан специальный

11 11 метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений. Суть метода заключается в следующем: для каждого пикселя многослойного изображения, которое описывает наблюдения за состоянием области интереса в течение одного года, строится «разрез» в направлении оси времени. Данный разрез рассматривается как вектор состояния территории, соответствующей одному пикселю. Процедура классификации пикселей многослойного изображения осуществляется с использованием построенной заранее «трубки» допустимых траекторий индекса состояния области интереса. В процессе классификации компоненты вектора состояния пикселя рассматриваются как точки некоторой кривой, которая относится к интересующему классу, если кривая динамики состояния попадает в «трубку» допустимых траекторий по заданному критерию. Данный метод также позволяет отбраковывать «битые» пиксели изображения, которые, например, могут являться результатом постобработки спутникового изображения для устранения влияния атмосферы. Сформулирована основная концепция метода прогнозирования, которая оперирует такими понятиями как сезонные и долгосрочные наблюдения. Разработанный метод прогнозирования состояния характеристик областей на поверхности Земли по данным ДЗЗ в заданном пространственном масштабе состоит в том, что наблюдения за состоянием области интереса накапливается в течение нескольких лет (не менее 5), образуя долгосрочные наблюдения. Сезонные наблюдения входят в состав долгосрочных наблюдений, обладают фиксированной продолжительностью внутри одного года и описываются вектором состояния n r области интереса 1,..., p rp Vr v v p M n. Для прогнозирования характеристик области интереса используется набор параметрических моделей, заранее обученных на данных долгосрочных наблюдений. Прогнозирование осуществляется посредством подстановки вектора состояния n rp r t p области для тестовых лет Vr p v vm n в модель прогнозирования. 1,..., t В главе 3 строятся математические модели, описывающие процесс изменения состояния областей земной поверхности, и приводятся рекомендации по применению созданных моделей. В качестве примера полученные модели применяются для прогнозирования урожайности сельскохозяйственных культур. В главе также рассматриваются физические основы для прогнозирования характеристик областей на поверхности Земли по данным ДЗЗ. Описан выбор информативных признаков для формирования предикативного вектора состояния областей.

12 12 В основе всех построенных моделей плодородия лежит зависимость между состоянием растительности в вегетационный период и собранным урожаем. Другими словами, если состояние растительности хорошее на протяжении всего периода роста, то вероятность получить хороший урожай увеличивается. В том же случае, если в какой-либо промежуток произрастания состояние растительность отклонилось в сторону ухудшения, то вероятность получить хороший урожай уменьшается. Урожай определённой культуры на заданной территории должен достаточно достоверно предсказываться функцией, параметрами которой являются усреднённые (по этой территории) значения вегетационных индексов в течение роста и созревания сельскохозяйственной культуры. Чем полнее история изменения индексов, тем точнее можно предсказывать урожай. На базе этой идеи и предположения о том, что вариативность изменений урожая по отношению к амплитуде мала, выводится общий вид прогностической функции линейной многомерной параметрической модели. Эксперименты с общей линейной моделью показали, что для повышения точности и значимости прогнозов необходимо учитывать специфику решаемой задачи, делая дополнительные априорные предположения об объектах, характеристики которых прогнозируются. В результате экспериментов с описанной многомерной моделью и накопленными данными выяснилось, что точность модели можно существенно улучшить, добавив в модель нелинейные члены и адаптировав ее к структуре имеющихся данных ДЗЗ. Итеративные изменения начальной модели описаны ниже и условно обозначены следующим образом: модель 1: Базовая многомерная модель; модель 2: Локальная многомерная модель для отдельных областей; модель 3: Модель с мультипликативной поправкой для областей; модель 4: Трендовая модель с мультипликативной поправкой для областей. Предлагается новый предикативный вектор на основе комбинации температурного и вегетационного индексов состояния растительности, учитывающий наблюдения в дневное и ночное время суток. В Главе 4 представлены анализ результатов применения метода для прогнозирования урожайности различных областей РФ и различных сельскохозяйственных культур. Методы и модели были реализованы на языке Matlab, часть процедур предварительной обработки изображений, включая структурирование данных в датасеты и геопривязку, выполнены на языке IDL 8.0.

13 13 Обучение моделей проводится с использованием алгоритмов многомерной оптимизации. Результатом прогнозирования является ожидаемое значение урожайности сельскохозяйственных культур для различных территорий. Проводится анализ применимости моделей с помощью процедуры кросс-валидации. Оценивается значимость полученных прогнозов. Получены и проанализированы графики зависимости точности прогнозирования от продолжительности сезонных наблюдений и момента прогнозирования. Приводятся результаты вычислительных экспериментов с набором моделей, описанных в главе 3. Проводятся две серии экспериментов с различным количеством областей интереса и продолжительность долгосрочных наблюдений.

14 14 Глава 1. Состояние и перспективы развития модельных представлений анализа динамики и прогнозирования характеристик областей земной поверхности по космическим изображениям На сегодняшний день методы дистанционного зондирования являются наиболее перспективными и быстро развивающимися в сфере осуществления мониторинга характеристик различных объектов и областей на земной поверхности [161]. 1.1 Роль космических данных в прогнозировании Достоинством методов ДЗЗ является относительно низкая ресурсозатратность по сравнению с другими подходами. В качестве источников спутниковой информации можно использовать базы данных со свободным доступом через интернет, хранящие обширные коллекции спутниковых изображений. Еще одним преимуществом методов дистанционного зондирования является высокая оперативность наблюдений за территориями с широким пространственным охватом. Особое место принадлежит методам спутникового мониторинга, которые позволяют получать информацию о состоянии объектов земной поверхности в широком спектральном диапазоне. Доступность данных и возможность обрабатывать изображения с пространственным разрешением от нескольких километров до дециметра в долгосрочных временных сериях является определяющим фактором для большого круга практических задач [10]. Регистрируемые сенсором спутника параметры объектов, получаемые из данных дистанционного зондирования Земли (ДЗЗ), используются в ряде методов для оценки и прогнозирования характеристик областей земной поверхности (которые не могут быть получены непосредственно из данных ДЗЗ). Эти методы успешно апробированы для решения таких задач, как прогнозирование ожидаемого урожая [19, 45, 59, ], оценка

15 15 экологического состояния окружающей среды [12, 13, 24], изучение и прогнозирование стихийных бедствий [27]. Большинство методов, предложенных в этих исследованиях, позволяют решать проблему только для определенного типа явлений. Сложность реализации и большое количество входных данных приводят к необходимости создания обобщенных методов и программных средств обработки космической информации [12, 13, 18], которые обладают универсальностью и применимы для различных задач прогнозирования. 1.2 Прогнозирование по данным дистанционного зондирования Решение задачи прогнозирования базируется на одном из фундаментальных постулатов физики, который был сформулирован К. Шенноном: основные закономерности, наблюдавшиеся в прошлом, сохраняются в будущем [58]. Поиск и формализация закономерностей исследуемого процесса являются этапами решения задачи прогнозирования. Поскольку речь идет о прошлом и будущем, то очевидно присутствие в явном или неявном виде временного параметра. Рассмотрим основные понятия прогнозирования. Определение 1.1. Прогноз это процесс или результат предсказания тех или иных фактов, событий, явлений, величин, которые станут известны лишь в будущем по отношению к моменту времени, в котором создается прогноз. Под прогнозом также иногда понимают модель будущего события, явления и т. п. Определение 1.2. Прогнозирование это процесс (часто основанный на научном исследовании) по расчёту прогноза или разработке прогнозной модели. В узком смысле под прогнозированием понимают предсказание будущих значений временного ряда на основе его значений в прошлом, и, возможно, дополнительной информации. Такую дополнительную информацию представляют влияющие на ситуацию внешние факторы. Отдельно стоят методы прогнозирования, разработанные специально для финансовой сферы, поскольку в их основе лежат внутренние закономерности в появлении значений параметров процесса или объекта на определённом временном промежутке, то есть без учёта внешних факторов. Активные исследования в этой прикладной области привели к появлению ряда именных моделей прогнозирования модели Брауна [115, 116], Хольта [138], Хольта- Уинтерса [218], Тейла-Вейджа [207].

16 16 С развитием техники, компьютерных технологий и усовершенствования вычислительных машин становится возможным обработка большого количества данных. Актуальность задачи предсказания становится очевидной для прогнозирования долговечности объектов (приборов, деталей) [66], прогноза погоды и климатических условий, природных катастроф и т.д. После запуска первого спутника с установленной аппаратурой для осуществления съемки поверхности Земли в различных спектральных диапазонах появляется необходимость в интеграции космических данных в существующие модели и методы прогнозирования и в разработке новых методов и моделей. Определение 1.3. Прогностическая функция описывает аналитический вид зависимости между набором предикторов и прогнозируемым значением. Определение 1.4. Предиктор независимая переменная прогностической функции, на основании значений которой совершается прогнозирование. В качестве набора предикторов могут выступать как параметры непосредственно объекта (процесса), характеристики которого прогнозируются, так и параметры сторонних объектов (процессов), связанных с прогнозируемым значением. Определяющую роль при выборе предикторов (см. Опр. 1.4) прогностической функции (см. Опр. 1.3) и их количества, помимо решаемой задачи, играют входные данные. На сегодняшний день космические данные представлены в огромном количестве, поэтому рассмотрение вопроса какие данные существуют, и как на их основе выбрать наиболее подходящие предикторы описывается в параграфах 2.2 и 3.1. Перечисленные выше примеры областей применения прогнозных методов изначально не предполагают использования данных ДЗЗ в качестве основы при осуществлении прогноза. Тем не менее, с момента запуска первого спутника ДЗЗ и до сегодняшнего дня в методы прогнозирования, моделирования и мониторинга активно развиваются, а применение данных ДЗЗ происходит практически во всех сферах деятельности человека. Примерами наиболее успешного использования ДДЗ для прогнозирования являются следующие направления: 1. Предупреждение чрезвычайных ситуаций и природных катастроф [27] (выброс вредных веществ в последствие пожаров [14], землетрясения [20, 21, 22, 112], извержения вулканов [140] и т.д). Примерами внешних факторов, которые вычисляются по аэрокосмическим изображениям в задачах 1-ой группы, являются площадь земной поверхности, уровень ионизации атмосферы, состояние глубинных разломов в земной коре и т.д.

17 17 2. Прогнозы погодных явлений (наводнения [103], перемещение циклонов [155], ураганов [28], засухи [147], повышение пространственного разрешения прогноза погоды [143]). Примерами внешних факторов, которые вычисляются по аэрокосмическим изображениям в задачах 2-ой группы, являются температура земной (морской) поверхности, влажность почвы, уровень запаса воды для данной территории, скорость ветра и т.д. 3. Сельскохозяйственное производство (прогноз ожидаемого урожая [53, 79, 167, 195], деградация и эрозия почв [29]). Примерами внешних факторов, которые вычисляются по аэрокосмическим изображениям в задачах 3-ей группы, являются состояние растительности, влажность почвы, химический состав почвы, температура земной поверхности и т.д. 4. распространения заболеваний (эпидемия малярии [217]). Примерами внешних факторов, которые вычисляются по аэрокосмическим изображениям в задачах 4-ой группы, являются испарение влаги с поверхности земли, температура земной поверхности, число выпавших осадков, коэффициент отражения земной поверхности и т.д. 5. Распространение и миграция популяций растений и животных (распространение китов [107], рыболовство [178]). Примерами внешних факторов, которые вычисляются по аэрокосмическим изображениям в задачах 5-ой группы, являются температура морской поверхности, геострофическая скорость и т.д. Возникает потребность в разработке обобщенного метода прогнозирования состояния объектов подстилающей поверхности с использованием спутниковых изображений. Необходимо разработать комплексный подход, сочетающий архивные данные дистанционного зондирования и наземные измерения характеристик изучаемых объектов за предыдущие годы, который позволит осуществлять прогноз состояния объектов в заданном пространственном масштабе [83]. Наличие такой комбинации исторических данных дает возможность обучать модель прогнозирования и осуществлять заблаговременный прогноз состояния объектов подстилающей поверхности. Разработка такого метода позволит расширить круг задач мониторинга окружающей среды.

18 Задача дистанционного зондирования Спутниковая система мониторинга окружающей среды Космическая деятельность занимает особое место в процессах информатизации и глобализации мирового сообщества, в обеспечении национальной безопасности, а также при решении многих научно-исследовательских задач и социально-экономических проблем. С использованием космической техники решается ряд актуальных проблем для совокупности атмосфера океан поверхность биосфера, в том числе дают возможность оценивать и прогнозировать изменения параметров состояния окружающей среды под воздействием антропогенных и природных факторов. Уникальность методов дистанционного зондирования Земли из космоса (ДЗЗ) заключается в возможности получения достоверной информацию об объектах на земной поверхности в различном пространственном масштабе с разными пространственным и временным разрешениями. Космическая съемка земной Земли позволяет определять совокупность (физических, химических, биологических, геометрических) параметров объектов наблюдения в различных средах Земли. Принципиальная возможность такого широкого мониторинга состояния объектов устанавливается наличием функциональной зависимости между инструментальной способностью космической аппаратуры и целевыми параметрами, которая определяется излучательной способностью объектов наблюдения.

19 19 Рисунок 1.1 Диаграмма спектральных характеристик объектов наблюдения на земной поверхности и некоторых сенсоров, установленных на космических аппаратах ДЗЗ [94] Представленная на рисунке 1.1 диаграмма спектральных характеристик иллюстрирует наиболее информативные диапазоны длин волн для описания отражательной способности объектов исследования и процессов, происходящих с ними. Информационная спутниковая система [3], часто применяемая при мониторинге окружающей среды с использованием спутниковых аппаратов, представлена на рисунке 1.2.

20 20 Спутниковая система Характеристики: - многоспектральная съемка - пространственное разрешение - полоса обзора - оперативность, регулярность съемки Функции: наблюдение анализ прогноз Состав: орбитальный сегмент - космические платформы - бортовые измерители - управление платформой и измерителем земной сегмент - сеть станций наблюдения - интегрированные базы данных - управление платформой - компьютерное моделирование - ГИС технологии Рисунок 1.2 Модель спутниковой системы мониторинга окружающей среды [94] Структура спутниковая система мониторинга включает наземную и орбитальную составляющие: первая обеспечивает наблюдение, выполняет функции оценки и прогноза, а вторая осуществляет функции наблюдения и предварительной обработки данных. Для решения задачи прогнозирования существенными оказываются оперативное предоставление данных пользователям и регулярность проведения съемок [94] Космические средства при мониторинге Земли Космический мониторинг Земли начался в 1960-е гг. с запуска американских и советских метеорологических разведывательных спутников серий Tiros, ESSA, Nimbus, ITOS, Метеор. За последующие десятилетия информационные возможности и целевое применение космических

21 21 аппаратов ДЗЗ значительно расширились. Метеорологические искусственные спутники Земли (ИСЗ) сменились спутниковыми системами, предназначенными для мониторинга окружающей среды, исследований динамики планетарных процессов и изучения природных ресурсов Земли. На сегодняшний день первое место по количеству спутниковых систем гражданского назначения занимают США: спутники метеорологической системы NOAA запускаются с 1970 г.; геостационарные спутники системы GOES запускаются с 1975 г.; спутники система DMSP, принадлежащая министерству обороны США, запускаются с 1966 г. В середине 1990-х гг. была создана Национальная спутниковая системы мониторинга окружающей среды путём объединения военной DMSP и гражданской NOAA спутниковых систем. В рамках этой программы произведён запуск серии исследовательских спутников: Wind в 1994 г., Coriolis в 2003 г. В рамках национальной программы USGCRP исследуются глобальные процессы с учетом их взаимодействия и влияния на состояние окружающей среды. Наиболее современной и предполагающей всестороннее изучение планеты представляется программа EOS, план которой опубликован в 2001 г. NASA [177]. Согласно программе EOS, к 2015 г. предстоит решить следующие задачи: 10-летний прогноз климата; месячный прогноз явления Эль-Ниньо [124]; 12-месячный прогноз выпадения дождей в региональном масштабе; 60-дневный прогноз извержения вулканов; суточный прогноз погоды; 5-дневный прогноз маршрутов ураганов с точностью 30 км; 1-5-летний экспериментальный прогноз землетрясений. В России в соответствии с Федеральной космической программой проводятся значительные работы по дистанционному зондированию Земли из космоса. Декларируются следующие направления [93]: расширение знаний о Земле; мониторинг окружающей среды и контроль чрезвычайных ситуаций; повышение эффективности промышленного сырьевого секторов, транспорта, энергетики и др. Начиная с 1990-х гг. в России для изучения природных ресурсов и осуществления мониторинга окружающей среды на орбиту последовательно запущены спутники «Ресурс-О1»

22 22 (запускаются с 1980 г.) и океанографические «Океан-О1» (запускаются с 1979 г.). В настоящее время наиболее перспективными с точки зрения пространственного разрешения и ширины захвата съемки являются спутники серии «Ресурс-П» (модификации 1, 2, 3), не уступающие зарубежным аналогам. К числу наиболее значимых космических программ наблюдения Земли относятся: европейская программа мониторинга и обеспечения безопасности Земли GMES, базирующуюся на КА Envisat (запуск в 2002 г.) и Metop; канадская космическая программа с применением спутников Radarsat (запускаются с 1995 г.); японская программа наблюдения Земли на базе ИСЗ ADEOS (запускаются с 1996 г.); индийскую систему дистанционного зондирования IRS (запускаются с 1988 г.). 1.4 Обработка мультиспектральных данных в задачах прогнозирования состояния областей земной поверхности Помимо выбора соответствующего спектрального диапазона для установления связи между излучательной способностью объектов и процессов и их состоянием, необходимо осуществлять пространственную локализацию объектов или областей интереса на изображении. Для этих целей используют методы детектирования объектов на изображениях [135], либо если изображение имеет геопривязку, то местоположение области интереса определяется с помощью географических координат пикселей. Изображения одной и той же территории, полученных в разных спектральных диапазонах, объединяются в мультиспектральные (или многоканальные) изображения [139]. На основе мультиспектральных изображений возможно получение, так называемых, индексов, которые оказываются более информативными в задачах мониторинга и прогнозирования состояния областей интереса, чем отдельные каналы того же изображения.

23 Географическая привязка изображений Географическая привязка изображения подразумевает установление взаимно однозначного соответствия между координатами пикселей изображения и положением в системе координат, заданной на земной поверхности. Можно представить результат геопривязки как совмещение отображаемой на снимке территории и соответствующей ей области на земной поверхности. На сегодняшний день форма поверхности Земли моделируется геоидом [42], с нанесёнными на нём широтами и меридианами. Глобальные географические координаты на поверхности Земли определяются двумя числами широтой и долготой, которые отсчитываются от экватора (нулевой широты) и Гринвича (нулевого меридиана) соответственно. Переход от координат на плоскости к глобальным географическим координатам может осуществляться двумя путями: 1. прямое преобразование xy, f, ; 2. последовательное преобразование с использованием проекции. Необходимость перехода к проекции плоских прямоугольных координат обоснована отличием формы земной поверхности от плоскости. Суть перехода к проекционным координатам состоит в том, что вся поверхность эллипса разбивается на отдельные зоны, на которых осуществляется пересчёт в одну из известных проекций [42, 166, 201]. Когда определена проекция, дальнейшие преобразования производятся из одних прямоугольных координат в другие. Существуют два способа геопривязки изображения: 1. с использованием опорных точек; 2. с использованием опорного изображения. В первом подходе соответствие между координатами изображения и глобальными координатами строится с использованием алгоритмов деформации по набору точек изображения, для которых известны значения соответствующих глобальных координат. Наиболее распространёнными методами этой группы основаны на использовании аффинного преобразования, полиномиального преобразования [135] и триангуляции Делоне [85] в сочетании с алгоритмами изменения масштаба изображения. Вторая группа методов основана на алгоритмах совмещения опорного и исходного изображений. В результате совмещения каждому пикселю опорного изображения ставится в

24 24 соответствие один пиксель исходного изображения, автоматически определяя таким образом глобальные координаты последнего. Методы второй группы используют ригидное (сохраняет расстояние и углы) [130], аффинное, проективное, перспективное [135, 219] и полиномиальное преобразования. Среди всех методов совмещения выделяются алгоритмы на основе преобразования Фурье, поскольку преобразования Фурье-образов могут одновременно учитывать все виды трансформаций (параллельный перенос, поворот, масштабирование и т.д.), перечисленных выше преобразований. Эффективными методами совмещения являются алгоритмы на основе выделения инвариантных признаков на изображении: SURF [106], SIFT [162]. Данные геопривязки позволяют выделять на изображении области интереса (см. Опр. 2.7), используя географические координаты граничных точек области интереса. Геопривязка позволяет совмещать данные, полученные с различных аппаратов и различных сенсоров, что делает возможным проведение совместного анализа не только разновременных спутниковых изображений, но и снятых в разных спектральных диапазонах. Также геопривяка необходима при совмещении данных дистанционного зондирования с данными наземных наблюдений Особенности мультиспектральных изображений В процессе спектральной съёмки формируется многомерное изображение, так называемый куб данных, в котором два измерения фиксируют пространственное положение объектов местности на плоскости, а третье их сигнатуру. Вследствие этого каждый пиксель изображения характеризуется своим собственным набором спектральных яркостей. При обработке мультиспектральное изображение иногда удобно называть многоканальным, поскольку изображение территории, полученное в определённом спектральном диапазоне, записывается в отдельный канал. Мультиспектральные спутниковые данные ДЗЗ применяются для решения широкого круга задач: получение геологической и географической (картографической) информации; получение оценок состояния растительного и почвенного покровов, экологической обстановки, последствий чрезвычайных ситуаций;

25 25 получение данных для решения задач управления хозяйством и территориями, для финансирования сельского хозяйства. прогнозирование чрезвычайных ситуаций (землетрясения, наводнения, пожары и т.д.); моделирование климата и прогнозы погоды. Описание и характеристики каналов аппаратуры TM и ETM+ КА Landsat 7 приведено в работе [158]. В задачах дешифрирования, визуального анализа и представления космических изображений используются комбинации различных спектральных каналов. Основные комбинации каналов на примере данных оптико-электронной съемочной аппаратуры TM и ETM+ КА Landsat 7 описаны в работах [41, 185]. Выделяются наиболее информативными для задач распознавания и мониторинга состояния объектов являются следующие комбинациями каналов: видимые красный 3, зелёный 2, синий 1 (детектирование водных объектов); ближний ИК 4, видимые красный 3 и зелёный 2 (композиция «искусственные цвета» для визуализации в различных задачах); ближний ИК 4, коротковолновый инфракрасный 5, видимый красный 3 (анализа состояния растительности и поверхностных горных пород); ближний ИК 4, коротковолновый инфракрасный 5, видимый синий 1 (изучения здоровья растительности и водных объектов) Оценка состояния различных типов подстилающей поверхности по мультиспектральным изображениям Индекс это показатель, рассчитываемый в результате операций с разными спектральными диапазонами (каналами) ДДЗ, и имеющий отношение к параметрам определённого типа подстилающей поверхности в данном пикселе снимка. Индексы состояния различных типов земной поверхности разрабатываются для решения задач, требующих наличия высокого уровня корреляции между состоянием исследуемого объекта или процесса и данными дистанционного зондирования (моделирование физических процессов, прогнозирование характеристик объектов на земной поверхности, классификация различных типов подстилающей поверхности и т.д.).

26 26 В таблице 1.1 приведены группы индексов, объединённых по признаку целевой принадлежности. Таблица 1.1 Основные индексы, которые могут быть вычислены и при обработке информации спектральных каналов спутниковой аппаратуры ДЗЗ [1]. Название группы индексов Вегетационные индексы (RED видимый красный канал, BLUE видимый синий канал, NIR ближний инфракрасный канал, SWIR коротковолновый инфракрасный канал) Описание индексов (VI vegetation index) 1. Normalized Difference VI [193]: NDVI NIR RED NIR RED RVI 1 RVI Vegetation condition index [99]: VCI NDVI NDVImin NDVImax NDVImin, где max, min максимальное и минимальное значения NDVI за ПН. 3. Difference VI [210]: DVI NIR RED. 4. Perpendicular VI [183]: PVI sin NIR cos RED, где угол между почвенной линией и осью NIR. 5. Normalized Difference Water Index [131]: NIR SWIR NDWI. NIR SWIR 6. Three Channel VI [31]: RED GREEN NIR RED TCHVI RED GREEN NIR RED NDVI NDVI 7. Enhanced VI [142]: EVI 2.5 NIR RED NIR 6RED 7.5BLUE 1 8. Leaf area index [109, 153]: LAI 3.618EVI Устойчивые к влиянию почвы: SAVI NIR RED NIR RED L 1 L, 1. Soil Adjusted VI [141]: L 0,1, 0 L для наибольшего индекса облиствения, L 1для наименьшего, оптимальное значение L Производные от SAVI индексы: TSAVI [104], MSAVI 1 [183], MSAVI 2 [184].

27 27 Индексы устойчивые к влиянию атмосферы: 1. Global Environmental Monitoring Index [181]: GEMI E E RED RED, где NIR RED 1.5NIR 0.5RED E. NIR RED 0.5 ARVI NIR Rb NIR Rb, где 2. Atmospherically Resistant VI [150]: Rb RED a RED BLUE, как правило, a 1 растительности и неизвестном типе атмосферы a 0.5., при малом покрытии GVI 0.29MSS 0.56MSS 0.6MSS 0.49MSS, где 3. Green VI [151]: MSS n данные n -го канале сенсора MSS [159]. Почвенные индексы 1. Salinity Index [152]: 2 2 SI B B, где 1 2 нм, поверхности при длине волны поверхности при длине волны нм. B яркость участка 1 B яркость участка 2 2. Normalized Difference Salinity Index [152]: NDSI B B B, где B яркость участка поверхности при длине волны нм. Температурные индексы 1. Temperature Condition Index [154]: TCI T T T T, где T min max min температура поверхности земли, рассчитанная для данного пикселя, T min минимальная температура за ПН, T max максимальная температура за ПН. Индекс снежного и ледового покрова 1. Normalized Difference Snow Index [137]: NDSI B B B B где 4, B яркость участка поверхности при длине волны 4 545,565 нм, B яркость участка поверхности при длине волны ,1652 нм. Как видно из таблицы 1.1 больше всего индексов, рассчитываемых по мультиспектральным данным, относится к группе вегетационных индексов. Создание такого большого числа различных индексов состояния связано с открытием в 1976 году Kauth и Thomas области в NIR-RED спектральном пространстве данных MSS [151], которая

28 28 представляет собой, так называемый, «треугольник с кисточкой». Наивысшая точка треугольника (которая лежит в области низкого отражения в красной области спектра и высокого отражения в ближнем инфракрасном) соответствует районам с обильной растительностью, а плоская часть треугольника, лежащая напротив конца треугольника, соответствует голой почве. Дальнейшие экспериментальные исследования с использованием эталонных изображений почвы для различной плотности растительного покрова позволили построить, так называемую, почвенную линию [91], которая разграничивает область на две зоны: точки, соответствующие территории, покрытой растительностью; точки, соответствующие голой почве. На сегодняшний день разработано большое количество индексов (см. Табл. 1.1). Этот факт мотивирован желанием получить индекс, наилучшим образом характеризующий состояние определённого типа подстилающей поверхности или наблюдаемого процесса. Индексы успешно применяются для решения различных задач: 1. оценка и прогнозирование ожидаемого урожая [53, 79, 167, 195]; 2. оценка и прогнозирование деградации почвы [28]; 3. построение карт растительности [98, 220]; 4. оценка и прогнозирование засух [99, 147]; 5. повышение пространственного разрешения прогноза погоды [143]; 6. мониторинг ледовой и снеговой обстановки [194, 209]; 7. оценка экологического состояния окружающей среды [12, 14]; 8. предупреждение стихийных бедствий [27]. 1.5 Модели оценки и прогнозирования состояния областей земной поверхности Как видно из предыдущих разделов, задача прогнозирования является актуальной математической и технической проблемой, а реализация прогностических моделей в виде программных комплексов оказывается востребованной в различных прикладных сферах

29 29 человеческой деятельности. Это приводит к бурному росту числа методов данной области. Приведем общую классификацию методов и моделей прогнозирования Классификация моделей и методов прогнозирования Определение 1.5. Метод прогнозирования представляет собой последовательность действий, которые нужно совершить, чтобы получить модель прогнозирования. Определение 1.6. Модель прогнозирования есть функциональное представление, адекватно описывающее исследуемый процесс и являющееся основой для получения его будущих значений. В настоящее время принято использовать английские аббревиатуры названий как моделей, так и методов. Например, существует знаменитая модель прогнозирования авторегрессия проинтегрированного скользящего среднего с учетом внешнего фактора ARIMAX [126]. Эту модель и соответствующий ей метод обычно называют ARIMAX, а иногда моделью (методом) Бокса-Дженкинса по имени авторов. Понятие «метод прогнозирования» шире понятия «модель прогнозирования». В связи с этим на первом этапе классификации обычно делят методы на две группы: интуитивные и формализованные [90]. Методы прогнозирования Экспертные методы (имеют дело с суждениями) Формализованные методы (имеют дело с матем. моделями) Рисунок 1.3 Классификация методов прогнозирования [95] Экспертные методы прогнозирования, а также технология, в которой они используются (технология экспертного прогнозирования), наиболее полно и системно отражены в работах [102, 82]. Коротко говоря, они представляют собой методы получения новой информации о будущем от экспертов, причём эти методы не используют внутри себя каких-либо предустановленных предположений о характере взаимосвязей в некоторой предметной области.

30 30 Из наиболее известных прогнозных экспертных методов стоит отметить следующие: 1. Метод комиссий [2, 87]. 2. Процедура дельфи [2, 39]. 3. Морфологический анализ [47, 87]. 4. «Мозговая атака» [2, 87]. 5. Метод фокальных объектов [1, 64, 65,77]. 6. Метод контрольных вопросов [56]. Формализованные методы описанные в литературе методы прогнозирования, в результате которых строятся модели прогнозирования, в которых определяется математическая зависимость, позволяющая вычислить будущее значение параметров процесса, то есть сделать прогноз. Перейдем к общей классификации моделей прогнозирования. На первом этапе модели следует разделить на две группы: модели предметной области и модели временных рядов. Формализованные методы (имеют дело с матем. моделями) Модели предметной области (термодинамика, механика, фундаментальный анализ и др.) Модели временных рядов (ищут зависимости внутри самого процесса) Рисунок 1.4 Классификация формализованных методов прогнозирования [95] Модели предметной области такие математические модели прогнозирования, для построения которых используют законы предметной области. Например, модель, на которой делают прогноз погоды, содержит уравнения динамики жидкостей и термодинамики. Словом, в таких моделях используются зависимости, свойственные конкретной предметной области. Такого рода моделям свойственен индивидуальный подход в разработке. Модели временных рядов математические модели прогнозирования, которые стремятся найти зависимость будущего значения от прошлого внутри самого процесса и на этой зависимости вычислить прогноз. Эти модели универсальны для различных предметных областей, то есть их общий вид не меняется в зависимости от природы временного ряда. Классифицируем модели временных рядов. Составление общей классификации моделей предметной области не представляется возможным: сколько областей, столько и моделей. Однако модели временных рядов поддаются

31 31 достаточно четкому делению [148]. Модели временных рядов можно разделить на две группы: статистические и структурные. Модели временных рядов (ищут зависимости внутри самого процесса) Статистические модели (регрессия, авторегрессия, экспонен. сглаживание и т.д.) Структурные модели (нейронные сети, цепи Маркова, классификационные деревья и т.д.) Рисунок 1.5 Классификация методов прогнозирования на основе моделей временных рядов [95] В статистических моделях зависимость будущего значения от прошлого задается в виде некоторого уравнения. К ним относятся: 1. регрессионные модели (линейная регрессия, нелинейная регрессия); 2. авторегрессионные модели (ARIMAX, GARCH [110], ARDL [179]); 3. модель экспоненциального сглаживания; 4. модель по выборке максимального подобия. В структурных моделях зависимость будущего значения от прошлого задается в виде некоторой структуры и правил перехода по ней. К ним относятся: 1. нейросетевые модели; 2. модели на базе цепей Маркова; 3. модели на базе классификационно-регрессионных деревьев. Представленные в обеих группах модели прогнозирования являются наиболее распространёнными и подробно описанными. На сегодняшний день для построения прогнозов активно используются модели на основе SVM (support vector machine) и GA (genetic algorithm). Таким образом, следующая классификация моделей и методов прогнозирования имеет место (см. Рис. 1.6).

32 32 Экспертные методы (имеют дело с суждениями) Методы прогнозирования Формализованные методы (имеют дело с матем. моделями) Классификация методов Модели предметной области (термодинамика, механика, фундаментальный анализ и др.) Модели временных рядов (ищут зависимости внутри самого процесса) Классификация моделей Статистические модели (регрессия, авторегрессия, экспонен. сглаживание и т.д.) Структурные модели (нейронные сети, цепи Маркова, классификационные деревья и т.д.) Рисунок 1.6 Общая схема классификации методов прогнозирования [95] 1.6 Анализ методов оценки и прогнозирования характеристик, описывающих состояние областей, на примере прогнозирования урожайности Методы распознавания и прогнозирования характеристик областей на поверхности Земли находят применение в таких задачах, как оценка экологической среды [15, 111], изучение и прогнозирование стихийных бедствий [27] и прогнозирование ожидаемого урожая [53, 79, 81, 114]. Рассмотрим задачу прогнозирования урожайности с использованием космических изображений, решение которой является примером конкретной реализации предлагаемых в

33 33 работе методов и моделей. Эта задача представляет особый интерес для исследований, поскольку существующие подходы обладают определенными недостатками, трудно преодолимыми в рамках только одного из них. Помимо этого, урожайность сельскохозяйственных культур на определенной территории может рассматриваться в роли индикатора качества окружающей среды и, в частности, почвенного покрова. Оценка состояния почв, растительности и прогнозирование урожайности сельскохозяйственных культур составляют основу современного подхода к исследованиям в области сельского хозяйства [215] и экономического планирования в аграрной промышленности [171]. Наиболее перспективные направления исследований связаны с ассимиляцией данных дистанционного зондирования Земли в существующие модели развития растений и созданием новых методов на их основе [133]. Следует отметить важность практического применения результатов прогнозирования урожайности для задач аграрной отрасли РФ. Данные дистанционного зондирования широко применяются при прогнозировании и оценке урожайности различными сельскохозяйственными организациями РФ, в частности, большое количество исследовательских и прикладных работ проведено в Российском государственном аграрном университете МСХА имени К.А. Тимирязева [5, 35, 43, 57, 62, 88]. На сегодняшний день подходы к прогнозированию урожайности можно разделить на методы, применяющие оценки физических факторов окружающей среды, методы на основе прямых оценок содержания хлорофилла и методы, использующие данные дистанционного зондирования Земли. Прикладное значение оценки состояния и прогнозирования урожайности сельскохозяйственных культур выделено в ряде международных и национальных программ. Так, оценка состояния растительности в контексте систем поддержки принятия решений для проблем устойчивого развития и экономической безопасности определена приоритетным заданием международной «системы систем» GEOSS [133]. В рамках реализации Common Agricultural Policy [206] Европейским союзом поддерживается проект MARS [167], результатом которого является получение прогноза урожайности основных сельскохозяйственных культур (для злаковых заявлена точность более 1 ц/га [188]). Растения обладают уникальным спектром поглощения, определяемым наличием различных пигментов, содержанием воды и физической структурой листьев [116]. Спектр меняется с течением времени в зависимости от фазы развития, биологического вида, состояния

34 34 окружающей среды и состояния растения [116]. Поэтому спектр поглощения принципиально может быть использован для задач оценки состояния растительности. На уровне растительного покрова идентификация химических составляющих растений представляется сложной задачей, так как отражение сильно зависит от размеров, ориентации листьев, плотности растительности и характеристик среды, таких как тип грунта и угол падения лучей Солнца [117]. Несмотря на это, некоторые биохимические свойства растений могут быть восстановлены по спектру отражения растительного покрова. Известны успешные применения спектра отражения для идентификации вида растений [199], мониторинга содержания воды и характеристик удобрений в почве [160], задач фенологии растений [186], оценки площади лиственного покрытия (leaf area index, LAI) [100], оценки биомассы [200]. Среди методов на основе оценок физических параметров окружающей среды наиболее распространенными являются статистические методы и механистические модели роста растений. Статистические методы прогнозирования урожайности на основе оценки физических факторов среды используют предположение о существовании простой зависимости между характеристиками окружающей среды и урожайностью. Для выявления такой зависимости применяются методы линейного и нелинейного регрессионного анализа, нейронные сети [121]; исследованы зависимости урожайности от состава почвы (CEC, ph, содержание органических веществ, фосфора, кальция, магния, калия), характеристик почвы (текстура, тип, глубина верхнего слоя), метеорологических параметров (осадки, температура, солнечная радиация) [121]. Методы данного класса редко применимы на практике вследствие большой трудоемкости необходимых наземных измерений и сложности исследуемых зависимостей. Механистические модели роста используются для исследования процесса усвоение углерода и прироста биомассы. Как правило, моделируется рост растений под влиянием метеорологических параметров, характеристик грунта и состава вносимых удобрений; типичными входными данными являются температура, количество осадков, количество солнечной радиации; количество и тип удобрений, плотность насаждений, параметры ирригации и обработки, тип, глубина верхнего слоя, содержание гумуса в почве. Большинство моделей применимы только к одному виду растений, например, SOYGRO для бобовых [216], CERES-Maize [191] для кукурузы, CERES-Wheat [190] для пшеницы, WARM для риса [119]. Известны также универсальные модели SUCROS [202], STICS [114], WOFOST [204]. Преимущества механистических моделей физическая обоснованность и меньшие требования

35 35 к объемам калибровочных данных по сравнению со статистическими моделями. Среди недостатков рассматриваемых моделей вычислительная сложность. Методы на основе прямых оценок содержания хлорофилла основаны на наземных измерениях SPAD датчиков [108]. Применение таких подходов обосновано высокой степенью корреляции между количеством хлорофилла и урожайностью, выявленной для различных сельскохозяйственных культур. Область применения методов ограничена в связи с необходимостью большого количества наземных измерений. Методы прогнозирования урожайности на основе данных дистанционного зондирования Земли можно разделить на два класса: 1. методы, связывающие урожайность и спектральные характеристики с использованием регрессионных моделей и вегетационных индексов; 2. методы, использующие оценки состояния растительности (такие как LAI и биомасса) по данным ДЗЗ для калибровки механистических моделей роста. Внутри этих двух больших классов методы можно объединить в группы по следующим признакам: пространственный масштаб моделей прогнозирования; виды и количество сельскохозяйственных культур, для которых возможно осуществить прогноз; наличие, так называемых, масок посевов [89]. Под пространственным масштабом модели понимается минимальная площадь земной поверхности, для которой можно оценить или спрогнозировать ожидаемое значение урожайности с помощью данной модели. Подходы, обладающие приведенными выше признаками, зачастую попадают сразу в несколько групп. Например, большая часть методов первой группы позволяет осуществлять прогноз на масштабе характерном для территории засеянной определенной культурой. Такое ограничение связано с использованием масок посевов в рассматриваемых подходах, что автоматически относит их и к третьей группе методов этого класса. В настоящее время разработаны и применяются на практике различные подходы к прогнозированию урожайности, в том числе: анализ тренда и цикличности в динамичности урожайности [7, 68, 69, 70, 132]; выявление года-аналога [37, 187, 195, 196];

36 36 построение регрессионных зависимостей между различными статистическими данными и различными данными, полученными на основе дистанционных и метеорологических наблюдений (далее «регрессионный метод») [53, 132, 92]; моделирование [84, 132]; на основе анализа синоптических процессов [36, 71, 203, 213]. Ниже приводиться описание некоторых из вышеперечисленных методов, которые наиболее активно применяются в современных разработках Метод выявления года-аналога Основная идея метода прогнозирования урожайности по году-аналогу заключается в том, что если посевы определенной культуры в регионе развивались в текущем сезоне также как в каком-либо прошлом сезоне, то и урожайность должна быть близка к урожайности этого года-аналога [37]. Под сезоном понимается временной интервал, на протяжении которого наблюдаются активные процессы роста и созревания сельскохозяйственной культуры. Спутниковые данные являются надёжным инструментом оценки подобной схожести в развитии посевов. При этом состояние посевов анализируется по прямым признакам на основе анализа динамики различных индексов, полученных на основе спутниковых данных, отражающих состояние растительного покрова. Тем самым косвенно учитывается влияние на растения большинства факторов, предопределяющих их развитие (включая метеоусловия, в том числе и экстремальные, использование удобрений и ядохимикатов, специфика агротехники и т.п.). Неоптимальность этих факторов приводит к изменению состояния посевов, что отражается на динамике измеряемых вегетационных индексов. Одним из преимуществ данного подхода является также возможность выявления годааналога в отдельности для каждой возделываемой культуры (при наличии маски её посевов, которая также может быть восстановлена с использованием спутниковых данных [89]). Известно, что разные сельскохозяйственные растения по-разному реагируют на изменение условий роста [61, 128]. Поэтому, изменение этих условий может приводить к гибели одной культуры, и слабо влиять на развитие другой, находящейся в том же регионе. Как хорошо видно, например, из рисунка 1.7, ход сезона вегетации для озимых и для яровых в пределах Краснодарского края в 2009 году сильно отличался.

37 37 Рисунок 1.7 Ход вегетационного индекса NDVI, осредненного для полей с озимыми (пунктир с точкой) и яровыми (пунктирная линия) культурами (2009 год, Краснодарский край) [79] Кроме общей оценки хода текущего вегетационного сезона, метод года-аналога позволяет оперативно выявлять регионы, где посевы повреждаются в результате воздействия неблагоприятных погодных или фитосанитарных условий (засуха, заморозки, условия перезимовки, саранча и т.п.). Используя метод года-аналога, оценивается в первом приближении величина ожидаемого урожая культуры в конкретном регионе. Подобные оценки можно получать с начала сезона вегетации и обновлять их до окончания сезона по мере получения дополнительных спутниковых данных. Так, например, анализ года-аналога для сезона 2000/2010 года позволяет получить оценку ожидаемой урожайности озимой пшеницы в разрезе некоторых субъектов РФ в следующем виде Рис. 1.8.

38 38 Рисунок 1.8 Ожидаемая урожайность озимой пшеницы в 2010 году (оценка по методу года-аналога) [79] Условные обозначения для рисунка 1.8: I ниже среднего (регионы, где посевов культуры более 10% от общей посевной площади); Is ниже среднего (регионы, где посевов культуры менее 10% от общей посевной площади); h выше среднего (регионы, где посевов культуры более 10% от общей посевной площади); hs выше среднего (регионы, где посевов культуры менее 10% от общей посевной площади); m - близко к среднему (регионы, где посевов культуры более 10% от общей посевной площади); ms близко к среднему (регионы, где посевов культуры менее 10% от общей посевной площади). Следует отметить, что при использовании данного метода необходимо принимать во внимание то, что на характер осредненной кривой вегетационного индекса большое влияние может оказывать сдвиг сезона вегетации из-за метеорологических условий, а также изменение от года к году площадей посевов отдельных культур. Также необходимо указать на то, что сам метод установления года-аналога может быть разным для разных регионов и для разных культур и должен определяться опытным путем с учётом специфики возделывания культуры и доли её посевов в регионе.

39 Регрессионный метод Особенности использования регрессионного метода заключаются в построении функции, в данном случае прогностической (см. Опр. 1.3), для значений урожайности за предыдущие годы с различными предикторами (см. Опр. 1.4), получаемыми на основе спутниковых данных [6]. Естественно, что в качестве предикторов могут использоваться совершенно различные характеристики. Наиболее информативными для построения предикторов считаются следующие данные [105]: 1. вегетационный индекс NDVI, рассчитанный по данным приборов SPOT-VEGETATION (спутники SPOT) и MODIS (спутники Terra и Aqua); 2. метеорологические данные о температуре и осадках [123]; 3. карта пахотных земель, созданная по базе данных GLS 2000 [134]; 4. карта земель с посевами озимых культур, построенная на базе данных MODIS [72]. С помощью этих данных для каждого региона, для которого имеются статистические данные об урожайности, могут быть построены, например, следующие предикторы, осредненные по различным типам земель (пахотным, занятым озимыми культурами, покрытыми лесом и т.д.). 1. сезонный максимум NDVI по данным SPOT-VEGETATION; 2. максимальное значение NDVI по данным SPOT-VEGETATION за октябрь - декабрь прошлого года; 3. значение NDVI по данным SPOT-VEGETATION во время цветения озимой пшеницы. Для вычисления времени цветения вычислялась сумма среднесуточных температур, превышавших 10 С, с февраля месяца конкретного года. Дата, когда эта сумма достигала 500 С, принималась условно за дату цветения. 4. значения NDVI по данным SPOT-VEGETATION для различных сумм температур (200 С, 300 С, 400 С, и.т.д.); 5. значения NDVI по данным SPOT-VEGETATION за каждую декаду в году; 6. сезонный максимум NDVI по данным MODIS; 7. значения NDVI по данным MODIS за каждую неделю;

40 40 8. различные климатические параметры, такие как средняя температура воздуха за октябрь - ноябрь предыдущего года, средняя температура за март - апрель, абсолютный минимум температур в мае, сумма осадков за период август - сентябрь. Используя значения этих признаков за текущий год и уравнение парной линейной регрессии, построенное по значениям набора предикторов (1-8) за прошлые годы, предсказывается значение урожайности различных культур в текущем сезоне. Из множества всех построенных регрессий для предсказания урожайности естественно выбирать наиболее качественные регрессии. Критерием качества может, например, являться квадрат корреляции между значениями предиктора и урожайности за прошлые годы [173]. Такой подход даёт разные результаты для различных культур. Детальный анализ, проведенный на примере озимой пшеницы, показывает, что по данным предикторам почти в каждом регионе России удается построить приемлемые уравнения регрессии (квадрат корреляции для которых больше 0.8), по которым в дальнейшем можно предсказать урожайность в данном регионе [6]. Для регионов, где нельзя построить приемлемое уравнение парной регрессии, строятся множественные регрессии с использованием тех же предикторов (1-8). При построении регрессии, наиболее результативны предикторы из наборов 4, 5 и 7. Предикторы из наборов 1, 2, 3 и 6 позволяют построить меньшее количество качественных регрессий. Предикторы из набора 8 дают крайне малое количество хороших регрессий, но при этом они позволяют построить достаточно качественные множественные регрессии для многих регионов [72]. Недостаток метода связан с сильной зависимостью яркости в исследуемых спектральных диапазонах от параметров среды, в частности атмосферы, угла падения света, типа почвы [117]. Подход, основанный на регрессионном анализе, при наличии достаточно протяженного ряда качественных спутниковых данных (10 лет) позволяет получить достаточно хорошие результаты [79]. Для улучшения точности получаемых прогнозов можно вводить дополнительные, более информативные предикторы, а также использовать различные множественные регрессии. В настоящее время работы по развитию данного подхода и анализу возможностей его применения для прогнозирования урожайности различных культур ведутся достаточно активно.

41 Метод прогнозирования урожайности на основе моделирования прироста биомассы растений С использованием этого метода моделирование ведется для полей, где присутствуют посевы растений в текущем сезоне вегетации (см. Опр. 2.13). Такие поля распознаются по космическим данным на основе методов, изложенных в работе [80]. В рамках данных подходов, идентификация полей с посевами проводится в начале сезона вегетации. После этого, начинается моделирование нарастания биомассы с начала сезона вегетации на каждом конкретном поле. В основу моделирования ежедневного прироста биомассы положены подходы, разработанные Ничипоровичем [63] и Monteith [172]. Их суть заключается в том, что рост растений потенциально предопределяется приходящей радиацией. Потенциальный рост может ограничиваться температурными условиями, избытком радиации и доступностью растениям влаги. Влияние на рост растений таких факторов, как доступность питательных элементов, а также болезней и вредителей растений в данном подходе не учитывается. При этом считается, что лимитирующее влияние этих факторов может быть учтено опосредованно, через изменение площади ассимиляционного аппарата, который характеризует количество листьев на растении. Кроме того, при построении модели учитывается, что при соблюдении агротехники возделывания риса влияние такого фактора, как доступность влаги, можно не учитывать. Таким образом, модель накопления биомассы растениями в общем виде может быть записана следующим образом [79]: где Bd масса растения, накопленная за день; LUE эффективность использования света растением; Bd LUE fapar PAR RES, (1.1) fapar фракция абсорбированной растительным покровом радиации; PAR фотосинтетически активная радиация; RES респирация состояния растения. Эффективность использования растениями света оценивается следующим образом: где LUE эффективность использования света растением; LUE LUEmax Ct Cr, (1.2) LUE max максимальная эффективность использования света растением;

42 42 C t поправка на температурные условия; C r поправка на количество приходящей радиации. Для оценки максимальной эффективности использования света растениями используется подход, предложенный в работе [192]. Расчет поправки на неоптимальные температуры проводится по формуле, приведенной в [222]. При избытке приходящей радиации фотосинтез замедляется из-за насыщения энзимных цепей, и это учитывается путем введения поправки на избыточность приходящей радиации [118]. Респирация состояния для риса рассчитывается следующим образом [79]: где RES респирация состояния; B t биомасса растения; T d средняя суточная температура воздуха; T 10 0,015 2 d T RES B mr t, (1.3) T mr средняя взвешенная суточная температура воздуха за предыдущие 10 дней. В качестве источника ежедневных метеорологических данных при моделировании использована информация глобальной модели атмосферы, разработанной в ECMWF [122]. Данные представлены в виде точек с расстоянием друг от друга в 1 градус. Пример результатов моделирования нарастания биомассы для орошаемого массива Сарпинской степи в Калмыкии для сезонов годов, полученных с использованием спутниковых данных MODIS, представлен на рисунке 1.9. Рисунок 1.9 Количество ассимилированного за день вещества для одного из полей с посевами [79]

43 43 На основе результатов моделирования по отдельным полям может быть рассчитана средневзвешенная величина накопленной биомассы для всего массива. Величины урожайности, получаемые по результатам моделирования, достаточно хорошо воспроизводят динамику официальной статистической урожайности [79]. Более низкие значения официальной статистической урожайности могут быть связаны с тем, что моделирование ведется на уровне отдельных полей, и при расчетах не учитываются потери урожая при уборке и транспортировке зерна, которые заложены в официальную статистическую информацию. Таким образом, данный подход позволяет оценивать урожайность с достаточно большой заблаговременностью, в середине сезона вегетации. Моделирование нарастания биомассы проводится на уровне отдельных полей. Преимуществом подобного подхода к прогнозированию урожайности является полная независимость получаемых результатов от статистических данных, что позволяет рассматривать разработанный подход как надежное средство независимого контроля качества статистической информации, поступающей с мест. В тоже время отсутствие гибкости этого метода не позволяет «настоять» модель на особенности вегетации отдельно взятого региона. Кроме того, жесткая модель не учитывает особенности культивации различных сельскохозяйственных культур, что делает ее в отличие от разработанного в данной работе метода менее робастной Итоги анализа и сопоставления методов прогнозирования урожайности В обобщенном виде основные преимущества и недостатки подходов можно представить в виде таблицы 1.2. Несмотря на отмеченные недостатки спутниковых методов прогнозирования урожайности и их недостаточную развитость на данный момент, они, безусловно, являются наиболее перспективными в связи с их объективностью, оперативностью, охватом больших территорий. Использование результатов прогнозирования урожайности на основе спутниковых данных наряду с результатами, полученными другими методами, на наш взгляд может позволить повысить как качество прогнозов, так и их заблаговременность, что, безусловно,

44 44 необходимо для повышения эффективности принятия различных управленческих решений в области сельского хозяйства. Таблица 1.2 Преимущества и недостатки разных методов прогнозирования урожайности по спутниковым данным среднего пространственного разрешения. Подход Преимущества Недостатки Анализ тренда и цикличности Год-аналог Большая заблаговременность простота использования в автоматическом режиме, отсутствие необходимости предварительной калибровки. Недостаточная точность необходимость учета изменений площадей сева, более подходят для качественного прогноза, сильно зависит от специфики конкретного региона. Регрессионный метод количественный прогноз, большая заблаговременность отсутствие необходимости в полевых данных. отсутствие больших выборок для построения регрессии, неизвестное качество данных официальной статистики, позднее появление данных официальной статистики за прошлый сезон. Моделирование независимость от официальной статистики, хорошая заблаговременность, возможность учета при необходимости сортовых различий. сложность алгоритмов, необходимость калибровки по полевым данным, необходимость наличия маски полей с конкретной культурой. Анализа синоптических процессов Большая заблаговременность. Недостаточная точность.

45 45 Глава 2. Разработка численного метода прогнозирования состояния областей антропогенного и природного воздействия по космическим изображениям В главе рассматривается метод прогнозирования характеристик областей на поверхности Земли по данным ДЗЗ в заданном пространственном масштабе. Описывается класс явлений (процессов), для которых целесообразно использование предлагаемого подхода, тем самым определяются границы применимости метода. Описывается процесс получения космических изображений, а также их предварительная обработка и процедура извлечения информативного сигнала из полученных данных. Рассматриваются основные этапы метода: процесс обучения и процесс прогнозирования. Приводится описание с применением двух дополнительных методов, разработанных с целью улучшения качества прогнозирования: метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений; метод уточнения карт растительности. Приведём необходимые для описания разработанных методов определения. Все описываемые методы связаны с обработкой цифровых изображений. В данном случае используются изображения только в растровом представлении. Определение 2.1. Растровое изображение представляет собой двумерное дискретное поле яркости Bx, y, где xy, - координаты строки и столбца изображения соответственно. Пиксель это элемент изображения, лежащий на пересечении соответствующих строки и столбца. Каждому пикселю ставится в соответствие некоторая величина, которая называется яркостью пикселя. Совокупность всех пикселей изображения составляет прямоугольную таблицу или матрицу чисел B. Таким образом, двумерное поле яркости Bx, y является отображением из пространства целочисленных координат (x, y) Z 2 действительных R или целых чисел Z Z 2 B(x,y) R (Z 2 B(x,y) Z) в пространство. (2.1)

46 46 Поскольку используемые цифровые изображения являются результатом регистрации электромагнитного излучения, отражённого от поверхности Земли, необходимо установить соответствие между объектами на земной поверхности и объектами на изображении. Определение 2.2. Объектом на изображении называется связная область, которая соответствует определённому типу объектов на земной поверхности. Определение 2.3. Множество пикселей, у каждого пикселя которого есть хотя бы один сосед, принадлежащий данному множеству, называется связной областью. Соседство пикселей в обработке изображений традиционно определяется двумя видами связности, которые проиллюстрированы на рисунке s s (а) (б) Рисунок 2.1 Виды соседств пикселя s : (а) 4-х связность (соседи пикселя s обозначены цифрами от 1 до 4), (б) 8-и связность (соседи пикселя s обозначены цифрами от 1 до 8) пикселя, c Обозначим множество пикселей объекта на изображении C, а множество соседей A c B. Тогда граница объекта C определяется следующим образом. Определение 2.4. Пиксель c C называется граничной точкой множества C, если для выбранной связности (см. Рис. 2.1) выполняется условие c C A C, c A : c C. (2.2) c Определение 2.5. Совокупность всех граничных пикселей множества C образует границу объекта C. c

47 Постановка задачи После серии запусков погодных спутников, начавшейся в 1960 с аппарата TIROS-1 [208], были получены первые успешные прогнозы на основе космических изображений. Можно считать этот год отправной точкой начала активного внедрения космических данных при решении задачи прогнозирования состояния областей на земной поверхности. Как отмечалось в пункте 1.3.1, тремя основными функциями, которые выполняет спутниковая система мониторинга, являются наблюдение, анализ и прогноз (см. Рис. 1.2). Реализация функции наблюдения осуществляется КА, совершающим орбитальные полёты и регистрирующим излучение, приходящее с поверхности Земли. Результатом наблюдения являются обширные коллекции изображений. Чтобы понять насколько значительные объёмы информации поступают на наземные станции-приемники, оценим количество изображений, получаемых в год со спутника Terra (сенсор MODIS) [170, 205], например, для территории московской области. Рассмотрим пример космических данных, предоставляемых в виде 16- дневных композитных изображений [164] с линейным пространственным разрешением 500 метров. Определение 2.6. Пространственное разрешение изображения земной поверхности определяется как плотность пикселов в изображении, которая измеряется в пикселях на единицу площади подстилающей поверхности. Понятие пространственного разрешения связывает объекты на изображении и объекты на земной поверхности через определение границы объекта. Область, «вырезанная» из изображения по границе объекта с учётом пространственного разрешения, то есть размеров пикселя, накрывает область объекта на земной поверхности. Пространственное разрешение изображения 500 метров означает, что плотность пикселей на изображении территории размером 500 метров 500 метров равна 1. Информация по одному спектральному каналу для территории Московской области занимает примерно 2 Мб. Сенсор MODIS снимает в 36 спектральных диапазонах, то есть гипотетически имеется 36 изображений по 2 Мб, что для годового периода наблюдений составляет 365 дней 3 Данныеза год 2Мб на канал *36каналов * 1,6*10 Мб. Далее 16 дней в композите положим, что общее число лет равно 10, а количество областей, участвующих в мониторинге 10. Тогда объём данных возрастёт еще на 2 порядка и составит 5 1,6*10 Мб. Стоит отметить,

48 48 что данная оценка является достаточно скромной, поскольку в реальных задачах мониторинга количество областей интереса и продолжительность наблюдений имеют порядки 2 10 областей и 40 лет, при этом частота наблюдений, как и пространственное разрешение могут быть заметно выше, что также приводит к росту объёма информации. Таким образом, приходим к необходимости решения задачи обработки большого объёма данных и выделения информативных признаков из этих данных. Две другие функции системы мониторинга анализ и прогноз реализуются уже на Земле. Для того чтобы прогнозировать характеристики объектов на земной поверхности по коллекции изображений за несколько лет, необходимо выполнение следующих процедур: предварительная обработка изображений; анализ по выявлению наиболее информативных признаков; построение модели, наилучшим образом описывающей происходящие процессы; получение прогнозов и оценка их точности. Качество моделей и методов прогнозирования определяется следующими показателями: 1) Заблаговременность прогноза временной промежуток от момента прогнозирования до желаемого момента измерения характеристики объекта. 2) Точность прогноза количественная оценка, с помощью которой устанавливается степень близости между полученным в результате прогнозирования значением характеристики объекта и его реальным значением. 3) Пространственный масштаб модели прогнозирования определяется характерным размером области земной поверхности, характеристика которой прогнозируется. Выделяются три пространственных масштаба прогнозирования: локальный, региональный и глобальный. 4) Универсальность модели возможность осуществлять прогноз для различных характеристик внутри одного класса объектов. 5) Обобщающая способность моделей прогнозирования. Описанные в главе 1 методы и модели прогнозирования характеристик объектов на земной поверхности по данным ДЗЗ имеют достаточно хорошие значения только по одному из показателей (т.е. либо только точности, либо только заблаговременности прогноза [79, 188]), но не могут удовлетворить совокупности критериев 1)-5). В большинстве случаев модели оказываются настроены только на определённый тип характеристик внутри одного класса объектов [108, 119, 190], что снижает универсальность моделей при прогнозировании даже внутри одного класса объектов.

49 49 Пусть имеется коллекция космических изображений { } S s s 1, охватывающих период наблюдений за Nˆ 1,..., N размерами лет. Изображение s является параллелепипедом с i, j, k, где k задает число каналов, а i, j определяют размеры каждого канала. Таким образом, формируются многоканальные изображения. Их называют мультиспектральными в том случае, когда в каждый канал записывается изображение, снятое в определенном спектральном диапазоне длин волн. Исключительно для лучшего понимания удобно представлять такое изображение в качестве многослойного «бутерброда», каждый слой которого несёт в себе определенную информацию о территории (см. Рис. 2.2). Множество измерений (набор изображений s ) внутри n -го года обозначим Пусть задан набор областей интереса R { r } P p p1. g, n S, g S, n Nˆ. (2.3) n n Определение 2.7. Область интереса G это область на земной поверхности, имеющая установленные границы. Определение 2.8. Граница области интереса G является замкнутой линией, которая задаётся последовательностью точек вместе с их координатами (географическими координатами для геопривязанных изображений). Определение 2.9. Областью интереса на изображении называется множество пикселей, ограниченных линией G. Выделение области интереса на геопривязанных изображениях земной поверхности осуществляется с использованием границы области интереса. Процесс выделения области интереса на изображении B сводится к проверке выполнения условия где x y x y max max min min x, y координаты точки с ; c c G cb : x x x, y y y, (2.4) min c max min c max max x верхняя граница для x -координаты точек G gg g ; max y верхняя граница для y -координаты точек G gg g ; min x нижняя граница для x -координаты точек G gg g ; min y нижняя граница для y -координаты точек G gg g.

50 50 Пусть на изображении B заданы объекты, C C B и области интереса G, G B. Тогда отличие области интереса от объекта на изображении заключается в выполнении следующего условия и также возможными теоретико-множественными соотношениями: C C, (2.5) C C G C C G G G 1), &, & ; 2) G C; 3) G, G C G, G C.. (2.6) Предполагается, что состояние области интереса описывается набором информативных признаков. Эти признаки образуют вектор состояния области интереса V v1,..., vm, (2.7) где M количество информативных признаков. Прогнозируемое значение характеристики для каждой области интереса r p обозначим y r. Ставится задача определения p функциональной зависимости между состоянием области, описываемым вектором V v1,..., vm, и значением характеристики y r. Требуется разработать метод p прогнозирования характеристик областей земной поверхности по космическим изображениям для определённого класса природных явлений. Результатом применения метода являются прогнозные значения характеристик y областей интереса R { r } P p p1 для года n, r p полученные с помощью набора параметрических моделей прогнозирования. Разработанный метод должен удовлетворять критериям 1)-5). Построенные модели должны обладать конкурентным уровнем точности в сравнение с существующими методами, лучшим показателем заблаговременности, возможностью прогнозирования нескольких характеристик областей внутри одного класса объектов.

51 51 i j k Рисунок 2.2 Формирование многоканального изображения 2.2 Выбор данных ДЗЗ для решения задачи прогнозирования Получение и предварительная обработка космических изображений Космические изображения это цифровые изображения, которые имеют несколько принципиальных отличий от обычных снимков, получаемых человеком с помощью цифровых камер в повседневной жизни. Прежде чем попасть к конечному пользователю, космические изображения проходят достаточно сложный процесс обработки, который включает следующие операции [38, 51, 75]: 1. коррекция искажений, вносимых съёмочной системой и приёмно-передающим трактом; 2. геометрическая коррекция искажений, вызванных особенностями съёмки; 3. географическая привязка данных; 4. трансформирование в заданную проекцию, которая осуществляется с помощью стандартных картографических методов;

52 52 5. оценка оптических изображений на наличие облачности; 6. корректировки результатов предварительной обработки (при необходимости). Коррекция искажений выполняется непосредственно на станции приёма при переводе первичного потока пакетов принятых данных (поток записывается в таком же виде, как он был сформирован на борту спутника) в растровые данные, собранные из пакетов в многомерные массивы для проведения дальнейшей обработки. Наиболее целесообразно использовать универсальную трансверсальную проекцию Меркатора (UTM) и эллипсоид WGS-84 (Мировая геодезическая система 1984г.), либо проекцию Гаусса-Крюгера и эллипсоид Красовского. Различным комбинациям последовательностей операций, описанных выше, соответствуют различные уровни обработки, которые приняты в качестве стандартов для космических изображений. На сегодняшний день стандартом установлено 6 уровней обработки спутниковых изображений, описание которых приведено в таблице 2.1. Таблица 2.1 Описание уровней предварительной обработки спутниковых изображений Название Описание Level 0 Восстановленные необработанные данные приборов, загруженные в полном разрешении. На данных удалены все артефакты связи (например, рамки синхронизации, заголовки связи, дублирующие данные). Level 1A Восстановленные необработанные данные приборов в полном разрешении, с временной привязкой и аннотацией вспомогательной информации, в том числе радиометрическими и геометрическими коэффициентами калибровки и параметры геопривязки (например, эфемериды платформы). Level 1B Level 2 Level 3 Level 4 Данные уровня Level 1A, которые обрабатывались в единицах сенсора (не все приборы могут проводить данный уровень обработки). Получены геофизические переменные в том же пространственном разрешении и местоположении, что и данные уровня Level 1. Данные спроецированы на однородную пространственно-временную сетку с определенной полнотой и непротиворечивостью. Модельные данные или результирующая анализа данных более низкого уровня (например, значения, полученные из нескольких измерений). При выборе изображения того или иного уровня обработки учитывается природа исследуемых объектов и специфика решаемой задачи. В данном случае были реализованы специализированные программные средства для ассимиляции спутниковых данных в коллекции изображений по определённому принципу. Поскольку необходимо исследовать

53 53 наличие закономерностей по многолетним периодическим наблюдениям, то исходная коллекция изображений { } S s s 1 структурируется по региональному признаку в датасеты. Определение Датасетом называется коллекция изображений одного размера для одной и той же территории, которые записаны в определенной последовательности в один файл. Датасет D содержит серию изображений в течение года n N (см. Рис. 2.5). n Формирование такого многослойного изображения происходит следующим образом. На всём временном интервале N выделяется период наблюдений, который задается множеством измерений N g, (2.8) n1 n где g n определена в формуле (2.3). Внутри одного года изображения группируются в многослойное изображение так, что каждый его слой соответствует одному измерению из периода n l l 1 Dn, (2.9) n где l изображение определенной территории в момент наблюдения l внутри года n. Такое структурирование данных обеспечивает цикличность сезонных наблюдений, при этом автоматически фиксируется их продолжительность периодом, а также обеспечивается статистическая однородность долгосрочных наблюдений.

54 54 i j r p Рисунок 2.3 Формирование многоканального изображения за один год для области r p, заданной своей границей rp Важным аспектом при выборе уровня обработки спутниковых изображений является влияние облачности на исследуемые процессы. При съёмке в облачную погоду для большинства спектральных диапазонов, представленных на рисунке 1.1, на оптических изображениях возможно перекрытие облаками до 70 % сцены. В связи с этим следует работать с композитными изображениями [149], которые получены из данных уровня Level 3, и представляют собой усредненный сигнал за некоторый промежуток времени. 2.3 Выделение информативного сигнала из полученных данных Как отмечалось в пункте 1.3.1, использование различных спектральных диапазонов съёмки, позволяет выделить информативные каналы мультиспектральных изображений, которые наилучшим образом коррелируют с физическими процессами, происходящими на земной поверхности. Исследованию информативности каналов для решения задачи прогнозирования посвящён параграф 3.1. После того как выбран уровень предварительной обработки данных и определены наиболее информативные каналы для исследуемого процесса, необходимо выделить информативный сигнал из всех пикселей изображения. Данная задача

55 55 может решаться как на каждом отдельном изображении s, так и с использованием серий разновременных изображений из коллекции. Поскольку на одиночном изображении невозможно определить объекты, изменяющие свои состояние и форму во времени, был разработан специализированный метод выделения информативного сигнала с помощью анализа динамики состояния объектов по сериям разновременных изображений Метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений Космическое изображение в большинстве случаев является результатом некоторой предварительной обработки с целью устранения различных артефактов, появление которых на изображении является следствием различного рода природных явлений, происходящих в атмосфере [182]. В результате автоматической предобработки яркость каждого пикселя изображения преобразуется в новое значение. Вследствие этого на результирующем снимке возможно появление, как единичных пикселей, так и целых областей, имеющих искажённые спектральные характеристики. Наиболее распространённый подход к выделению на изображении однородных по своим спектральным характеристикам областей, то есть представленных группами пикселей с близкими по значениям средней яркости и дисперсии, основан на пространственной сегментации [135]. Применение таких методов для выделения областей интереса на изображениях снижает точность сегментации при наличии пикселей, имеющих искажённое значение яркости. Поэтому для выделения информативного сигнала используется усредненное по области интереса значение индекса состояния области интереса. Данный прием позволяет устранить шумы, сохраняя при этом общую динамику значений параметров области интереса. Целью метода является построение двумерной карты классов K( x, y ). H Определение Пусть заданы метки классов K k h h 1 и выбрано изображение для классификации I. Картой классов называется результат классификации пикселей изображения, то есть ( x, y) I K( x, y) k, k K. (2.10) h h

56 56 Пусть для области интереса r p, заданной своей границей по годам nn 1 N D, ˆ rp, сформированы датасеты n N, как показано на рисунке 2.3. Согласно определению 2.10, D n включает в себя наблюдения за состоянием области интереса в течение года n. Предполагается, что совокупность факторов, оказывающих влияние на состояние области интереса, сохраняется в соответствующие моменты наблюдения l для разных лет. Тогда наблюдаемые параметры области интереса r p обладают свойством периодичности на рассматриваемом наборе лет ˆN. Состояние области r p на периоде наблюдений в ˆN лет описывается случайным вектором индекса состояния объекта V v 1,..., v, (2.11) где период наблюдений внутри одного года, определённый в пункте Компоненты вектора V являются случайными величинами, заданными на одном вероятностном пространстве. Обозначим выборочное среднее и выборочную дисперсию для каждой компоненты вектора V, как v l и для каждого v l задается формулой S l соответственно, l 1,. Тогда доверительный интервал v v S, v S. (2.12) l l l l l l l Величина l 0 определяет ширину интервала доверия для компоненты вектора V в момент наблюдения l. Определение Вектор V v 1,..., v, каждая компонента которого l принадлежит доверительному интервалу (2.12), построенному по формулам (2.13)-(2.14), называется характеристическим вектором области интереса r p. Далее представлено пошаговое описание метода выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений. Шаг 1. Вычисление характеристического вектора V. Вычислим выборочное среднее v и выборочную дисперсию v l 1 N n vl N n 1, (2.13)

57 57 2 n 1 N S v v, (2.14) l l l N 1 n1 где n v l значение параметра v l в течение года n. По найденным значениям сформируем характеристический вектор состояния объектов для области интереса r p. Шаг 2. Вычисление вектора состояния Dn ( x, y ) для каждого пикселя карты K( x, y ). x D ( x, y) n y rp Рисунок 2.4 Получение разреза датасета D n в точке слоя с координатами ( xy, ) Обозначим l D n слой из датасета l 1,...,. Тогда компонента вектора (, ) компонента вектора (, ) n для слоя l n n D n, соответствующий моменту наблюдений l D x y записывается как D, n x y, то есть в l -ую D x y записывается значение яркости пикселя с координатами xy, D. Процесс построения вектора D ( x, y ) изображен на рисунке 2.4. Далее перейдём непосредственно к построению классификатора пикселей изображения Шаг 3. Классификация пикселей датасета n D n. D n. В данном случае предполагается наличие только двух классов. Введём бинарную метку классов K 0,1. K 1 соответствует классу «объект», K 0 «фон». Для каждого пикселя карты K( x, y ) вычисляются значения вектора состояния пикселя ( xy, ) D ( x, y) D x, y n l n, (2.15)

58 58 где l 1,. Воспользуемся полученным на шаге 1 характеристическим вектором для бинарной классификации пикселей датасета D n (многослойного изображения) для области r p на два класса «объект» / «фон». Построим процедуру классификации в виде отображение A: D ( x, y) K( x, y) n, (2.16) где Dn ( x, y ) многомерный пиксель, представляющий собой вектор длины равной глубине датасета D n, схема получения представлена на рисунке 2.6; K( x, y ) двумерная карта расположения пикселей, принадлежащих классу «объект». Размер карты K( x, y ) определяется размерами слоя (канала) ( i, j ) многослойного изображения Вектор V v 1,..., v D n. является характеристическим для объектов, принадлежащих области r p, за период наблюдений N лет. Поэтому при классификации пикселя с координатами ( xy, ) сравнивается вектор Dn ( x, y ) с характеристическим вектором V. Задаётся порог α R, который определяет максимальный уровень различия между векторами V и D ( x, y ), при котором пиксель ( xy, ) еще относится их к классу «объект». Формальная запись классификатора: 1, при dist D : (, ), (, ),, n x y V A Dn x y Dn K x y 0, иначе. где dist(, ) некоторая мера сходства векторов в -мерном пространстве. n (2.17) Примером меры сходства может служить любая функция расстояния для -мерных действительных векторов, например расстояние Махаланобиса [165]. При определении меры сходства предлагается использовать следующий принцип. Характеристический вектор V задается набором точек вместе с окрестностью (2.8), которая показывает допустимый интервал значений индекса состояния объекта в каждый из моментов наблюдения l 1,...,. Вектор V интерпретируется как аналог «трубки» допустимых траекторий [157] кривых индекса состояния объекта. При этом классификация пикселя

59 59 Dn ( x, y ) на «объект» или «фон» соответствует проверке попадания кривой индекса состояния в пределы «трубки» допустимых траекторий. Здесь кривая индекса состояния пикселя ( xy, ) l задается набором точек n,, 1,..., D x y l. Введём бинарный индикаторный вектор I x, y I x, y,..., I x, y каждая его компонента принимает значения выполнения условия где l 1, ; v l, S l и I l x, y l определены в (2.8). 1, такой что I x, y 0,1, l 1, в зависимости от l 1, 2 l при, 0, lsl Dn x y vl 0, иначе. (2.18) Запишем выражение для функции расстояния в формуле (2.13) с учетом такой интерпретации характеристического вектора и, воспользовавшись индикаторным вектором I. 1 dist D x y V I x y (2.19) n(, ), l, Тогда порог в выражении для классификатора (2.13) с учетом формул (2.18) и (2.14) интерпретируется как доля точек кривой индекса состояния, попавших в «трубку» допустимых траекторий. l1

60 60 Схема процесса выделения характеристического вектора и классификации пикселей датасета представлена на рисунке 2.5. Набор датасетов N Dn n 1 Шаг 1. Вычисление V характеристического вектора. 1) выборочное среднее v l 2) выборочная дисперсия S l Шаг 2. Вычисление вектора состояния Dn ( x, y ) K( x, y) пикселя карты. для каждого Шаг 3. Классификация пикселя датасета D n 1) вычисление расстояния для каждого вектора состояния пикселя dist D ( n x, y ), V 2) проверка условия попадания кривой индекса состояния в «трубку» допустимых траекторий Карта классов K( x, y) Рисунок 2.5 Блок схема метода выделения областей интереса по серии разновременных изображений. Пунктирная рамка выделяет блоки, применяемые в цикле ко всем пикселам карты Важным аспектом метода является наличие достаточно длинной серии изображений для каждого календарного года. При наличии границы области интереса и информации о периоде наблюдения, формируется коллекция изображений для конкретной территории. После чего выделяется информативный сигнал посредством процедуры усреднения значения индекса состояния для всего изображения. Усредненные значения индекса состояния для слоя l D n в

61 61 течение года n составляются в наборы значений n vl n 1 величина N, которые принимает случайная v l на интервале в N лет. Эти данные используются для вычисления формулам (2.13)-(2.14). v l и S l по Описанный выше метод является достаточно универсальным по отношению к природе объектов исследования, если объекты принадлежат классу явлений, описанному в параграфе 2.1. Фундаментальность метода выделения информативного сигнала на аэрокосмических изображениях определяется двумя фактами: 1. наличие индекса состояния объекта, коррелирующего с исследуемыми характеристиками объекта; 2. динамика состояния объекта в период сезонных наблюдений. Рассмотрим пример применения метода для построения карт растительности по аэрокосмическим изображениям на основе исследовании динамики вегетации [34]. Метод позволяет выделять области на изображении, которые соответствуют территориям, занятым растительностью, а также проводить уточнение существующих карт растительности. Вывод: метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений состоит в том, что для каждого пикселя многослойного изображения, которое описывает наблюдения за состоянием области интереса в течение одного года, строится «разрез» в направлении оси (см. Рис. 2.4). Данный разрез рассматривается как вектор D ( x, y ) состояния территории, соответствующей n одному пикселю, в формуле (2.15). Процедура классификации пикселей многослойного изображения осуществляется с использованием построенной заранее «трубки» допустимых траекторий индекса состояния области интереса. В процессе классификации компоненты вектора D ( x, y ) рассматриваются как точки некоторой кривой, которая относится к n интересующему классу, если кривая динамики состояния попадает в «трубку» допустимых траекторий по заданному критерию.

62 Детектирование растительности по сериям космических изображениях на основе анализа динамики вегетации Определение Вегетационный период (или сезон вегетации) это время года, когда возможны рост и развитие (вегетация) растений. Поскольку все изменения, происходящие с растениями, происходят именно в процессе вегетации, то динамика вегетации отражает непосредственно этот временной промежуток [9]. Анализ динамики вегетации растительности с использованием космических данных является мощным инструментом при решении различных задач мониторинга и прогнозирования [13, 88, 49]. При этом используются различные вегетационные индексы, характеризующие состояние растительности для каждого пикселя изображения в данный момент времени, например описанные в пункте индексы NDVI, TCHVI, LAI и т.д. Пример подобного изображения для индекса NDVI в летний период (09 августа 2013 года) приведен на рисунке 2.8 (г). На рисунке 2.6 (а) представлено изображение части территории со снимка 2.8 (г). На рисунке 2.6 (б) представлен результат пороговой сегментации исходного изображения, вырезанный соответственно территории с изображения 2.6 (а). Как видно из рисунка, территории, в значительной степени покрытые растительностью, соответствуют областям изображения с уровнем NDVI близким к максимальному значению индекса на изображении. Этот факт также подтверждается численными экспериментами, в которых коэффициент корреляции между значением индекса NDVI и количеством фото-синтетически активной биомассы (зелёной массы растений) оценивается в пределах 0,7-0,9 в зависимости от типа растительности [127, 180, 223]. Таким образом, для детектирования могут быть использованы стандартные методы пороговой обработки и кластеризации пикселей [135]. Но в случае с растительностью появляется ряд особенностей, которые ограничивают применение стандартных подходов, что приводит к заметному снижению качества детектирования. При обнаружении растительности на аэрокосмических изображениях необходимо учитывать следующие факторы: различные отражательные способности для разных видов растительности; различная плотность растительного покрова для разных природных зон; различные моменты начала вегетации (даже внутри одного типа растительности), что приводит к невозможности детектирования различных типов растительного покрова на одном изображении;

63 63 возможное ухудшение состояния растительности в общем для рассматриваемой территории является причиной понижения её отражательной способности; сезонность вегетационного периода растений. Анализ результата выделения растительности с помощью пороговой обработки (Рис. 2.6 (а)-(б)) показывает, что при детектировании с использованием только значений вегетационного индекса велика доля как ложных срабатываний, так и ложных пропусков. Разработанный метод (раздел 2.3.1) позволяет учитывать все перечисленные выше особенности, связанные с детектированием растительности на аэрокосмических изображениях. Его применение оправдано, при отсутствии источников негативного воздействия на состояние растительности, ввиду следующих фактов: ход кривой динамики вегетации для конкретного типа растительности на конкретной территории имеет незначительные отклонения на промежутке в несколько лет; различная плотность растительного покрова для разных природных зон нивелируется при переходе от пространственного распределения индекса NDVI к распределению среднего значения NDVI по области во времени; история изменения состояния растительности, отражаемая на вегетационной кривой, позволяет определять дату начала вегетации с точностью равной временному шагу наблюдений при построении кривой вегетации; при наличии фактора, негативно влияющего на состояние растительности, необходимо проводить уточнение полученной карты растительности, с помощью метода, описанного в пункте 2.3.3; сезонные колебания значений индекса состояния растительности для разных лет учитываются в разработанном методе (раздел 2.3.1) посредством построения «трубки» допустимых траекторий вегетационной кривой. Таким образом, в данном примере предлагается помимо спектрально-отражательных характеристик растительности, учитывать временной ход вегетации и пространственное распределение областей, занятых растительностью.

64 64 (а) (б) Рисунок 2.6 Выделение растительности с помощью пороговой обработки: (а) исходное изображение; (б) результат пороговой обработки, зеленым цветом выделена растительность Характерный график изменения индекса состояния растительности на протяжении одного календарного года представлен на рисунке 2.7.

65 65 Рисунок 2.7 Характерный вид вегетационного хода индекса NDVI На графике хорошо прослеживаются три области: область максимального роста индекса max d NDVI соответствует весеннелетнему периоду наиболее бурного роста растительности; dt максимум кривой; спадающая часть графика созревание растений и последующее уменьшение отражающей способности.

66 66 (а) (б) (в) Рисунок 2.8 Карта индекса NDVI в разные месяцы 2013 года для нефтедобывающего района, прилегающего к городу Усинк: (а) 6 июня, (б) 1 июля, (в) 9 августа Конкретный вид графика зависит от территории и момента наблюдения (см. Рис. 2.9).

67 67 Рисунок 2.9 Пример хода вегетационного индекса NDVI для некоторых областей Российской Федерации Как видно из примеров, временной ход значений NDVI может иметь незначительные отклонения от характерного (Рис. 2.9), но при этом общие тенденции сохраняются для каждой из трёх областей, кривая вегетации которых представлена на рисунке Перейдём непосредственно к выделению набора информативных признаков в рассматриваемой задаче сегментации. Наблюдения внутри календарного года называются сезонными наблюдениями. Сезонными наблюдениями регистрируется состояние растительности через определённые интервалы времени, при этом одно изображение соответствует одному наблюдению. После операции усреднения индекса состояния растительности по всей области интереса для каждого изображения в году получаем вектор сезонных наблюдений. Эта процедура повторяется для всех календарных лет, участвующих в наблюдении. Набор векторов сезонных наблюдений можно рассматривать как конкретные реализации случайного вектора динамики состояния растительности на рассматриваемой территории. Вектор информативных признаков находим как математическое ожидание случайного вектора динамики вегетации (см. Рис. 2.10).

68 68... Сезонные наблюдения r p r p r p r p Датасет для области r p за N лет в момент наблюдения l=1, r p r p Рисунок 2.10 Получение вектора информативных признаков области r p для долгосрочных наблюдений в N лет

69 Вектор информативных признаков представлен на рисунке набором точек вместе с окрестностью, которая показывает допустимый интервал значений индекса состояния растительности в данный момент наблюдения. Таким образом, для области интереса получаем объект где - количество сезонных наблюдений; l r p V l V, l 1, (2.20) rp rp V усреднённое по области r p значение индекса состояния V. r p С помощью V осуществляется попиксельная проверка принадлежности территории к r p растительному покрову. Все предположения, использовавшиеся при описании метода выделения областей интереса, описанного в пункте 2.3.1, сохраняются. Это означает, что уже подготовлен набор датасетов по годам nn 1 для классификатора аналогичного (2.17). N D, ˆ n N для области p r, выбран порог α R Рассматривается процедура бинарной классификации многослойного изображения на классы «растительность» / «не растительность». Вводится бинарная метка классов K 0,1. K 1 соответствует классу «растительность», K 0 - «не растительность». Для каждого пикселя изображения l наблюдений следующий вид D с координатами n D n xy, вычисляются значения вектора сезонных v x, y v x, y, l 1,. Тогда формула классификатора (2.17) принимает K x, y 1, при dist vx, y, V, r (2.21) 0, иначе. Если рассматривать переход к представлению хода индекса состояния в виде непрерывной кривой, то для оценки сходства кривых можно воспользоваться интегральной 2 мерой, например расстоянием между контурами в L [113]. Обобщение на случай числа классов K 2, H классов K k h h 1 K делается добавлением новых меток и использованием процедуры объектно-ориентированной классификации [76]. При таком подходе классифицируются объекты на изображении, которые получены путем предшествующей сегментации снимка (построение карты классов на изображении). Объекты, подлежащие классификации, удовлетворяют определению 2.2. Такая формулировка не

70 70 ограничивает общности поставленной задачи и удовлетворяет классу исследуемых явлений, описанному в параграфе Метод уточнения карт растительности Исследования показывают, что на процессы роста и развития, формирование адаптивных реакций растений на урбанизированных территориях и вблизи промышленных объектов существенное влияние оказывает комплекс неблагоприятных природных и антропогенных факторов [52, 67]. Наиболее распространёнными и хорошо изученными являются критерии и методики оценки, основанные на прямом вычислении показателей состояния окружающей среды посредством полевых измерений [43]. Эта группа методов включает методы биоиндикации [4, 73], методы биохимического анализа [33]. По результатам статистической обработки многолетних наблюдений на основе полевых измерений формируются шкалы оценки степени антропогенного воздействия для различных экосистем. Результатом такой обработки является сводная таблица, как в примере таблицы 2.2. Наземные измерения являются наиболее надёжным, но при этом самым трудозатратным источником получения информации об экологическом состоянии окружающей среды и о последствиях антропогенного воздействия на неё. Таблица 2.2 Состояние растительности как индикатора экологического состояния территории [43] Показатели Параметры Относительно 1. Уменьшение биоразнообразия (индекс разнообразия Симпсона, в % от нормы) 2. Плотность популяции видаиндикатора антропогенной Экологическое бедствие Чрезвычайная экологическая ситуация удовлетворительная ситуация более менее 10 более (менее) 50 более (менее) более (менее) 20 нагрузки, % 18. Лесистость, % от оптимальной менее 10 менее 30 менее Повреждение древостоев техногенными выбросами, % от общей площади более менее 5

71 71 Приведённые результаты работ исследователей по поиску новых и улучшению существующих критериев оценки антропогенного воздействия на окружающую среду показывают постоянный рост актуальности данной проблемы для мирового сообщества [60]. При этом возникает необходимость разработки объективных, робастных методов мониторинга и оценки экологического состояния территорий, подверженных антропогенному воздействию, на различном пространственном масштабе. На сегодняшний день наблюдается значительный рост числа методов ДЗЗ и их совершенствование для решения наиболее актуальных задач мониторинга. Методы дистанционного зондирования Земли обладают всеми необходимыми свойствами для удовлетворения потребностей экологического мониторинга. Применимость комплексных подходов с использованием данных ДЗЗ проверена на практике при решении задач мониторинга экологического состояния окружающей среды для объектов нефтегазового комплекса [13], урбанизированных территорий [30, 96], диагностики лесных [25, 26] и водных [54, 55] экосистем, оценки последствий пожаров [11, 14, 16, 17] и чрезвычайных ситуаций [23]. Таким образом, сформирована база для разработки методов оценки состояния окружающей среды и его изменений с использованием косвенных признаков, характеризующих появление областей, подверженных антропогенному воздействию. Предположим, что для рассматриваемой территории на основании наземных данных или в результате процедуры классификации построена карта растительности K. Число типов m растительности обозначим T tj, набор областей интереса R j 1 rp p 1 P. Также известна история изменения состояния для каждого типа растительности за предыдущие периоды наблюдения, представленная в виде набора датасетов, p n n1,p 1 D r NP. Тогда для каждого t j в нормальном состоянии (этот факт устанавливается по данным наземных наблюдений за предыдущие годы) с использованием ДДЗ строятся характерные кривые вегетационного хода V l V, l 1,, где - количество сезонных наблюдений. Пример такой кривой tj tj приведен на рисунке 2.7. В течение одного сезона вегетации оценивается интенсивность воздействия на состояние растительности для исследуемой территории. Для этого воспользуемся интегральной знаковой мерой сходства кривых, полученной следующим образом. Рассмотрим пару кривых. Обозначим t j L norm кривую, построенную как аппроксимацию точек l V, t j l компонент вегетационного индекса V для растительности типа t t j. j r p L кривую, построенную как аппроксимацию

72 72 точек l V, l компонент вегетационного индекса для области r p. Построим карту r p эквипотенциальных поверхностей t j L norm D для кривой L t j norm. Область между кривыми t norm j L и r p L обозначим где t j L D L norm. Вычисление меры сходства кривых проводится по формуле tj rp norm dist L, L f t dt, t L f t некоторая функция, определенная на, (2.22) L L. Обозначим степень воздействия на состояние растительности САВrp, t j. Для оценки p, j где t j norm САВ r t воспользуемся формулой САВ r, t S L - площадь под графиком dist L tj norm, L p j tj tj S Lnorm min Lnorm t j norm величиной, то полученное положительное значение p, j L r p t j для территории, (2.23). Поскольку мера (2.22) является знаковой САВ r t соответствует улучшению состояния растительности, а отрицательное ухудшению. Такая интерпретация САВrp, t j вместе с результатами наземных наблюдений позволяет сформировать новые шкалы оценки степени антропогенного воздействия по косвенным признакам состояния растительности, полученным по данным ДЗЗ. Верификация границы областей, подверженных антропогенному воздействию, следует проводить по наблюдениям за ходом процесса вегетации в течение нескольких лет. На временном масштабе в несколько лет проводиться отслеживание многолетних тенденций в изменении состояния объектов. Такой подход обусловлен тем фактом, что растения имеют свойство приспосабливаться к колебаниям внешних условий и способны осуществлять восстановительные процессы [212]. r k 2.4 Основная концепция разработанного метода Опишем класс явлений, для которых возможно применение разработанного метода. В предлагаемом подходе моделируется процесс прогнозирования характеристик объектов или областей на земной поверхности по данным дистанционного зондирования Земли. В связи с

73 73 этим, существует ряд ограничений, накладываемых на физические процессы, характеристики которых прогнозируются с помощью моделей, разработанных специально для описываемого класса объектов. В первую очередь предполагается, что существующие на данный момент технологии дистанционного зондирования позволяют получать изображения с необходимыми для решения исходной задачи параметрами: пространственное разрешение, частота съёмки, диапазон длин волн, регистрируемых сенсором, и т.д. Во-вторых, значения прогнозируемых характеристик объектов обладают свойством периодичности на некотором интервале времени. В-третьих, следует учитывать тот факт, что любые измерения, полученные дистанционно, требуют верификации с использованием данных, полученных insitu, то есть наземных наблюдений [97]. Возможность любого прогнозирования с использованием данных ДЗЗ определяется наличием физической основы для описания исследуемых процессов при наблюдении из космоса. Современные сенсоры, установленные на КА, регистрируют электромагнитное излучение, отражённое земной поверхностью, в различных спектральных диапазонах. Поиск функциональной зависимости осуществляется между характеристиками исследуемых физических процессов и данными ДЗЗ, полученными в определенных спектральных диапазонах длин волн (см. Рис. 1.1). Решение задачи прогнозирования по данным ДЗЗ основывается на выявлении закономерностей по многолетним периодическим наблюдениям. После чего выявленные закономерности применяются к сезонным наблюдениям для текущего года. При прогнозировании характеристик, описывающие состояние объекта, в заданном пространственном масштабе по данным ДЗЗ, необходимо учитывать не только наблюдения, которые описывают его состояние в момент прогнозирования, но и историю наблюдений до этого момента. Такой подход позволяет выявить зависимости в изменении состояния объекта в течение долгосрочных наблюдений. Термин «объект» использован для обозначения области на земной поверхности (и на космическом изображении соответствующей территории). Эта область может быть сформирована по определенным физическим или географическим признакам и иметь различную форму и размер. В качестве примера области интереса может служить географический регион, а плодородие почвы в этом регионе или урожайность выбранной с/х культуры в рассматриваемый период прогнозируемыми характеристиками.

74 Сезонные и долгосрочные наблюдения Определение Текущим периодом наблюдений называется временной интервал, соответствующий номеру наблюдения. n Nˆ, где ˆN множество лет, составляющих долгосрочные Определение Обозначим наблюдения для текущего периода n как сезонные наблюдения, которые включают в себя измерение параметров объекта в течение некоторого фиксированного временного интервала и до момента прогнозирования (см. Рис. 2.2). Тип и количество параметров, вычисленных по данным дистанционного зондирования, варьируется в зависимости от набора условий: количество данных, доступных для обработки, пространственное разрешение, физической природы объекта исследования или типа изображений. Набор измерений, входящих в вектора состояния области интереса V v1,..., vm измерению, определяется продолжительностью сезонных наблюдений, при этом v m соответствует m -ый момент наблюдения, момент прогнозирования M окончанию сезонных наблюдений. В тот момент, когда реальное значение прогнозируемой характеристики объекта получено от наземных средств наблюдения, проводится контрольное сравнение его с прогнозированным значением.

75 75 Рисунок 2.11 Общая концепция метода прогнозирования по данным ДЗЗ с использованием многолетних наблюдений Сезонные наблюдения используются для извлечения информации об интересующем объекте за текущий период. Долгосрочные наблюдения позволяют определить вид и найти параметризацию предсказательной функции. Долгосрочные наблюдения включают в себя два типа информации об объекте. К первому типу относится информация, непосредственно извлекаемая из данных дистанционного зондирования, которые описывают изменения в наблюдаемых характеристиках объекта. Этот тип долгосрочных наблюдений может иметь продолжительность как только сезонных наблюдений (внутригодовой), так и быть расширен на все доступные наблюдения в течение многих лет с несколькими отсчётами за каждый год. Второй тип долгосрочной исторической информации формируется по данным наземных наблюдений, полученных из источников не связанных с дистанционным зондированием. Такая комбинация наземных измерений и данных дистанционного зондирования используется для обучения и валидации моделей прогнозирования. Примером наземных измерений могут быть данные официальной государственной статистики (такие, как урожайность для различных регионов и лет). Долгосрочные наблюдения обладают цикличностью по построению. Сезонные наблюдения входят в состав долгосрочных, и при этом существует возможность изменять

76 76 частоту измерений, проводимых с использованием данных дистанционного зондирования в течение периода наблюдений. Таким образом, при обучении моделей прогнозирования удаётся добиться большого числа итераций (см. Рис. 2.12). Сезонные данные не обладают статистической однородностью, т.е. изменяются от сезона к сезону в течение календарного года. Долгосрочные наблюдения, как правило, повторяются из года в год. Учитывая тот факт, что сезонные наблюдения в составе долгосрочных наблюдений описывают один и тот же период времени, получается обеспечить однородность данных при обучении моделей. Рисунок 2.12 Связь сезонных и долгосрочных наблюдений Используя схему, приведённую на рисунке 2.12, определяется размер обучающей выборки и удовлетворяются требования к однородности данных при обучении моделей. В дальнейшем необходимо исследовать различные виды прогностической функции, а также учесть наличие каких-либо долгосрочных тенденций. При разработке процедур валидации и верификации моделей важно определить способ оценки точности прогнозирования. Эти три аспекта (тип модели, оценка точности и наличие долгосрочных трендов) формируют основные концепции предложенного метода. Предлагаемый метод может быть описан с помощью схемы, приведенной на Рис

77 77 Рисунок 2.13 Схема взаимодействия алгоритмических блоков при прогнозировании состояния объектов земной поверхности Последовательность действий с данными ДЗЗ изучаемого объекта может быть представлена следующими алгоритмическими блоками обработки данных, показанными на Рис. 1: 1) блок подготовки данных; 2) блок обучения; 3) блок предсказания; 4) блок валидации моделей. Блок подготовки данных включает функции извлечение необходимых информативных признаков из данных ДЗЗ и определения областей интереса. Блок обучения (БО) состоит из выбора модели прогнозирования и её обучения с использованием многомерной нелинейной регрессии по данным ДЗЗ. Вид прогностической функции задается: 1. набором предикторов, параметры которых взяты из описания характеристик объектов; 2. мультипликативной поправкой для областей; 3. параметром, учитывающим наличие долгосрочного временного тренда.

78 78 При обучении принимается во внимание, что целевые характеристики объекта в текущем сезоне должны достаточно надёжно предсказываться функцией, параметрами которой являются усредненные (по площади объекта) значения данных ДЗЗ в течение каждого сезонного наблюдения. Потенциальная точность прогнозирования искомых характеристик объектов тем выше, чем полнее известен исторический ход данных долгосрочных наблюдений. В блоке прогнозирования (БП) целевые характеристики объектов подстилающей поверхности предсказываются на основе измерений текущего сезона наблюдений, которые не задействованы в процессе обучении моделей прогнозирования. Данные текущего сезона наблюдения описывают изменения состояния объекта, предшествовавшие моменту формирования прогноза. Таким образом, долгосрочные наблюдения используются в сочетании с сезонными. В блоке (БВ) выполняется валидация используемых математических моделей с привлечением данных наземных наблюдений. При этом применяется процедура кроссвалидации, которая позволяет выявлять наличие долгосрочного тренда в изменениях состояния объекта. Если априори известно, что в обучающих данных присутствует тренды, соответствующее изменение вида исходной модели прогнозирования может привести к более точным прогнозам. Зависимость систематических ошибок от года прогнозирования даёт возможность выдвинуть гипотезу о существовании долгосрочного тренда. После чего предположение о наличии временного тренда проверяется экспериментально. Формула прогностической функции исходной модели (до учёта тренда) дополняется параметром, уравнивающим вклад от предполагаемого долгосрочного тренда. После чего процесс переобучения запускается для новой формулы на тех же данных, что и для исходной модели прогнозирования. Сравнение найденных неизвестных параметров двух моделей (с трендом и без него) проводится с помощью доверительных интервалов. Статистически значимый прогноз, полученный улучшенной моделью с учетом тренда, говорит о том, что гипотеза о наличии тренда принимается. Процедура прогнозирования с помощью разработанного метода, общая схема которой представлена на рисунке 2.5, включает в себя последовательное выполнение процессов обучении прогнозирования. Перейдём к подробному описанию каждого из указанных процессов.

79 Процесс обучения Предлагаемый метод прогнозирования характеристик областей по данным ДЗЗ является развитием подхода на основе обучения по прецедентам [168]. Определим основные понятия с учётом концепции предлагаемого метода и специфики задачи прогнозирования по данным ДЗЗ n P X x p p 1, n N в терминах обучения по прецедентам. Множество объектов ˆ определяется набором областей интереса R { r } P p p1 и множеством лет ˆN. Пусть каждая область интереса r p задана своей границей rp (по определению 2.9). Элементу n xp X соответствует многослойное изображение r D p n, описывающее наблюдения за состоянием области интереса в течение года n (см. Рис. 2.3). По изображению r D p n вычисляется признаковое описание объекта n x p (см. Рис. 2.14). Полученный вектор признаков n rp V называется вектором состояния области r p в течение сезонных наблюдений года n. Определение Вектором состояния области интереса при фиксированных значениях индексов области r p и года n, называется каждая компонента которого m 1,...,M внутри года n. n p Vr v1,..., v r r n p p M, (2.24) r v p m описывает состояние области r p в момент наблюдения r p r p D n V n r p v v r 1 p rp M n n Рисунок 2.14 Получение вектора признаков V для области r p по изображению rp r D p n

80 80 Целью прогнозирования является получение для объекта n x p ожидаемого в текущем году значения характеристики образом, необходимо построить отображение где f неизвестная зависимость. r y p n наиболее близкого к его реальному значению. Таким f : X Y, (2.25) P ˆ n r o p Для поиска конкретного вида f формируется обучающая выборка X xp, yn o на элементах которой известны значения функции f rp no n r o p ˆ n, p1, n N f x y, n N, p 1, P. (2.26) p o о где y значение характеристики области интереса r p для года n Nˆ 1,..., N Nˆ множеством лет, выбранных для обучения. о о o o Nˆ ; Обучение предполагает наличие некоторого математического объекта, алгоритма или модели. В данном случае предполагается, что есть некоторая параметрическая модель [120]. Параметры этой модели это коэффициенты вектора прогностической функции вектор настраиваемых параметров модели прогнозирования; V вектор признаков. f f (, V ), (2.27) о o о Обучение заключается в отыскании коэффициентов прогностической функции, которые наилучшим образом приближают значения f на множестве обучающей выборки X, то есть должно выполняться условие arg min f, (2.28) где f невязка функции f на элементах X ; количество компонентов вектора. Запишем рассматриваемый процесс обучения в матричной форме. Информация о состоянии областей интереса { } P n R rp p1 накапливается в виде сезонных наблюдений o V в rp

81 81 течение нескольких лет. Такой набор векторов состояния образует матрицу «объектыпризнаки» ˆ V. Прежде чем описать матрицу ˆ V, необходимо ввести вектор-столбцы 1 Nо лет N о Years P областей, 1 Nо лет N о 1 Nо лет 1 rp Regions Nо лет P областей. r p rp Nо лет r P (2.29) (2.30) Эти вектор-столбцы задают соответствие между областями интереса R и годами на обучение ˆ о PN. N и имеют одинаковую размерность 1 Матрица следующим образом ˆ V для множества лет о ˆ о N и набора областей R { r } P p p1 формируется

82 82 Размерность матрицы ˆ V равна 1 V r1 No лет No Vr1 Vˆ P областей. 1 V r P No лет N o V rp PNо M и определяется (2.31) 1. длительностью долгосрочных наблюдений N ˆ о ; 2. количеством областей интереса R ; 3. продолжительностью сезонных наблюдений длиной, которая задает длину M вектора состояния области интереса. Теперь рассмотрим, как формируется вектор ответов Y. Размеры вектор-столбца Y аналогично векторам Years и Regions определяются числом лет наблюдений N ˆ о и количеством областей R. r1 y 1 Nо лет r1 y Nо Y P областей. (2.32) r P y 1 Nо лет rp y N о Как показано на рисунке 2.4, подготовка данных, результатом которой являются данные долгосрочных наблюдений, предшествует процессу обучения. Таким образом, все переменные, определяемые исходными данными и не зависящие от выбора конкретного вида модели, которую предстоит обучать, заданы. Осталось только определить вид вектора параметров модели. В зависимости от используемой модели прогнозирования варьируется состав вектора. В общем виде матричное уравнение регрессии записывается следующим образом

83 83 Y fˆ, Vˆ. (2.33) где ˆf матричная функция, определяющая конкретный вид модели прогнозирования. Вектор в свою очередь может выражаться через вектора Years и Regions, тогда формула (2.33) примет вид Y fˆ Years, Regions, Vˆ. (2.34) где некоторая функция от векторов Years и Regions. Процесс обучения принципиально отличается от процесса прогнозирования наличием вектора ответов Y, который представляет собой данные наземных наблюдений, что позволяет настраивать параметры модели на реальных значениях характеристик областей интереса Процесс прогнозирования. Понятия и объекты, используемые при описании процесса обучения, сохраняются в процессе прогнозирования за исключением набора тестовых лет Nˆ Nˆ, Nˆ Nˆ ; t t о t V v,..., v, n Nˆ. n rp r t p векторов состояния областей для тестовых лет rp 1 n r t Векторы V и данные Y, Years, Regions, соответствующие индексам n p в процессе обучения. Обозначим вектор параметров модели после обучения «объекты-признаки», составленную из наборов векторов n n M t t t Nˆ, не участвуют t, а матрицу t V r для тестовых лет, p Nˆ t Искомый вектор значений характеристик для областей интереса R { r } P p p1 на множестве тестовых лет N ˆ t обозначим Y. Запись вектора Y аналогична формуле (2.32) для вектора ˆ V. ответов Y, только индексы обучающего множества лет N ˆ о следует заменить индексами тестовых лет N ˆ t.

84 84 Прогнозные значения получаются только с использованием данных дистанционного зондирования, описывающих состояния областей интереса в составе векторов n 1,..., t t p p Vr v vm в период сезонных наблюдений на множестве тестовых лет ˆ t p r r n С учётом вышесказанного, запишем формулу для получения прогнозных значений характеристик областей интереса R { r } P p p1 на множестве тестовых лет N ˆ t Y f V Nt ˆ N. ˆ, ˆ. (2.35) Матричный вид процессов обучения и прогнозирования для метода прогнозирования характеристик областей земной поверхности по данным ДЗЗ более наглядно отражает свойство общей применимости подхода для класса объектов, описанного в начале параграфа 2.4 Вывод: разработанный метод прогнозирования состояния характеристик областей на поверхности Земли по данным ДЗЗ в заданном пространственном масштабе состоит в том, что наблюдения за состоянием области интереса накапливается в течение нескольких лет (не менее 5), образуя долгосрочные наблюдения. Сезонные наблюдения входят в состав долгосрочных наблюдений, обладают фиксированной продолжительностью внутри одного года и n r описываются вектором состояния области интереса 1,..., p rp Vr v v p M n. Для прогнозирования характеристик области интереса используется набор параметрических моделей, заранее обученных на данных долгосрочных наблюдений. Прогнозирование осуществляется n в n rp r t p посредством подстановки вектора состояния области для тестовых лет Vr p v vm модель прогнозирования. 1,..., t

85 85 Выводы к главе 2 1. Поставлена задача разработки метода прогнозирования характеристик областей земной поверхности по космическим мультиспектральным изображениям для определённого класса природных явлений. Проведён выбор основных параметров оценки качества прогнозов, осуществляемых на основе данных ДЗЗ. 2. Представлена и реализована программно процедура предварительной обработки коллекции космических изображений за несколько лет при решении задачи прогнозирования характеристик областей земной поверхности. Результатом выполнения указанной процедуры являются многослойные изображений, структурированные по признаку области интереса. Каждый слой такого изображения представляет собой результат регистрации параметров области интереса в определённый момент времени. 3. После рассмотрения условий постановки задачи с учетом особенностей использования космических мультиспектральных изображений представлен и реализован программно метод выделения областей интереса на основе анализа динамики состояния объектов по сериям разновременных космических изображений. Применение данного метода позволяет выделить информативный сигнал из входных данных для последующего их использования в задаче прогнозирования. Также данный метод является самостоятельным инструментарием для решения задачи классификации пикселей многослойных изображений. 4. Представлена концепция прогнозирования характеристик объектов по данным долгосрочных наблюдений за параметрами их состояния. На основе предложенной концепции разработан и программно реализован метод прогнозирования характеристик областей земной поверхности по космическим мультиспектральным изображениям. Указаны границы применимости разработанного подхода к прогнозированию.

86 86 Глава 3. Построение моделей прогноза плодородия и прогнозирование урожайности различных сельскохозяйственных культур В главе рассматриваются физические основы для прогнозирования характеристик областей на поверхности Земли по данным ДЗЗ. Описан выбор информативных признаков для формирования предикативного вектора состояния областей. Строятся математические модели, описывающие процесс изменения состояния областей земной поверхности. В качестве примера полученные модели применяются для прогнозирования урожайности сельскохозяйственных культур. Принципиальная возможность использования космических изображений для оценки состояния и распознавания растительности была показана в 1969 году [156]. В основу модели плодородия была положена гипотеза о том, что урожай зависит от показателей вегетационного индекса (набора индексов) в течение вегетативного сезона [9]. Для территории, покрытой растительностью, эти значения имеют различную предикативную силу в зависимости от календарной даты, типа растительности и особенностей исследуемого региона. Построение математически достоверной модели для региона в целом, даёт возможность детализировать результаты прогноза для конкретного участка вплоть до разрешающей способности вычисленных карт используемого индекса. На начальном этапе построения моделей плодородия в качестве вегетационного индекса используется индекс NDVI, который является одним из наиболее распространенных индикаторов роста и плотности растительности, рассчитываемых по данным ДЗЗ [8, 15, 31, 79]. Для вычисления этого индекса используется следующая формула NDVI R2 R1 R R 2 1. (3.1) где R 2 значение отражения в ближней инфракрасной области спектра; R 1 значение отражения в красной области спектра. Согласно (3.1), плотность растительности в определенной точке изображения равна разнице интенсивностей отражённого света в красном и инфракрасном диапазоне, деленной на сумму их интенсивностей.

87 87 Подход к решению задачи прогнозирования урожайности заключается в построении модели плодородия на основе космических данных и применении различных методов оптимизации с использованием набора предикторов, полученных в результате компьютерного анализа мультиспектральных изображений из космоса. Предложенный подход предусматривает также дальнейшее расширение и уточнение модели по мере накопления статистических данных об урожайности прошлых лет для различных областей. 3.1 Выбор информативных признаков состояния областей земной поверхности Предикативный вектор, описывающий изменение состояния областей В качестве вектора информативных признаков для используется совокупность сезонных наблюдений V v v моделей прогнозирования 1,..., M набор индексов состояний объекта, где m 1, M упорядоченные во времени моменты наблюдений внутри одного года. Значение m 1 соответствует моменту начала сезонных наблюдений, а m M - моменту завершения. Каждая компонента индексов состояния областей и задается формулой v i вектора V представляет собой суперпозицию различных i v (3.2) 1,..., ˆ, I где Î - общее число индексов состояния,, 1, I ˆ компоненты вектора сезонных наблюдения по k -ому индексу состояния области. k k На рисунке 3.1 показан общий принцип, по которому задаётся соответствие между компонентами предикативного вектора, состоящего из усредненных по области значений индекса вегетации, и состоянием растительности. Предполагается, что состояние растительности в целом на всём периоде созревания сельскохозяйственной культуры является индикатором потенциального плодородия почвы для рассматриваемой территории. При этом выбранные для наблюдения за состоянием растительности вегетационные индексы становятся численной характеристикой плодородия почвы. На рисунке 3.1 на примере ржи показано, как задаётся соответствие между моментами измерений индексов вегетации и процессом роста и созревания культуры. Компоненты вектора V из рисунка 3.1 вычисляются с использованием

88 88 формулы (3.2), где k 1, Iˆ определяются в зависимости от типа культуры, выращиваемой на данной территории. Определение конкретных моментов для измерения индекса является отдельным важным вопросом, который рассматривается далее. Поскольку характеристики области интереса, такие как плодородие, определяются не только состоянием растительности, но и географическим положением, то при определении компонент вектора V необходимо учитывать различные факторы окружающей среды, которые могут оказывать влияние на конечное значение прогнозируемой характеристики. Рисунок 3.1 Выбор предикативного вектора в соответствие с процессом вегетации Как показано в пункте 3.1.2, вегетационный индекс NDVI имеет сильную корреляцию с количеством фотосинтетически активной биомассы (NPP Net Primary Productivity), но, как оказывается, не является единственным фактором, определяющим конечное значение урожайности. Результаты исследований [144] показывают, что NPP, определяющее состояние растительности, зависит от набора факторов. Наиболее сильную корреляцию с NPP имеют такие факторы как температура земной поверхности (LST Land Surface Temperature [169]), уровень осадков и испарение с поверхности листа. Но более важный вывод заключается в том, что нельзя ожидать улучшения или ухудшения состояния растительности только по соответствующему изменению лишь одного из перечисленных факторов. Именно по этим причинам был выбран комплексный индекс (3.2). Рассмотрим ход вегетационного индекса NDVI с 16-дневным интервалом. Необработанный сигнал представлен на рисунке 3.2. Из графика видно, что для территорий, соответствующих различным географическим широтам, кривые вегетационного хода имеют значительные отклонения для различных областей.

89 89 Рисунок 3.2 Сезонные наблюдения для индекса NDVI для 29 региональных образований РФ в течение 2000 года Более того, следует отметить, что кривые вегетации для одной и той же территории в разные годы также могут отличаться друг от друга (см. Рис. 3.3).

90 90 Рисунок 3.3 Сезонные наблюдения для индекса NDVI Московской области. Сплошная линия соответствует наблюдениям в течение 2000 года, пунктирная линия в течение 2014 года Указанные особенности поведения индекса NDVI в течение всего сезона вегетации сохраняются и для индекса LST (рисунок 3.4), значение которого также вычисляется по спутниковым данным, и является индикатором состояния растительности [169].

91 91 Рисунок 3.4 Сезонные наблюдения для индекса LST для 29 региональных образований РФ в течение 2000 года Анализ рассмотренных в данном разделе особенностей кривых вегетационного хода и исследований корреляции NPP и космических индексов приводит к следующему выводу. При формировании информативного вектора признаков состояния растительности необходимо использовать комплексный индекс, компоненты которого вычисляются по формуле (3.2). С целью уменьшения влияния шумов в исходном сигнале все значения индекса усредняются сначала на некотором временном интервале, а потом и по области интереса., 1, I ˆ k k Корреляция индексов состояния областей c их количественными характеристиками В основе всех построенных моделей плодородия лежит зависимость между состоянием растительности в вегетационный период и собранным урожаем. Другими словами, если состояние растительности хорошее на протяжении всего периода роста, то вероятность получить хороший урожай увеличивается. В том же случае, если в какой-либо промежуток произрастания состояние растительность отклонилось в сторону ухудшения, то вероятность получить хороший урожай уменьшается.

92 92 В качестве вегетационного индекса используется индекс NDVI, расчет которого базируется на двух наиболее стабильных (не зависящих от прочих факторов) участках спектральной кривой отражения сосудистых растений [176, 180, 198]. В красной области спектра (0,6-0,7 мкм) лежит максимум поглощения солнечной радиации хлорофиллом высших сосудистых растений, а в инфракрасной области (0,7-1,0 мкм) находится область максимального отражения клеточных структур листа. Высокая фотосинтетическая активность (связанная, как правило, с густой растительностью) ведет к меньшему отражению в красной области спектра и большему в инфракрасной. Отношение этих показателей друг к другу позволяет чётко отделять и анализировать растительный покров от прочих природных объектов [8, 31, 144, 176, 198]. При этом использование нормализованной разности между минимумом и максимумом отражений увеличивает точность измерения, позволяет уменьшить влияние таких явлений как различия в освещенности снимка, облачности, дымки, поглощение радиации атмосферой и пр. Связь вегетационных индексов, измеряемых по мультиспектральным изображениям, с продуктивностью растений достаточно хороша изучена [180]. Наличие значительной корреляции между первичной продуктивностью биомассы (NPP net primary productivity) и измеренными значениями вегетационного индекса можно проиллюстрировать показанной на рисунке 3.5 зависимостью. Рисунок 3.5 Зависимость первичной продуктивности биомассы (NPP) от измеренных значений индекса NDVI

93 Построение модели В пункте описываются математические модели плодородия, которые используются для предсказания урожая текущего года на основе набора вегетационных индексов, накопленных за фиксированный период с текущего года от начала вегетации. Чтобы проследить связь между описанным в Главе 2 методом прогнозирования и конкретными моделями плодородия, после описания модели приводится матричные уравнение для процессов обучения и прогнозирования с использованием модели. Разработанный метод можно описать следующим образом. Урожай определённой культуры на заданной территории должен достаточно надёжно предсказываться функцией, параметрами которой являются (по этой территории) значения вегетационных индексов в течение роста и созревания сельскохозяйственной культуры. Потенциальная точность предсказания урожая тем выше, чем полнее изменения индексов в долгосрочных наблюдениях Общий вид модели плодородия Общий вид предложенной модели прогнозирования урожайности выглядит следующим образом ykr fkr v1,..., vm, (3.3) где y kr прогнозируемое значение урожайности на окончание текущего сезона; f kr искомая прогностическая функция урожайности для территориального региона r и сельскохозяйственной культуры k соответственно; v m значение индекса состояния растительности для данного участка посевов в момент m -го наблюдения. Поскольку информация об урожайности за предыдущие годы по отдельным культурам официально предоставляется службой государственной статистики, административные области выбраны в качестве единицы регионального деления. Наличие этой информации позволяет настроить свободные параметры моделей, описанных ниже, на конкретные сельскохозяйственные культуры и области интереса. С учётом выше сказанного, среднее значение урожайности по административной области выражается следующим образом:

94 94 где v, m y k r i, j{ r} kr,,...,,, f v i j v i j s i j 1 i, j{ r} M s i, j, (3.4) i j значение яркости пикселя изображения, соответствующего моменту m -го наблюдения, для индекса состояния с координатами i, j ; si, j площадь пикселя изображения индекса состояния с координатами i, j ; y k среднее по области значение урожайности на окончание текущего сезона для r территориального региона r и сельскохозяйственной культуры k ; суммирование площадей пикселей, i, j{ r} s i j по области r ; r множество пар значений координат пикселей для территориального региона r. Настройка параметров модели и получение конкретных функций сельскохозяйственной культуры происходит на этапе обучения. f kr для каждой области и Обозначим среднее значение индекса состояния растительности по области в момент m - го наблюдения как v m r. Средне значение этого индекса по области r вычисляется как v m r v m i, j{ r} i, j{ r} i, j si, j s i, j Так как для имеющихся в наличии данных статистики вариативность изменений урожая по отношению к амплитуде мала, то после разложения предложенной модели в ряд Тейлора по v m основной вклад в точность прогноза дают линейные члены. Пренебрегая нелинейными членами более высоких порядков, выпишем упрощенный вид линейной модели: где M m kr kr kr m m1. (3.5) y α v, (3.6) m kr параметры модели для территориального региона r и сельскохозяйственной культуры k, определяемые посредством многопараметрической регрессией; kr свободный член модели. Перепишем (3.4) с учётом (3.6):

95 95 y k r M m α krvm i j s i j s i, j kr i, j{ r} m1 i, j{ r} v,, i, j s i, j M m M m i, j{ r} m kr kr kr kr m 1, r m s i j m1 i, j{ r} α α v Изображения, соответствующие моментам измерений, которые предшествуют началу сбора урожая, считаются информативными для прогнозирования урожайности. Пусть сформирована коллекция мультиспектральных космических изображений за период в несколько лет. Также получены статистические данные об урожайности сельскохозяйственных культур для заданного набора областей интереса на соответствующем периоде долгосрочных наблюдений. На основании этих данных уточняются коэффициенты модели урожайности для каждой сельскохозяйственной культуры. Процесс обучения и прогнозирования для описанных в следующих разделах моделей плодородия требует дополнительной спецификации вектора параметров в формуле (2.33). Приведем общий вид специфицированного вектора параметров где 0. (3.7),,,, (3.8) C компоненты в составе для параметра тренда; компоненты в составе для параметров областей; Regions компоненты в составе для параметров сезонных наблюдений; компоненты в составе 0 для свободного параметра базовой модели. Также дополнительно введём символ для обозначения поэлементного умножения матриц и векторов.. Определение 3.1.Пусть заданы векторы a1 a a n и b b1. Тогда конкатенация b m векторов a записывается следующим образом b

96 96 a a 1 an b b1 b m. (3.9) 3.3 Развитие модели плодородия с учетом специфики задачи Результаты экспериментов с линейной многомерной моделью и накопленными данными показывают, что точность модели можно существенно улучшить посредством добавления в прогностическую формулу нелинейных членов. В процессе адаптации моделей к структуре имеющихся данных ДДЗ итеративно получены несколько версий исходной модели, которые условно обозначены следующим образом: модель 1: Базовая многомерная модель; модель 2: Локальная многомерная модель для отдельных областей; модель 3: Модель с мультипликативной поправкой для областей; модель 4: Трендовая модель с мультипликативной поправкой для областей. Ниже проводится описание и сравнение этих четырёх моделей прогнозирования урожайности Базовая многомерная модель прогнозирования урожайности. Пусть имеет место предположение, что внутри рассматриваемой области на земной поверхности климатические и почвенные характеристики различных объектов отличатся незначительно. Тогда модель может быть переписана в следующем виде: y M m rk k k vm r m1, (3.10) где y rk оценка урожайности сельскохозяйственной культуры для данной области r ; v m r усредненное значение индекса состояния вегетации для данной географической области; k

97 97 m свободный член модели; k настраиваемые параметры модели для отдельных интервалов времени вегетационного периода (или календарного года). В матричном виде процесс обучения базовой модели имеет вид где 0 конкатенация векторов Y Vˆ 0 и 0. Формула для прогнозирования в матричном виде, (3.11) Y ˆ 0 V Nˆ t, (3.12) где 0 конкатенация векторов и Локальная многомерная модель для отдельных областей. В том случае если предположение об минимальных различиях между рассматриваемыми областями неверно, необходимо возвратиться к более полной модели, описанной в формуле (3.7): где y M m rk rk kr vm r m1, (3.13) m kr - параметры модели, которые в этой модели меняются не только от момента m -го наблюдения, культуры к культуре k, но и от области к области r. Изменения параметров состояния объектов в зависимости от области должны учитывать не только изменения в составе почвы, но и средние климатические условия в этом регионе. Достоинство этой модели заключается в том, что выбранная формула позволяет осуществлять более тонкую настройку параметров модели с учётом особенностей конкретной области. Важным недостатком модели является тот факт, что настройка параметров требует гораздо больше исходных данных для обучения.

98 98 Модель 2 является единственной локальной моделью, рассматриваемой в работе. Как говорилось ранее параметры локальной модели (3.13) настраиваются на все области сразу. Этот факт требует изменения матрицы «объекты-признаки» ˆ V : 1 V r1 0 0 No 0 0 V r 1 P1 V 1 0 V r2 0 0 Vˆ N 0 o V 0 0 PN r2 P2 V V r P 0 0 No Vr P P1 V PV o, (3.14) где 0 - нулевой вектор, совпадающий по размерам с вектором сезонных наблюдений V. Размерность матрицы ˆ V равна PNo MP. При этом общий вид формул для описания процессов обучения и прогнозирования остаётся прежними, то есть (3.11) и (3.12) соответственно Модель с мультипликативной поправкой для областей. Для успешного практического применения базовая модель должна быть расширена, поскольку при дальнейшем возможном увеличении числа исследуемых регионов условие незначительного отличия почвенно-климатических условий для всех областей может не выполняться. В случае, когда количество статистических данных, доступных для настройки моделей для каждой из культур, не является достаточным, следует уменьшить количество регулируемых параметров. Так, в частности, можно предположить, что основной вклад, приводящий к отклонению значения урожайности от области к области, вносят следующие факторы:

99 99 области. плодородие почв в области; климатические особенности для каждого региона; количество солнечного света, зависящее от географического расположения В то же время, чтобы построить модель, сознательно игнорируется смещение периода вегетации во времени для различных административных областей, выбранных для данного исследования. Используя предположения, приведённые выше, получаем следующую формулу для прогностической функции: y C v M m rk rk k k m r m1, (3.15) m где r, yrk, vm, k, определены в формуле (3.10); C k rk коэффициент r производительности в области для конкретного типа культуры. где В матричном виде процесс обучения модели 3 имеет вид Y ˆ, (3.16) 0 V Regions. вектор параметров производительности областей, совпадающий по размерам с Regions вектором ответов Y. Формула для процесса прогнозирования в матричном виде Y ˆ 0. V Regions ˆ Nt ˆ N t, (3.17) где Regions вектор параметров производительности областей, сформированный с учётом ˆN t числа тестовых лет; Regions задаётся аналогично формуле (2.30) с учётом замены N ˆ Nˆt о на N ˆ t Трендовая модель с мультипликативной поправкой для областей. На протяжении последних десятилетий во всем мире наблюдается устойчивый рост показателя урожайности сельскохозяйственных культур [129, 136]. Вероятность сохранения подобной тенденции к увеличению показателей урожайности в ближайшие несколько лет

100 100 достаточно высока, поскольку актуальна необходимость обеспечивать растущее население планеты пищей. Анализ результатов прогнозирования с использованием модели 3 показывает наличие корреляция между годом прогнозирования и относительным отклонением нашего прогноза от фактических данных. Этот факт отражён на рисунке3.6, где показаны относительные отклонения (со знаком) прогнозов от реальных значений урожайности. Рисунок 3.6 Появление долгосрочного тренда в результатах прогнозирования моделью с мультипликативной поправкой для яровой пшеницы (a), озимой пшеницы (б), овощей (в) и картофеля (г) Отрицательные значения отклонения показывают, что фактическое значение урожайности оказывается ниже, чем предсказанное моделью, а положительные значения характеризуют обратный эффект. Усреднённые значения стандартных отклонений по всем исследуемым областям в зависимости от года также отмечены на рисунке 3.6, в виде планок погрешностей для каждого типа культуры.

101 101 Характер отклонений, приведённых на рисунке 3.6, позволяют выдвинуть гипотезу о существовании долгосрочной тенденции к улучшению урожайности, которая не зависит от индексов состояния растительности. Предполагая, что линейную зависимость величины изменения показателя урожайности от времени на рассматриваемом интервале, улучшим формулу из модели прогнозирования 3 (3.15) с учётом долгосрочного тренда. Выразим среднее значение урожайности для текущего года через урожайность предыдущего года по следующему правилу: y current y start y start current start Y Y, (3.18) где y current и y start средние значения урожайности для текущего года Y current и для года начала наблюдений Y start соответственно; относительный годичный прирост урожайности, обусловленный наличием долгосрочного тренда. Выразим y current через остальные переменные: 1. (3.19) y Y Y y current current start start Получаем следующую формулу для уточненной модели урожайности: где M 1 m yrk Y Ystart C rk k k vm r, (3.20) m1 m r, y, C, v t,, определены в формуле (3.15); Y текущий год, для которого rk rk r k k осуществляется прогнозирование; (3.18). Y start год начала наблюдений; определена в формуле Данный приём позволяет наложить периодичность сезонных колебаний вегетационного индекса на трендовую динамику статистических данных об урожайности за предыдущие годы. Выпишем матричный вид уравнений для процессов обучения модели 4 0 Y 1. Years.. Vˆ Regions Тогда процесс прогнозирования описывается следующей формулой 0 ˆ ˆ ˆ 1. N.. t ˆ N Regions Nˆ Nt t t Y Years V. (3.21), (3.22) где трендовый параметр для соответствующего тестового набора лет ˆ t ˆN t N ; Years Nˆ t задаётся аналогично формуле (2.1) с учётом замены N ˆ о на N ˆ t.

102 Использование метео-климатических данных для построения предикативного вектора В предыдущих исследованиях в качестве предиктора прогностической функции используется индекс NDVI, который имеет высокий уровень корреляции с количеством фотосинтетически активной биомассы [180]. Однако, информативность данного индекса при прогнозировании урожайности в рамках описанного в данной работе подхода носит ограниченный характер, который определяется следующими факторами: 16-дневные композиты, используемые для извлечения NDVI, не позволяют специфицировать наблюдения за состоянием вегетации на дневные и ночные; период сезонных наблюдений включает помимо весенних месяцев, также зимние, для которых характерно отсутствие зелени. Многие исследования показывают, что урожайность сельскохозяйственных культур зависит от климатических условий, сопутствующих процессу вегетации и созревания, для рассматриваемой территории [48, 50]. В связи с этим предлагается дополнить модель новым комплексным индексом, описывающим состояние растительности, в который входят усреднённые по области значения температуры и количества осадков. Для вычисления усреднённого значения температуры используется 8-дневные композиты LST сенсора MODIS, содержащие ночные и дневные наблюдения. Формула для вычисления нового предиктора имеет следующий вид v NDVI * LST, (3.23) m r m r m r где NDVI m усредненное по области значение индекса NDVI для момента наблюдения m ; r LST m усредненное по области значение индекса LST для момента наблюдения m. r Использование в качестве информативного признака температурного индекса LST позволяет учитывать факторы, влияющие на состояние растительности в ночное время. Эта особенность данных даёт положительный отклик предлагаемых моделей при прогнозировании урожайности сельскохозяйственных культур, количественных характеристик которых не зависят напрямую только от количества фотосинтетической биомассы, например картофель. В дальнейшем предполагается дополнить комплексный индекс v i 1,..., ˆ информацией о количестве выпавших на рассматриваемой территории осадков. I

103 Рекомендации по применению разработанных моделей На основе экспериментальных данных строится набор эмпирических моделей прогнозирования по данным дистанционного зондирования Земли. Применимость моделей определяется набором условиями, которые сведены в таблицу 3.1. Таблица 3.1 Условия применимости разработанных моделей прогнозирования. Название модели Описание условий применимости модели. Настройка параметров модели в зависимости от области интереса r p и типа характеристики k. 1. Модель 1 Набор параметров, описывающих состояние области в период сезонных наблюдений, мало отличаются для различных областей. r 1 r 2 k r 3 2. Модель 2 Набор параметров, описывающих состояние области в период сезонных наблюдений, отличаются для различных областей. r 1 r 2 k r 3 3. Модель 3 Выполняются условия для модели 1. Существует внешний фактор, влияющий на значение прогнозируемой характеристики, который не входит в состав вектора состояния области. r 1 r 2 k r 3 4. Модель 4 Выполняются условия для модели 3. Присутствует линейный тренд статистических данных для данной характеристики. r 1 r 2 k r 3

104 104 Выводы к главе 3 1. Проведено исследование по выбору наиболее информативных признаков в задаче прогнозирования урожайности по данным ДЗЗ. Предложен комплексный темпоральный индекс состояния вегетации, который представляет собой комбинацию различных факторов, оказывающих влияние на состояние растительности в течение сезонных наблюдений. 2. Представлен набор моделей плодородия для прогнозирования урожайности сельскохозяйственных культур. Рассмотрены этапы усовершенствования модели плодородия для повышения точности и заблаговременности прогнозирования. 3. Сформулированы рекомендации по применению разработанных моделей для прогнозирования характеристик явлений и процессов, принадлежащих к определённому классу.

105 105 Глава 4. Анализ результатов применения численного метода для прогнозирования урожайности различных областей РФ и различных сельскохозяйственных культур В главе приводятся результаты вычислительных экспериментов с набором моделей, описанных в главе 3. Обучение моделей проводится с использованием алгоритмов многомерной оптимизации. Результатом прогнозирования является ожидаемое значение урожайности сельскохозяйственных культур для различных территорий. Проводится анализ применимости моделей с помощью процедуры кросс-валидации. Оценивается значимость полученных прогнозов. Получены и проанализированы графики зависимости точности прогнозирования от продолжительности сезонных наблюдений и момента прогнозирования. 4.1 Настройка моделей плодородия Вычислительный эксперимент требует предварительной подготовки, которая состоит из стадии подготовки и сбора данных (см. Рис. 4.1). Перед тем, как начинать эксперимент необходимо задать параметры исходных данных и осуществить их загрузку согласно процедуре, описанной в пункте Как показано на рисунке 4.2 параметры загрузки исходных данных определяют тип и количество сельскохозяйственных культур, набор лет для наблюдения за состоянием областей интереса, набор областей интереса и типы данных ДЗЗ. После чего происходит загрузка данных согласно процедуре Планирование численного эксперимента. Сбор данных для численного эксперимента Схематически описание стадий предварительной подготовки численного эксперимента представлено на рисунке 4.1.

106 106 1 Стадия планирования численного эксперимента Параметры загрузки исходных данных Набор с/х культур Период наблюдений N Набор областей интереса Данные ДЗЗ (тип изображений) Сервер ЕМИСС Интерактивная витрина ФГСС FTP-сервер USGS 2 Стадия сбора данных для численного эксперимента Исходные данные 1) коллекция изображений (Level 3) 2) статистическая информация Рисунок 4.1 Блок-схема стадий предварительной подготовки численного эксперимента Первая стадия предварительной подготовки это планирование численного эксперимента, результатом которого является параметры загрузки исходных данных: набор сельскохозяйственных культур C ; период наблюдений N ; набор областей интереса R ; данные ДЗЗ (тип изображений). Вторая стадия предварительной подготовки это сбор данных для численного эксперимента. Результатом второй стадии является коллекция мультиспектральных космических изображений (Level 3) для заданных областей в течение N лет и статистическая данные по урожайности с/х культур для заданных областей интереса на протяжении периода наблюдений N. Работа с данными ДЗЗ, в частности, космическими изображениями требует определенных знаний о том, как получаются подобные изображения и где можно их получить.

107 107 Большая часть изображений высоко разрешения является платным продуктом, который поставляется соответствующими компаниями. Остальные данные имеют свободный доступ, например, размещаются на ftp-серверах в сети интернет. В данном случае загрузка изображений осуществляется из официального архива геологической службы USGS [211] в пакетном режиме с помощью утилиты wget [214]. Как указано в пункте 2.2.1, для прогнозирования характеристик состояния областей земной поверхности используются спутниковые данные, соответствующие уровню предварительной обработки Level 3 (см. Табл. 2.1). Важным условием применения таких изображений в данном эксперименте является наличие географической привязки, поскольку с её помощью совмещаются данные дистанционного зондирования и данные наземных наблюдений. Загрузка статистических данных осуществляется с серверов официальной службы статистики РФ [46] и Единой межведомственной информационно-статистической системы [40]. Наличие двух источников информации позволяет проводить верификацию и заполнение недостающих данных. Выгрузка данных с серверов указанных служб доступна в виде таблиц XML [221] или в формате SDMX [197]. Результатом предварительной подготовки численного эксперимента является коллекция мультиспектральных изображений, собранная за период наблюдений N лет для набора областей интереса R, и статистические данные наземных наблюдений по урожайности с/х культур C в течение N лет для набора областей интереса R. Эти данные поступают на вход метода прогнозирования (см. Рис. 4.2) Численный эксперимент Общая схема численного эксперимента представлена на рисунке 4.2.

108 108 Исходные данные 1) коллекция изображений (Level 3) 2) статистическая информация 2 Вычисление матриц информативных признаков 1) Вычисление векторов состояния 2) Составление матриц «объектыпризнаки» 1 Предварительная обработка 1) Структурирование исходных данных по областям и по годам с получением многослойных изображений 2) Выбор продолжительности сезонных наблюдений 3) Выделение информативного сигнала Матрицы «объекты-признаки» Структурирование статистических данных Статистические данные Тестовые данные статистики Тестовые данные 1) сезонные наблюдения по ДДЗ 2) статистические данные 5 Получение прогноза Прогноз 6 Статистический анализ 1) Оценка точности прогноза 2) Проверка значимости прогнозов 4 Поиск параметров модели 1) Многомерная оптимизация Данные на обучение 1) долгосрочные наблюдения по ДДЗ 2) статистические данные 3 Выбор модели для обучения 1) Модель 1 2) Модель 2 3) Модель 3 4) Модель 4 Рисунок 4.2. Блок-схема численного эксперимента по обучению моделей плодородия и прогнозированию урожайности Этап 1 начинается со структурирования исходных данных согласно параметрам, определённым на стадии планирования численного эксперимента (блок-1, рис. 4.1). Исходные данные (коллекция изображений и статистическая информация), загруженные из внешних источников, попадают на вход блоку-1 (см. Рис. 4.2) предварительной обработки. Внутри этого блока изображения формируются в многослойные изображения по признаку области интереса и по отдельным годам, также осуществляется выбор продолжительности сезонных наблюдений для последующего вычисления матриц информативных признаков. Наличие географической привязки исходных данных позволяет автоматизировать процесс выделения областей интереса на изображениях с помощью шейп-файлов [125], которые задают границу областей интереса. На следующем шаге происходит выделение информативного сигнала с помощью метода, описанного в пункте 2.3.1, который заканчивается набором шейп-файлов для уточнённых границ областей интереса. После чего полученные многослойные изображения преобразуются с

109 109 учётом найденных границ областей интереса. Подробно описание процесса предварительной обработки приведено в пункте Выбор продолжительности сезонных наблюдений осуществляется на всей коллекции изображений за все годы N с учётом числа наблюдений g, проводимых внутри одного года n N, по формуле (2.8). Данные статистики n структурируются по типу с/х культур, значения урожайности за N лет объединяются в вектора по признаку области интереса. На выходе этапа 1 формируется коллекция изображений, структурированных по признаку области интереса в датасеты по годам, статистические данные структурированы в вектора значений урожайности за N лет по каждой области интереса и культуре, определены продолжительность и конкретные моменты 1,..., M сезонных наблюдений. Этап 2 начинается с загрузки датасетов, полученных на этапе 1, в блок-2 (см. Рис. 4.2) вычисления матриц информативных признаков. На этапе 1 определены продолжительность и конкретные моменты 1,..., M сезонных наблюдений. Вектор сезонных наблюдений за состоянием области интереса r p вычисляется с помощью формулу (3.5) для каждого многослойного изображения состояния области интереса, то есть D n за год n и удовлетворяет определению 2.16 вектора n p Vr v1,..., v r r n p p M, (4.1) где r v p m усредненное по области p r значение индекса состояния v в момент наблюдений m. Процедура нахождения вектора сезонных наблюдений (4.1) повторяется для всех имеющихся лет N по всем областям интереса R { r } P p p1. Из полученных наборов векторов составляются матрицы «объекты-признаки». Процесс вычисления векторов состояния областей и составления матриц информативных признаков описан в пункте ой этап завершается формированием матриц «объекты-признаки» для заданной продолжительности и 1,...,M сезонных наблюдений в течение каждого года n N по области r p R. Поскольку при обучении моделей плодородия данные по урожайности для различных с/х культур не смешиваются, то этап 3 начинается с выбора сельскохозяйственной культуры, для которой осуществляется прогнозирование урожайности, выделяются наборы тестовых данных и данных на обучение. Статистические данные хранят историческую информацию о

110 110 значениях характеристик областей интереса на протяжении всего периода долгосрочных наблюдений. Эти данные разделяются на два множества: 1. тестовые данные для проверки точности полученных прогнозных значений характеристик областей интереса; 2. данные для обучения, используемые при настройке параметров моделей. 3. По данным ДЗЗ вычисленные на этапе 2 векторы состояния области и матрицы «объекты-признаки» также разделяются на два множества: 4. сезонные наблюдения в течение тестовых лет векторы состояния области для тестовых лет, используемые для получения прогнозов; 5. долгосрочные наблюдения за состоянием областей интереса по ДДЗ матрицы «объекты-признаки», составленные по данным для лет на обучение. 3-ий этап завершается формирование данных на обучение и тестовых данных из матриц «объекты-признаки», описывающие состояние областей интереса по ДДЗ, и векторов урожайности, составленных из данных официальной статистики. 4-ый этап начинается с выбора модели плодородия, которая применяется для прогнозирования ожидаемого значения урожайности. Модель плодородия определяется видом прогностической функции, которая связывает изменение состояния растительности в течение сезонных наблюдений с ожидаемым значением урожайности для соответствующего календарного года. Предикативный вектор, компоненты которого входят в запись выражения для прогностической функции, характеризует состояние растительности для области интереса в целом. Процесс обучения модели плодородия состоит в отыскании параметров прогностической функции, наилучшим образом приближающих её значения на множестве лет выбранных для обучения. Для поиска параметров прогностической функции используется многомерная оптимизация на данных матрицы «объекты-признаки», которая составлена из векторов состояния области интереса (предикативный вектор) путём их объединения по всем годам на обучение и всем областям интереса (см. п , формула (2.31)), и статистических данных по урожайности для выбранной с/х культуры за все года на обучение и для всех областей интереса. Данные на обучение, полученные на выходе второго этапа, загружаются в блок-3 (см. Рис. 4.2) выбора модели прогнозирования. Выбранная модель прогнозирования урожайности вместе с обучающими данными поступает на вход блока-4 (см. Рис. 4.2) поиска параметров прогностической функции. В результате многопараметрической оптимизации находятся оптимальные значения параметров модели прогнозирования урожайности. Подробно процесс обучения описан в пункте Далее следует процесс прогнозирования урожайности, подробно описанный в пункте При прогнозировании урожайности используются только

111 111 данных дистанционного зондирования, полученных на протяжении сезонных наблюдений за состоянием растительности для тестовых лет. В качестве предикативного вектора используется вектор состояния области интереса для тестовых лет, которые составляются в матрицу «объекты-признаки» (см. п ) образом аналогичным, описанному в процедуре обучения. В прогностическую функцию модели плодородия подставляются значения параметров, полученные в результате оптимизации, и значения вектора состояния области для тестовых лет. Вычисленное таким образом значение прогностической функции на тестовых данных является оценкой ожидаемого значения урожайности для областей интереса на множестве тестовых лет (блок-5, рис. 4.2). Для оценки точности получаемых прогнозов используются тестовые данные, сформированные на 3-ем этапе. Спрогнозированные значения урожайности используются для оценки точности и значимости прогнозов (блок-6, рис. 4.2). Процедура оценки точности прогноза рассматривается в пункте 4.1.3, а процедура оценки статистической значимости полученных прогнозов в параграфе 4.3. В конце 4-го этапа получаются ожидаемые значения урожайности выбранной с/х культуры для набора тестовых лет и всех областей интереса, оценки точности осуществлённых прогнозов, делается вывод о значимости прогнозов Оценка точности прогноза Оценка точности получаемых прогнозов значения урожайности проводятся для тестового набора лет отдельно по каждой сельскохозяйственной культуре и по каждой модели плодородия. Пусть заданы период наблюдений N, количество областей интереса R { r } P p p1, типы сельскохозяйственных культур C { c } D d d1. Рассмотрим случай, когда тестовая выборка включает данные об урожайности только за один год n t. Обозначим элемент тестовой выборки rp nt y. Пусть в результате прогнозирования для культуры c d с использованием одной из моделей, описанных в главе 3, получены ожидаемые значения урожайности f rp nt. Тогда погрешность прогноза для каждой области r p рассчитывается по формуле rp rp r y p n f t nt nt rp yn t f, (4.2)

112 112 где y значение урожайности для области r p в год n t ; rp nt f предсказанные моделью значения урожайности для области r p в год n t. rp nt Если говорить о точности модели при прогнозировании урожайности культуры c d для года n t на всем наборе областей интереса R, то используется следующая формула E cd nt r f 2 nt 1 p P, (4.3) rp R где P количество областей интереса. В случае, когда необходимо оценить изменение точности прогнозирования урожайности культуры c d для конкретной области r p на наборе тестовых лет N t, используется формула E c r d p r f 2 nt 1 p N t n N t. (4.4) t 4.2 Сопоставление результатов прогнозирования урожайности с использованием разработанных моделей Первая серия экспериментов, результаты которых позволили сказать, что предлагаемый подход работает, проводилась для следующих наборов исходных данных: о 1. Nˆ 2000,...,2009 лет период наблюдений; региональных образований РФ; дневные композиты NDVI используются для нахождения вектора состояния области; 4. Индекс NDVI удобен с практической точки зрения еще и тем, что он свободно доступен в форме безоблачных композитов за продолжительное время [211]. 5. три вида с/х культур (пшеница, овощи, картофель). Обучающая выборка была составлена из значений урожайности для N ˆ 2000, 2001, 2002, 2005, 2006, 2007, Тестовая выборка включает данные для одного года N ˆ 2009 t. Сезонные наблюдения охватывают период в 4-5 месяцев, начиная с марта. Статистическая информация об урожайности за весь период наблюдений N по отдельным культурам официально предоставляется службой государственной статистики Российской Федерации и находится в открытом доступе [46].

113 Прогнозы с использованием модели 1. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 1 представлены на рисунках 4.3 (а)-(в). (а) (б) (в) Рисунок 4.3 Первая серия экспериментов. Сравнение результатов прогнозирования в 2009 году с использованием модели 1: (а) зерно, (б) овощи, (в) картофель Прогнозы с использованием модели 2. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 2 представлены на рисунках 4.4 (а)-(в).

114 114 (а) (б) (в) Рисунок 4.4 Первая серия экспериментов. Сравнение результатов прогнозирования в 2009 году с использованием модели 2: (а) зерно, (б) овощи, (в) картофель Прогнозы с использованием модели 3. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 3 представлены на рисунках 4.5 (а)-(в).

115 115 (а) (б) (в) Рисунок 4.5 Первая серия экспериментов. Сравнение результатов прогнозирования в 2009 году с использованием модели 3: (а) зерно, (б) овощи, (в) картофель Прогнозы с использованием модели 4. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 4 представлены на рисунках 4.6 (а)-(в).

116 116 (а) (б) (в) Рисунок 4.6 Первая серия экспериментов. Сравнение результатов прогнозирования в 2009 году с использованием модели 4: (а) зерно, (б) овощи, (в) картофель Сравнение моделей. Численные результаты прогнозирования урожайности на 2013 год сведены в таблицу 4.1. Данные таблицы показывают, как изменяется погрешность прогноза в зависимости от используемой модели по каждой культуре в отдельности. Таблица 4.1 Сравнение точности прогнозирования для различных моделей и с/х культур по результатам для 2009 года. Модель 1 Модель 2 Модель 3 Модель 4 Погрешность, %. Зерно

117 117 Модель 1 Модель 2 Модель 3 Модель 4 Овощи Картофель Визуальное сравнение качества работы моделей можно проводить с использованием диаграммы на основе табличных данных, представленной на рисунке 4.7. В результате анализа можно сказать, что «Трендовая модель с мультипликативной поправкой для областей» показала лучшие значения точности на данных первой серии экспериментов. Ошибка в % (стандартное отклонение) Ошибки прогнозов для разных культур и моделей для 2009 года Пшеница Овощи Картофель Модель 1 Модель 2 Модель 3 Модель 4 Рисунок 4.7 Сравнение точности прогнозирования урожайности различных с/х культур по всем моделям для 2009 года 4.3 Оценка статистической значимости полученных прогнозов Помимо оценок (4.3), (4.4) важным критерием применимости моделей прогнозирования является проверка статистической значимости полученных прогнозов. Для этих целей используется критерий Фишера [120]. В качестве статистической функции выбраны два вида коэффициентов детерминации: нескорректированный и скорректированный (истинный) [120]. Вычисление нескорректированного коэффициента детерминации формуле: r nt r nt R 2 1 p p где y, f определены в формуле (4.2); r R p p r R y r n y p t r n p t f r n t y p R осуществляется по, (4.5)

118 118 y усредненное значение урожайности по данным для всех областей за тестовый год n t. В свою очередь скорректированный (истинный) коэффициент детерминации вычисляется с использованием следующей формулы R s R adj 1 1 s q где s количество наблюдений, участвовавших в обучении модели;, (4.6) q количество степеней свободы модели (количество независимых параметров). Для проверки статистической значимости модели используется критерий Фишера. Выдвигается гипотеза о равенстве 2 R нулю, то есть модель не объясняет данные. Статистика, adj связанная с коэффициентом детерминации, вычисляется по формуле: F(q 1,s q 1) 2 adj 2 adj R sq1 1 R q 1 где s количество наблюдений, участвовавших в обучении модели;, (4.7) q количество степеней свободы модели (коэффициент количество независимых параметров); 2 R скорректированный (истинный) детерминации. adj Полученное значение функции статики сравнивается с табличным значением, которое является максимальным значением критерия под влиянием случайных факторов при текущих степенях свободы и уровне значимости для распределения Фишера. В таблице приведены рассчитанные значения коэффициентов детерминации, которые характеризуют соответствие модели реальным данным для результатов на 2009 год для каждой из рассматриваемых культур. Количество независимых наблюдений, учувствовавших в обучении, во всех случаях равно произведению количества областей (14) на количество лет (9), взятых для исследования, и составляет 126. Таблица 4.2 Сравнение статистической значимости модели 4 для различных культур для результатов на 2009 год Пшеница Овощи Картофель 2 Нескорректированный коэффициент детерминации R Количество наблюдений s Количество свободных параметров q 21 Скорректированный (истинный) коэффициент детерминации R adj Значение статистики F

119 119 Табличное значение F -критерия на уровне значимости α Вычисление коэффициента детерминации проводилось с учетом числа зависимых переменных приведенной модели. Приближение коэффициента детерминации к 1 говорит о лучшем соответствии модели данным. Приведенные в таблице 4.2 результаты позволяют заключить, что модель 4 показывает лучшее соответствие данным для прогнозирования урожайности овощей и картофеля, чем для пшеницы. Это может быть следствием того, что значение урожайности для пшеницы за все года включает урожайности как яровой, так и озимой пшеницы, причем сбор урожая яровой и озимой пшеницы проводится в разное время. Рассчитанные значения F -критерия для всех трех культур превышают табличное значение на заданном уровне значимости α 0. 05, что подтверждает значимость построенной модели (отвергает выдвинутую гипотезу о ее незначимости). В первой серии экспериментов лучшая из представленных моделей позволяет осуществлять прогнозирование урожайности с 10-ти процентной погрешностью, что меньше стандартного отклонения показателя урожайности зерновых 17 %. 4.4 Оценка применимости модели посредством процедуры кроссвалидации Обобщающая способность моделей оценивается с помощью метода кросс-валидации (контроль по блокам) [101]. Весь набор входных данных несколько раз разбивается на два подмножества: обучающая и тестовая выборки. Каждый раз берется новая тестовая выборка. В общей сложности проводится N (по общему числу лет) различных проверок. Разбиения формируются таким образом, чтобы данные по каждому году по меньшей мере один раз составляли тестовую выборку целиком. Общая схема процедуры кросс-валидации представлена на рисунке 4.8.

120 120 Все данные Тест Обуче ние Обуче Обуче Обуче... Тест ние ние ние... Обуче ние Обуче ние Обуче ние Обучен ие... Обуче ние Тест Модель прогнозирования Модель прогнозирования Модель прогнозирования Оценка точности Оценка точности Оценка точности Усреднение точности по всем разбиениям Рисунок 4.8 Процедура кросс-валидации Результаты кросс-валидации оказываются чрезвычайно полезными, поскольку с их помощью можно провести выбор продолжительности сезонных наблюдений и момента прогнозирования для каждой культуры, которым соответствует наилучшая точность. 4.5 Зависимость точности прогноза от момента прогнозирования и типа с/х культуры Можно предположить, что чем раньше осуществляется прогноз, тем менее точным он оказывается. С другой стороны, близость момента прогнозирования к моменту сбора урожая определяет его надежность. Поэтому необходимо исследовать зависимость надежности (точности) прогноза от момента прогнозирования для конкретной модели и используемых данных. Описанная в предыдущем разделе процедура кросс-валидации также используется при исследовании зависимости точности прогноза от момента прогнозирования, чтобы исключить влияния конкретного года. В каждом случае предполагается, что данные дистанционного зондирования доступны вплоть до момента прогнозирования. Например, если предсказание

121 121 осуществляется 13 августа, то доступными для анализа считаются все данные дистанционного зондирования (в этом году) до этой даты. Кросс-валидация используется для оценки эффективности модели прогнозирования способом, аналогичным тому, который обычно применяется для классификаторов. Оценки точности прогноза для одного года нельзя считать статистически значимыми, поэтому во время проверки допускается возможность нарушения хронологического порядка данных на обучение и тестовых данных. Такая перестановка в данных не ставит под угрозу процедуру валидации по следующим причинам: 1. сценарий прогнозирования для каждого года основан на обработке данных текущего года и не зависит от данных других лет (в том числе предыдущих); 2. алгоритм прогнозирования использует только данные внутри периода вегетации для текущего года, которые строго предшествуют моменту прогнозирования. Другими словами, модель получает на вход только наблюдения до момента прогнозирования, и не предполагается каких-либо будущих данных в пределах рассматриваемого года. При имитации изменения даты прогнозирования выбор снимков, используемых в модели, производится методом «скользящего окна». При этом количество снимков, определяющее период наблюдения за процессом вегетации, остается одинаковым. Неизменность периода сезонных наблюдений требуется для того, чтобы избежать переобучения модели и сохранить отношение количества данных для обучения с числом коэффициентов модели. Результаты прогнозирования урожайности для двух культур приведены в таблице 4.2. Погрешность прогнозирования оценивается как стандартное отклонение прогнозируемых значений урожайности от данных официальной статистики. Как видно из таблицы 4.3 самый низкий уровень точности соответствует моменту прогноза, приходящемуся на конец весны/ начало лета. Это связано с тем, что данные о состоянии растительности на ранних стадиях вегетации являются менее информативными, чем в стадии созревания. На рисунке 4.8 представлен график изменения уровня ошибки прогнозирования при увеличении даты прогноза. Стоит отметить, что предложенная модель не требует дополнительной информации о территории, занятой растительностью и, в частности, посевами с/х культур, которые обычно используются в аналогичных исследованиях [146]. Разработанный метод извлекает необходимую информацию из данных об общем состояния растительности в данной области, а не - конкретной культуры. Отсутствие масок посевов может привести к снижению точности прогнозов. Тем не менее, сравнение наших результатов с результатами других исследований [146] показывает, что наша модель продемонстрировать конкурентные точность даже без маски

122 122 культур или другой информации о посевных площадях, таких как типы почвы и погодные условия. Таблица 4.3 Стандартное отклонение прогнозов урожайности для различных культур с использованием кросс-валидации для трендовой модели с мультипликативной поправкой для областей за период Лучшие результаты по точности выделены жирным курсивом. Момент прогнозирования 5 апреля 21 апреля 7 мая 23 мая 8 июня 24 июня 10 июля 26 июля 11 августа Погрешность, % Зерно 16,2 16,1 15,7 15,2 16,3 17,0 16,2 11,4 10,9 Картофель 19,6 20,6 18,3 17,6 18,0 17,4 19,8 16,5 16,9 Зависимость ошибок прогнозирования от момента прогноза показана на рисунке 4.9 для урожаев зерновых (см. Рис. 4.9 (а)) и картофеля (см. Рис. 4.9 (б)). (а) (б) Рисунок 4.9 Зависимость погрешности прогнозирования с использованием Модели 4 (стандартное отклонение прогнозов урожайности от реальных данных) в зависимости от даты совершения прогноза: (а) для зерновых; (б) для картофеля

123 123 Проанализировав полученные графики, можно сделать несколько важных выводов. Вопервых, выбор продолжительности сезонных наблюдений при прогнозировании урожайности для различных с/х культур должен быть согласован с моментом сбора урожая и предшествовать ему, поскольку после сбора урожая следует говорить только об оценке урожайности. Вовторых, используемый в первой серии экспериментов вектор состояния растительности является недостаточно информативным для прогнозирования урожайности различных с/х культур, о чем свидетельствует локальные понижения точности для дат близких к моменту сбора урожая. Вторая серия экспериментов проводилась с учётом недостатков, выявленных в первой серии экспериментов. 4.6 Уточнение параметров прогностической модели после расширения обучающих данных Первая серия экспериментов показала работоспособность модели, но анализ результатов прогнозирования, оценки точности и применимости моделей прогнозирования выявил необходимость дополнительных исследований по улучшению качества работы представленных моделей. Для этих целей произведены расширение периода наблюдений и увеличение количества областей интереса, вектор состояния растительности дополнен новыми признаками. Вторая серия экспериментов проводилась на расширенном периоде наблюдений и увеличенном количестве областей интереса, что позволило увеличить общее число элементов обучающей выборки. Вторая серия экспериментов проводилась для следующих наборов исходных данных: 1. Nˆ 2000,...,2013 лет период наблюдений; региональных образований РФ; дневные композиты NDVI и 8-дневные композиты LST используются для нахождения вектора состояния области; 4. четыре вида с/х культур (яровая пшеница, озимая пшеница, овощи, картофель). Обучающая выборка была составлена из значений урожайности для N ˆ 2000, 2001, 2002, 2005, 2006, 2007, 2008, 2009, 2011, 2012 о включает данные для одного года ˆ месяца, начиная с марта. t. Тестовая выборка N. Сезонные наблюдения охватывают период в 2-

124 Уточнение оптимального момента прогнозирования и состава вектора состояния растительности для расширенного вектора признаков. В результате первой серии экспериментов обнаружены не только направления по улучшению предложенных моделей, но и получена процедура оценки точности по методу кросс-валидации, которая позволяет определять оптимальную дату прогнозирования для различных сельскохозяйственных культур. Воспользуемся этой процедурой для определения продолжительности сезонных наблюдений во второй серии экспериментов. Прежде чем тестировать модели на расширенных наборах входных данных второй серии экспериментов, необходимо определить конкретный вид предикативного вектора, который даёт лучшую точность на входных данных первой серии экспериментов. Как показано в пункте 3.1.1, для увеличения корреляции предикативного вектора моделей прогнозирования урожайности и состояния растительности следует использовать комплексный индекс вегетации, описанный в пункте Общий вид комплексного индекса состояния растительности приведён в формуле (3.23). Сравнивания графики изменения точности прогнозирования в зависимости от даты прогноза для различных вариантов комплексного индекса отдельно по каждой культуре (см. Рис ): «NDVI» (см. Рис (а)); «NDVI LST «NDVI LST» (см. Рис (б)); 2» (см. Рис (в)), можно сказать, что наилучшую заблаговременность прогноза на заданном уровне точности показывает индекс, в состав которого входят индекс NDVI и квадрат температурного индекса LST. Данные индекса LST содержат информацию о температуре земной поверхности в ночное и дневное время суток. Поскольку индекс NDVI отражает состояние растительности в дневное время суток, когда регистрируется отраженный солнечный свет, то использование ночных данных индекса LST позволяет учитывать влияние на состояние растительности колебаний температуры в ночное время суток. Тогда формула (3.23) принимает вид * 2 v NDVI LST. (4.8) m r m r m r

125 Зависимость точности прогноза от даты прогнозирования для картофеля Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., (а) Зависимость точности прогноза от даты прогнозирования для картофеля Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., (б) Зависимость точности прогноза от даты прогнозирования для картофеля Трендовая модель с мультипликативной поправкой для областей 20 Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (в) Рисунок 4.10 Зависимость погрешности прогнозирования в зависимости от даты совершения прогноза для картофеля с использованием Модели 4 на основе комплексного индекса: (а) «NDVI»; (б) «NDVI LST»; (в) «NDVI 2 LST»

126 Зависимость точности прогноза от даты прогнозирования для овощей Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (а) Зависимость точности прогноза от даты прогнозирования для овощей Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (б) 12 Зависимость точности прогноза от даты прогнозирования для овощей Трендовая модель с мультипликативной поправкой для областей 11.8 Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (в) Рисунок 4.11 Зависимость погрешности прогнозирования в зависимости от даты совершения прогноза для овощей с использованием Модели 4 на основе комплексного индекса: (а) «NDVI»; (б) «NDVI LST»; (в) «NDVI 2 LST»

127 127 Зависимость точности прогноза от даты прогнозирования для яровой пшеницы Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (а) Зависимость точности прогноза от даты прогнозирования для яровой пшеницы Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (б) Зависимость точности прогноза от даты прогнозирования для яровой пшеницы Трендовая модель с мультипликативной поправкой для областей Погрешность в % (стандартное отклонение) Апр., 5 Апр., 21 Май, 7 Май, 23 Июн., 8 Июн., 24 Июл., 10 Июл., 26 Авг., 11 (в) Рисунок 4.12 Зависимость погрешности прогнозирования в зависимости от даты совершения прогноза для яровой пшеницы с использованием Модели 4 на основе комплексного индекса: (а) «NDVI»; (б) «NDVI LST»; (в) «NDVI 2 LST»

128 128 «Полученные результаты показывают, что использование комплексного индекса NDVI LST 2» позволяет помимо улучшения точности прогнозирования, значительно увеличить заблаговременность осуществляемого прогноза по всем культурам. Проанализировав графики, представленные на рисунках (в), можно сказать, что ожидаемый характер зависимости (чем ближе к моменту сбора урожая, тем точнее прогноз) наблюдается только для картофеля (см. Рис (в)) и яровой пшеницы (см. Рис (в)). При этом график для овощей (см. Рис (в)) также можно считать ожидаемым, поскольку процесс созревания для культур этой группы завершается значительно раньше [74], чем для картофеля и яровой пшеницы [78]. Таким образом, оптимальной датой прогнозирования в первой серии экспериментов для яровой пшеницы и картофеля является 23 мая, а для овощей 7 мая. После определения оптимальной даты прогнозирования для каждой с/х культуры перейдем непосредственно ко второй серии экспериментов с моделями прогнозирования на расширенном периоде наблюдений 14 лет и с увеличенным до 29 количеством областей интереса Прогнозы с использованием уточнённой модели 1. Результаты прогнозирования урожайности пшеницы (яровая и озимая), овощей и картофеля с использованием модели 1 представлены на рисунках 4.13 (а)-(г).

129 129 (а) (б) (в) (г) Рисунок 4.13 Вторая серия экспериментов. Сравнение результатов прогнозирования в 2013 году с использованием модели 1: (а) яровая пшеница, (б) яровая пшеница, (в) овощи, (г) картофель Прогнозы с использованием уточнённой модели 2. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 2 представлены на рисунках 4.14 (а)-(г).

130 130 (а) (б) (в) (г) Рисунок 4.14 Вторая серия экспериментов. Сравнение результатов прогнозирования в 2013 году с использованием модели 2: (а) яровая пшеница, (б) яровая пшеница, (в) овощи, (г) картофель Прогнозы с использованием уточнённой модели 3. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 3 представлены на рисунках 4.15 (а)-(г).

131 131 (а) (б) (в) (г) Рисунок 4.15 Вторая серия экспериментов. Сравнение результатов прогнозирования в 2013 году с использованием модели 3: (а) яровая пшеница, (б) яровая пшеница, (в) овощи, (г) картофель Прогнозы с использованием уточнённой модели 4. Результаты прогнозирования урожайности зерновых, овощей и картофеля с использованием модели 4 представлены на рисунках 4.16 (а)-(г).

132 132 (а) (б) (в) (г) Рисунок 4.16 Вторая серия экспериментов. Сравнение результатов прогнозирования в 2013 году с использованием модели 4: (а) яровая пшеница, (б) яровая пшеница, (в) овощи, (г) картофель Аналогично процедуре, описанной в пункте 4.5, получим графики зависимости точности прогнозов от момента прогнозирования для пшеницы (яровая и озимая), овощей и картофеля. Зависимость ошибок прогнозирования от момента прогноза показана на рисунке 4.9 для урожаев яровой и озимой пшеницы (см. Рис (а), (б)) и картофеля (см. Рис (в)).