Версия для печати | Декомпозиционный подход к осуществлению территориально распределенных параллельных вычислений как направление информатизации ТЭК — Российская ассоциация электронных библиотек

И. Дзегеленок

Декомпозиционный подход к осуществлению территориально распределенных параллельных вычислений как направление информатизации ТЭК

Введение

Существует большой класс территориально-распределенных промышленных объектов в масштабах ТЭК. К таким объектам можно, например, отнести большие электроэнергетические системы (ЭЭС) и крупные объединения, системы управления магистральными нефтепроводами и газопроводами.

Однако применяемый в настоящее время централизованный подход к управлению, зачастую, является именно тем «узким звеном», которое приводит к неоправданному увеличению времени реакции, необходимости выполнения приближенных расчетов, несанкционированному вмешательству во внутренние дела подсистем и, в конечном счете, к малой живучести системы в целом.

Между тем, при решении комплекса взаимосвязанных задач управления ЭЭС как в России, так и в странах СНГ по традиции используется централизованный подход [1]. Поэтому отмеченные столь серьезные препятствия во многом остаются в силе. Наиболее ярко они проявляются на примере реализации базовых алгоритмов расчета установившегося режима ЭЭС. Такие расчеты требуются для нахождения оптимальных режимов качественного производства и передачи электроэнергии как в условиях долгосрочного планирования, так и при ведении текущего диспетчерского управления.

Возможный путь к устранению отмеченных затруднений – переход к распределенному управлению [5]. Но для этого необходима территориально–распределенная вычислительная среда (ТРВС), призванная объединить удаленные вычислители в единое целое [6]. Нужно лишь заметить, что организация удаленного доступа к мощному суперкомпьютеру, установленному в центре управления, не отвечает поставленной цели. Главное требование, предъявляемое к ТРВС, – согласованное параллельное взаимодействие вычислителей на относительно больших расстояниях с обеспечением обработки исходных и текущих данных по месту их возникновения.

Требования к ТРВС мы в дальнейшем конкретизируем. А пока укажем лишь одно: необходимость выполнения параллельных вычислений на уровне взаимодействия подсистем. Данное требование выдвигается не только ради ускорения вычислений. Важно осуществить и поддержать естественный, в данном случае крупноблочный параллелизм в обеспечении функционирования подсистем. Сказанное позволяет отнести ТРВС к классу специализированных GRID-систем [7], представляющих IP-сетевое глобальное объединение многочисленных вычислителей в единый ресурс.

Реализация собственно ТРВС – лишь одна сторона медали. Вторая ничуть не менее важная составляющая проблемы – поиск и, по возможности, строгое обоснование принципов построения математической модели и алгоритмов территориально распределенного параллельного управления объектом с позиций декомпозиционного подхода [3,4] .

Рассмотрение проблемы в целом как раз и составляет содержание данной работы.

1. Декомпозиция объемных задач на примере расчета установившегося режима ЭЭС

Поясним возможность построения такого рода модели применительно к решению одной из основных задач управления электроэнергетическими системами – задачи расчета установившегося режима [5]. Данная задача сводится к расчету токов, напряжений и потоков мощности эквивалентированной электрической сети, состоящей из сотен и тысяч узлов.

Рис. 1. Схема организации взаимодействия подсистем ЭЭС

Схема ЭЭС определяется взаимодействием своих подсистем (рис.1) , так что каждая подсистема находится под воздействием локального центра управления (ЛЦУ). Координация взаимодействия ЛЦУ производится главным центром управления (ГЦУ). При определении рассматриваемого алгоритма взаимодействия подсистем предполагается, что эквивалентированная сеть ЭЭС велика и состоит из нескольких подсетей с небольшим числом соединений между собой. Иначе говоря, число внутренних узлов подсетей значительно превосходит число граничных узлов (рис. 2). В дальнейшем будем считать, что каждая граница по линии связи соседних подсистем определяется двумя граничными узлами. Разбиение большой сети на территориально удаленные подсистемы будем рассматривать как результат территориальной декомпозиции.

Функционально декомпозиционная модель расчета представляет собой обобщение теоремы Тевенена–Нортона (Thevenin– Norton), определяющей в соответствии с законами Кирхгофа условия конструктивной замены сколь угодно сложной электрической сети на эквивалентную схему минимальной сложности [2].

Рис.2. Упрощенное представление территориальной декомпозиции ЭЭС на подсистемы

Предлагаемое в [8] обобщение заключается в определении согласованных напряжений Vth и эквивалентных сопротивлений Zth для всех граничных узлов подсетей, а не только для одного граничного узла как это было в классическом определении.

Данная модель определяет следующий порядок организации распределенных параллельных вычислений.

Шаг 1. Во всех ЛЦУ строятся абстрактные эквиваленты соответствующих подсетей в виде множеств значений {Vth}, {Zth} относительно граничных узлов.
Шаг 2. Полученные значения {Vth}, {Zth} передаются «наверх» в ГЦУ, в котором решается СЛАУ по определению напряжений {Vгр.i} во всех граничных узлах.
Шаг 3. Вычисленные значения {Vгр.i} передаются «вниз» во все ЛЦУ, в которых окончательно вычисляются искомые параметры подсистем теперь уже для всех внутренних узлов.
Определяемая по шагам схема организации вычислений показана на рис.3.

Рис.3. Схема организации вычислений

2. Уточнение требований, предъявляемых к архитектуре ТРВС

С учетом рассмотренных общих принципов организации вычислений перейдем к конкретизации требований, которым должна отвечать территориально-распределенная вычислительная сре¬да (ТРВС) [12].

• Отслеживание доступных вычислительных ресурсов с возможностью их динамического подключения и отключения.
• Обеспечение возможности обмена между параллельными процессами задачи с адресацией на уровне логических номеров этих процессов в пределах задачи таким образом, чтобы разработчику прикладной задачи не требовалось знать адреса компьютеров, на которых эти процессы выполняются.
• Возможность проведения асинхронных обменов данными таким образом, чтобы процесс-отправитель не оказывался заблокированным до момента получения данных процессом получателем, а процесс-получатель мог проверить готовность данных и запросить их получение только в случае готовности.
• Предоставление средств синхронизации параллельных процессов прикладной задачи для того, чтобы исключить недетерминированность хода решения задачи, которая возникает в силу того, что из-за возможных задержек при передаче данных невозможно точно предсказать, в каком порядке будут приходить данные от других параллельных процессов.
• Удаленный запуск параллельных процессов, который работает следующим образом: сначала вручную запускается первый процесс, затем ТРВС выбирает остальные процессы и отправляет на них команды запуска прочих процессов задачи.
• Обработка ошибочных ситуаций: ТРВС должна определять ситуации, когда из строя выходит один или несколько компьютеров, участвующих в решении задач, и обрабатывать эти ситуации одним из следующих образов: либо уведомлять прочие процессы задачи об отказе, либо аварийно завершать их, либо перезапускать задачу заново на работоспособных компьютерах.
• Работа в многозадачном режиме: ТРВС должна обеспечивать выполнение нескольких задач одновременно независимо друг от друга в режиме вытесняющей многозадачности.
• Динамическое управление приоритетами: должна быть предусмотрена возможность приостановки менее приоритетных задач с целью скорейшего завершения более приоритетных, при этом желательно, чтобы этот процесс проходил таким образом, чтобы разработчику прикладной задачи не требовалось каким-либо образом обрабатывать эту ситуацию.
• Наличие планировщика, который производил бы распределение задач по вычислительным ресурсам как с учетом географической привязки к источникам данных, так и с учетом загруженности вычислителей другими задачами.
• Наличие средств мониторинга хода выполнения задачи (в частности, отображения графика обменов данными между параллельными процессами) и сбора отладочной информации (в частности, обнаружения наиболее тривиальных ошибок, например, отправленных, но не востребованных другим процессом данных, попытка передать данные не существующему или уже завершившемуся процессу и т.п.).

3.Архитектура глобально-распределенной ТРВС

Суть предлагаемого подхода заключается в следующем. Максимально возможный объем обработки данных производится по месту их возникновения в ЛЦУ, а в единый центр – ГЦУ (в котором может находиться суперкомпьютер меньшей мощности, кластер, или даже обычный персональный компьютер) передается только та часть данных, которая необходима для анализа состояния объекта в целом. Такой подход дает целый ряд преимуществ как с экономической точки зрения, так с точки зрения производительности и надежности [6,7].

Преимущества с экономической точки зрения обуславливаются тем, что стоимость суперкомпьютера на несколько порядков выше, чем стоимость нескольких десятков (или сотен) типовых компьютеров, составляющих кластер и осуществляющих обработку данных на местах.

Преимущество с точки зрения производительности возникает вследствие того, что во многих случаях основным ограничивающим фактором является не производительность процессора, а пропускная способность каналов связи, поэтому существенное уменьшение объема передаваемых данных при переходе к распределенным вычислениям может дать существенно большее повышение эффективности, чем увеличение вычислительной мощности компьютера, осуществляющего централизованную обработку.

Преимущества с точки зрения надежности определяются тем, что при возникновении аварийных ситуаций (например, отказ канала связи, по которому передается информация о состоянии одной из удаленных частей подсистем) управление соответствующей частью объекта будет продолжено с помощью локально размещенного компьютера.

По этой же самой причине децентрализованный подход позволяет более оперативно реагировать в том случае, если параметры самого управляемого объекта выйдут за допустимые пределы в силу какой-либо аварийной ситуации.

Однако переход к распределенным вычислениям создает ряд новых проблем, отсутствовавших при централизованной обработке данных [11]. В частности, к ним относятся:
• отслеживание доступных вычислительных ресурсов;
• организация обмена данными на уровне логических номеров параллельных процессов для обеспечения независимости от конфигурации сети;
• обеспечение возможности проводить асинхронные обмены данными;
• удаленный запуск процессов и задач;
• обработка ошибочных ситуаций (отказов одного из компьютеров, участвующих в вычислениях или каналов связи с ним);
• сбор отладочной информации о ходе выполнения параллельных процессов.

Решение этих проблем является типичным для подавляющего большинства задач управления территориально-распределенным объектами. В этой связи возникла необходимость создания программной среды, которая взяла бы на себя решение перечисленных выше проблем, предоставив разработчику прикладной задачи некоторый стандартизованный набор функций.

Кроме того, так как при решении отдельной задачи в общем случае компьютеры могут быть загружены весьма неравномерно, то для эффективного использования оборудования необходима реализация возможности использования вычислительных мощностей в многозадачном режиме с разграничением приоритетов задач.

Архитектура глобально-распределенной ТРВС может рассматриваться как одно из направлений развития Параллельных мультикомпьютерных сетей (ПМК-сетей) [6]. Развиваемая идеология базируется на принципах организации локальной ПМК-сети, лишь только похожей на вычислительный кластер. Однако имеется ряд отличий, наиболее существенным из которых является необходимость регулярного отслеживания затрат времени на передачу данных между компьютерами, входящими в сеть, и учета их неравнозначности с точки зрения затрат на этапе распределения параллельных задач по компьютерам.

Специализированное программное обеспечение должно состоять, по меньшей мере, из следующих компонент: координирующий процесс, локальный диспетчер, клиентская библиотека, средства мониторинга.
В общих чертах архитектура ТРВС представлена на рис. 4.

Задача координирующего процесса – это хранение информации о доступных вычислительных ресурсах, списка всех выполняемых задач с учетом их распределения по вычислителям (на рис. 4 это PC), распределение задач по вычислителям и сбор информации о ходе выполнения вычислительных процессов для отладки и мониторинга. Автоматическое распределение прикладных задач по удаленным вычислителям должен выполнять планировщик. Непосредственно в решении самих вычислительных задач координирующий процесс не участвует.

Локальный диспетчер каждого рабочего вычислителя выполняет следующие функции:
• установку соединения с координирующим процессом и передачу ему сведений о доступных вычислительных ресурсах;
• запуск выполняемых задач по команде, полученной от координирующего процесса (или наоборот, передача информации о задаче, запущенной локально);
• получение от списка вычислителей, участвующих в решении задачи;
• установление соединений с координирующим процессом для организации обменов данными между параллельными вычислительными процессами прикладных задач.

Кроме того, локальный диспетчер осуществляет промежуточную буферизацию передаваемых между параллельными процессами данных и уведомляет координирующий процесс об ошибочных ситуациях, а также отправляет ему информацию о ходе выполнения задач.

Клиентская библиотека реализуется в виде динамически загружаемой библиотеки, которая подключается к прикладной программе на этапе выполнения, и файлов описания этой библиотеки, используемых на этапе компиляции. Задачи клиентской библиотеки – установление соединения с локальным диспетчером, передача ему данных о требованиях запускаемой задачи, осуществление обмена данными с другими параллельными процессами, а также выполнение определенных действий при получении уведомления об отказе одного из удаленных процессов или запроса на принудительное завершение задачи.

Средства мониторинга подключаются к координирующему процессу глобально-распределенной ПМК-сети и получают от него информацию о доступных вычислителях, выполняющихся задачах и их распределении по вычислителям, а также информацию о ходе выполнения задач, и отображают ее в удобной для восприятия человеком форме.

Взаимодействие всех компонентов осуществляется по собственному протоколу, реализованному поверх протокольного стека TCP/IP, применяемого в глобальных компьютерных сетях, в частности, в интернете.

Глобально-распределенная вычислительная среда должна обеспечивать запуск задач в трех режимах:
1. полностью синхронный старт, когда каждый из процессов запускается на вычислителе вручную или с помощью средств планировщика задач операционной системы;
2. «запуск по требованию», когда один из параллельных процессов запускается на вычислителе и отсылает запрос на запуск других параллельных задач (также запрос на запуск задачи может быть дан не запущенным процессом, а с помощью средств мониторинга)
3. динамический запуск – аналогичен режиму 2, однако в процессе выполнения задачи могут динамически порождаться новые вычислительные процессы в случае возникновения такой необходимости.

Рис.4. Архитектура ТРВС с централизованным управлением

Важно подчеркнуть следующее. Логическая организация вычислительных процессов внутри задачи не связана напрямую с архитектурой территориально-распределенной сети и может определяться разработчиком прикладной задачи произвольно. Например, на практике обычно применяется двухуровневая или трехуровневая организация вычислительных процессов. При двухуровневой организации задача состоит из одного координирующего вычислительного процесса и множества вычислительных процессов, осуществляющих первичную обработку данных. При трехуровневой организации к выше перечисленным процессам добавляется также промежуточный уровень – вычислительные процессы регионального уровня. Но и в том и в другом случае в глобально-распределенной ТРВС все эти вычислительные процессы должны быть равноправными.

4. Исследование потенциальной эффективности предлагаемого подхода

Оценку эффективности реализации распределенных параллельных вычислений в указанном выше смысле будем производить по величине достигаемого соотношения:

(1) ,
где Тцентр – время решения задачи в ГЦУ по результатам передачи данных наверх о текущем состоянии и топологии всех подсистем;
Траспр – время реализации декомпозиционной модели в режиме распределенных параллельных вычислений [9, 10].

Данная оценка определяет именно потенциальную эффективность декомпозиционной модели в силу отсутствия реализации приближенных вычислений, присущих численным методам.

Исследование проведем при наличии следующих допущений:
• решение каждой из систем линейных алгебраических уравнений, соответствующих числу узлов электрической системы (подсистемы) осуществляется с использованием аналитического метода Гаусса;
• все компьютеры, установленные в ЛЦУ и ГЦУ, имеют одинаковую производительность и время выполнения арифметических операций;
• передача данных в ГЦУ о параметрах электрических подсистем производится параллельно.

Необходимо также ввести ряд обозначений. Они следующие.

Для компьютерной среды:

Та – среднее время выполнения арифметических операций сложения / умножения в [c];
Vкан – скорость канала связи в [бит/с];
Для электрической системы, отображающей ЭЭС:
N – число определяемых подсистем;
mmax – наибольшее число узлов подсистемы.

На рис.5 представлено семейство зависимости Eff = f(Та, mmax) при задании mmax=100, 200, 400; Vкан=12 Кбит/c; nmax=4; N=4. Из полученных графиков виден эффект увеличения Eff для большего числа узлов в электрической сети. И,, как это не парадоксально, наблюдается рост эффективности от снижения скорости выполнения арифметических операций.

Рис.5. Зависимость эффективности от времени выполнения одной операции

На рис. 6 приведены зависимости Eff=f(mmax, N) для различного числа подсистем: N=3, 4, 5.

Рис.6. Зависимость эффективности от числа узлов ЭЭС

Как видно при заданных показателях ЛЦУ–ГЦУ и коммуникационной сети, существует оптимум эффективности от общего числа узлов ЭЭС. Причем с увеличением числа подсистем эффективность Eff заметно возрастает при смещении оптимума вправо.

Рис. 7. Зависимость эффективности от скорости канала связи

Pис.7 представляет семейство зависимостей Eff=f(V¬кан, mmax) при задании mmax=100, 200, 400; T¬а =10-6; nmax=4; N=4 для различных скоростей канала связи. Это. пожалуй, наиболее интересное семейство зависимостей, подтверждающих увеличение эффективности не от увеличения, а от уменьшения. скорости каналов связи Этот результат, также как и эффект на рис.5, высвечивает главное. а именно положительную роль декомпозиционного подхода.

5. Направления дальнейшего развития предлагаемого подхода

По своему конкретному воплощению ТРВС наследует идеологию построения Параллельных мультикомпьютерных сетей (ПМК-сетей), высокая эффективность которых неоднократно демонстрировалась на предшествующих генерациях «KURS-90», «KURS-2000», реализованных в пределах односегментных локальных вычислительных сетей [6].

Дальнейшее развитие декомпозиционного подхода, как нам видится, должно осуществляться по следующим взаимосвязанным направлениям.

• Расширение классов объемных задач, исходя из требований их разбиения на совместно выполняемые подзадачи. В основе решения такого рода задач должны лежать все более совершенные математические методы и алгоритмы. Особый интерес представляет нахождение условий устойчивой сходимости при работе с большими объемами исходных данных в коммуникационной сети. Применительно к управлению ЭЭС такие методы уже существуют. Наиболее известный из них – метод Функциональных характеристик (ФХ), разработанный и развиваемый д.т.н. О.А. Сухановым в сотрудничестве с его коллегами [3–5, 13–14]. В отличие от рассмотренного метода декомпозиционных эквивалентов метод ФХ предъявляет значительно более жесткие требования к ТРВС в части обеспечения синхронного итеративного взаимодействия удаленных вычислителей с координирующим центром.
• Совершенствование архитектуры ТРВС и системного программного обеспечения не только в части доработки ряда функциональных компонент, таких как: средства поддержки многозадачного режима с приоритетами, планировщик параллельных процессов, службы мониторинга загрузки главного сервера и «рядовых» вычислителей, а в целом, средства повышения реактивности и обеспечения отказоустойчивости вычислительной среды. Камнем преткновения, прежде всего, является отказоустойчивость. Её воплощение требует пересмотра архитектуры ТРВС с позиций того же декомпозиционного подхода. Отсюда возникает такое новое направление совершенствования ТРВС, как переход к распределенному управлению самой вычислительной средой, а не только процессом решения прикладных задач.

Заключение

1. Показано, что максимально возможный объем обработки данных должен производиться по месту их возникновения, а в единый центр (в котором может находиться суперкомпьютер меньшей мощности) может передаваться только та часть данных, которая необходима для координации взаимодействия подсистем.
2. Проведенные и представленные в разделе 4 результаты аналитического исследования подтверждают высокую потенциальную эффективность предлагаемого подхода. В частности, результат Eff ≥ N, где N –число подсистем, показывает, что декомпозиционная модель вносит дополнительный «математический» вклад в ускорение наряду с эффектом “чисто” параллельных вычислений.
3. Представленные принципы организации территориально распределенных параллельных вычислений и собственно архитектура ТРВС KURS-2004 практически воплощены в виде действующего макета с экспериментальным подтверждением работоспособности.
4. При наличии мощных компьютеров в локальных центрах управления вполне ощутимый эффект может быть достигнут и на относительно медленных компьютерных сетях с IP-адресацией, включая интернет широкого назначения.
5. В дальнейшем представляется возможным построить обобщенную комбинаторную модель тестовых испытаний электрической сети как эквивалента ЭЭС для оценки последствий потенциально возникающих аварий.
6. В целях ускоренного проигрывания анализируемых ситуаций допустимо расширение архитектуры ТРВС до механизмов поддержки конвейерно-параллельных мультикомпьютерных вычислений, которые дополнительно могут быть реализованы в силу отсутствия внешних циклов во взаимодействии ГЦУ-ЛЦУ (рис.3).
7. В перспективе возможно развертывание опытных образцов ТРВС (в составе ныне действующих корпоративных сетей) по обеспечению обработки потока декомпозиционно сформированных задач на основе согласованного взаимодействия территориально-распределенных вычислительных центров России, заинтересованных стран СНГ и стран Европейского содружества.
8. Приведенные результаты в целом указывают на целесообразность дальнейшего совершенствования ТРВС с использованием международных стандартов на базе перспективных компьютерных средств (IBM, HP, SUN, DELL,…), что позволит вывести их построение на промышленную основу с точки зрения богатства заложенных функций.

Литература:
1. Автоматизация управления энергообъединениями / Под ред. С.А. Совалова. М.: Энергия, 1979.
2. Татур Т.А., Татур В.Е. Установившиеся и переходные процессы в электрических цепях. М.: Высшая школа, 2001.
3. Веников В.А., Суханов О.А. Кибернетические модели электрических систем. - М.: Энергоиздат, 1982.
4. Soukhanov O.A., Shil S.C. Application of functional modeling to the solution of electrical power system optimization problems // Electrical power and energy systems. – 2000. - No 22. –P. 119-127.
5. Суханов О.А., Шаров Ю.В. Иерархические модели в анализе и управлении режимами электроэнергетических систем . - Москва: Издательский дом МЭИ, 2007. - 312 с.
6. Дзегеленок И.И., Кузнецов А.Ю. Параллельные мультикомпьютерные сети как направление развития распределенных суперЭВМ // Системы управления и силовая электроника. - М.: Издательство ВЭИ, 2001, - C. 26-32.
7. Дзегеленок И.И., Абдулрадх О.А.,Оцоков Ш.А., Ильин П.Е. Декомпозиционный подход к осуществлению GRID-технологий//Информационная математика. – 2005. - № 1(5). - C.139–148.
8. Абдулрадх О.А. Метод декомпозиционных эквивалентов для управления электроэнергетическими системами // Информационные средства и технологии. - 2003. - Т.3. - С.45-48.
9. Дзегеленок И.И., Абдулрадх О.А. Эффективность реализации декомпозиционной модели на ПМК-сети // Информационные средства и технологии. 2003. - Т.3. - С.95-98.
10. Дзегеленок И.И., Абдулрадх О.А. Потенциальная эффективность метакомпьютерных вычислений для управления электроэнергетическими системами. – М.: Труды II-й международной конференции «Параллельные вычисления и задачи управления», РАСО`2004. - М.: Изд-во ИПУ РАН. - C.1106-1113.
11. Дзегеленок И.И., Ильин П.Е., Титов А.М. Организация мультизадачного выполнения параллельных программ в территориально распределенной сети /Сборник научных трудов. К 85-летию Всероссийского электротехнического института // Под ред. В.Д. Ковалева. – М.: ГУП ВЭИ, 2006. - C. 102–106.
12. Дзегеленок И.И., Ильин П.Е. Проект глобально распределённой мультикомпьютерной среды для реализации декомпозиционных моделей управления/ Труды III Международной конференции «Параллельные вычисления и задачи управления», Москва, 2-3 октября 2006, РАСО`2006. – М.: Институт проблем управления РАН, ISBN 5-201-14990-1.
13. A.V.Nekludov, O.A.Soukhanov, I.B.Yadykin. Development of Distributed Control Systems for Large Power Interconnections//CD Proceedings of IFAC Int.Conf. on Control Methologies and Technology for Energy Efficiency CMTEE 2010, Vilamoura, Portugal, 29-31 March 2010.
14. N.I. Voropai, C. Rehtanz, O.A. Soukhanov. Coordinated Monitoring, Forecasting and Control in Interconnected Electric Power Grids// IEEE 2010 International Conference on Power System Technology. - Hang Zhou China. - October 24 – 28. – 2010.