Интегрированная система управления высокопроизводительными вычислениями Метакластер

Краткое описание

Кластерные технологии играют лидирующую роль в мире высокопроизводительных вычислений. Согласно текущему (на ноябрь 2013 г.) списку TOP 500 наиболее высокопроизводительных вычислительных систем, кластеры занимают 423 позиций, что составляет 84.6% от общего числа установок. В большинстве случаев кластер предлагает оптимальное соотношения цена/производительность для решения широкого круга вычислительно трудоемких задач: финансовая математика, моделирование физических процессов, поиск новых лекарств и др. Кластерные системы отличают легкость модернизации, доступность аппаратных составляющих, возможность выполнения всех операций по техническому обслуживанию силами технических специалистов, не имеющих глубоких знаний в области высокопроизводительных вычислений. Указанные факторы привели к массовому распространению кластеров в научном сообществе, на промышленных предприятиях, и даже индивидуальные исследователи зачастую имеют возможность приобрести или собрать самостоятельно небольшой кластер.

Рост числа кластерных систем делает заманчивым идею совместного использования кластеров с целью увеличения суммарной доступной вычислительной мощности, а так же уменьшения среднего времени ожидания задачей запуска. Последнее достигается за счет применения расширенных стратегий планирования, учитывающих временные колебания загруженности различных кластеров (если один из кластеров простаивает, то на него могут быть отправлены задачи с самого загруженного в настоящий момент кластера) и одновременно гибкость при распределении ресурсов (так, например, задачи владельцев кластера могут иметь более высокий приоритет и т.п.).

Идея объединения кластеров находит свое отражение в концепции grid. В настоящее время разработано несколько популярных технологий, позволяющих объединять вычислительные ресурсы в grid: Globus Toolkit, gLite, Unicore и др. Некоторые grid системы объединяют кластера, расположенные на разных континентах (например, World Community Grid), тысячи организаций и миллионы вычислительных узлов. Однако зачастую возникает необходимость объединить вычислительные ресурсы, принадлежащие одной организации: несколько кластеров или лабораторий рабочих станций. Если указанные ресурсы находятся физически близко друг к другу, то между ними можно установить выделенное соединение, характеристики которого будут близки к характеристикам сети внутри кластера. Это позволяет владельцу вычислительных ресурсов ожидать от полученного мультикластера большей эффективности, чем при объединении аналогичных ресурсов через Интернет. Для решения указанной задачи также может быть использована та или иная реализация технологии grid. Вот только платой за это может стать излишняя громоздкость полученного решения, сложность в администрировании, поддержке и использовании конечными пользователями. Концепция grid не предполагает наличия централизованного управления, что естественно в случае объединения ресурсов разных владельцев. Но в случае одной организации такой подход вносит дополнительные издержки и затрудняет планирование.

Альтернативный подход при создании мультикластера состоит в централизованном управлении всеми подключенными вычислительными ресурсами. Такой подход может быть неприменим при управлении тысячами ресурсов, разбросанными по миру. Но в случае принадлежности всех кластеров, составляющих мультикластер, одной организации централизированное управление может быть более эффективно и естественно, так как отражает факт принадлежности ресурсов одному владельцу. Система управления интегрированной средой высокопроизводительными вычислениями Метакластер, разрабатываемая в ННГУ, основана на указанном принципе. Основная задача системы – повышение эффективности использования вычислительных ресурсов за счет балансировки нагрузки между кластерами и эффективных стратегий планирования внутри каждого кластеров.

Коллектив

Руководитель проекта

  • Виктор Павлович Гергель, д.т.н., проф., декан ВМК ННГУ

 Участники проекта

  • Сенин Андрей, ВМК ННГУ

Ранее в проекте участвовали

  • Валентина Кустикова, магистр, ВМК ННГУ
  • Иван Лозгачев, магистр, ВМК ННГУ
  • Кирилл Корняков, бакалавр, ВМК ННГУ
  • Александр Шишков, бакалавр, ВМК ННГУ

Основные результаты

Разработана система управления мультикластером Метакластер, обладающая следующими основными особенностями:

  • Возможность объединения под управлением системы нескольких кластеров под управлением различных операционных систем (Windows, Linux)
  • Возможность интеграции с системами управления сторонних разработчиков (в настоящее время реализована интеграция с системой управления HPC2008)
  • Наличие собственной системы мониторинга производительности мультикластера
  • Наличие собственного симулятора многокластерной системы для тестирования алгоритмов планирования

Избранные публикации

  1. Гергель В.П., Сенин А.В. Разработка системы управления интегрированной средой высокопроизводительных вычислений «Метакластер». — Вестник Нижегородского университета им. Н.И. Лобачевского. 2010. № 6. С. 186-194. 
  2. Gergel V., Senin A. Metacluster System for Managing the HPC Integrated Environment. — In. Lecture Notes in Computer Science Volume 6083, 2011, DOI: 10.1007/978-3-642-14822-4.  Methods and Tools of Parallel Programming Multicomputers.Second Russia-Taiwan Symposium, MTPP 2010, Vladivostok, Russia, May 16-19, 2010. pp. 86-94.
  3. Гергель В.П., Кустикова В.Д., Сенин А.В. Интеграция системы управления интегрированной средой высокопроизводительных вычисления Метакластер с подсистемой планирования MAUI. — Вестник Нижегородского университета им. Н.И.Лобачевского. N3 (2). – Н.Новгород: Изд-во ННГУ им.Н.И. Лобачевского, 2011. С. 276-284.