Система мониторинга вычислительных ресурсов
Предварительные настройки обеспечивают:- Контроль температуры процессоров рабочих станций и серверов:
- В двухпроцессорных серверах контролируется температура каждого процессора.
- Пороговые значения, при которых процессор считается перегретым взяты из самого SNMP-агента фирмы HP.
- Контролируется температура источника питания каждого сервера (возможен отказ вентилятора источника питания)
- Контроль температуры материнских плат
- Контроль состояния вентиляторов охлаждения процессора – 12 вентиляторов
- Контроль за степенью загруженности процессора
Раздельно контролируется загрузка каждого процессора - Контроль за переполнением дисковых разделов
- Контролируется каждый дисковый раздел каждого сервера.
- Заполненность контролируется в двух видах: в Кб и в %%.
- Контролируется виртуальная память (файл подкачки плюс ОЗУ) архивного сервера.
- Мониторинг выхода из строя оперативной памяти
- Контролируется общий объём доступной в данный момент памяти: как только общий объём доступной памяти становится меньше этого показателя, - фиксируется выход из строя одного устройства памяти.
- Контролируется используемая операционной системой и приложениями память. Это позволяет точнее скорректировать общий объём памяти, необходимый для решаемых задач
- Контроль состояния RAID-массивов
- Контролируются все составные части внешней системы хранения: коммутаторы Fibre-channel; контроллер MSA 1000/1500 cs; RAID-массивы на логическом и физическом уровнях.
- Коммутаторы Fibre-channel контролируются по четырём параметрам:
- скорость вращения вентиляторов (3 вентилятора);
- загрузка FC-портов коммутатора (слов/сек);
- состояние портов коммутатора (2-отсутствует трансивер, 3- поломка лазера, 4- нет сигнала на входе, 5-отсутствует синхронизация, 6- норма, 7-9 поломка порта);
- Температура FC-коммутатора (по двум датчикам).
- Контроллер MSA 1000/1500 cs контролируется:
- по интегрированному состоянию всех RAID-массивов, которыми он управляет (0, 1-норма, 2-восстановление, 3-неисправность, 4-сбой).
- по количеству логических массивов, которые он видит.
- по состоянию платы акселератора.
- по состоянию резервного контроллера.
- RAID-массивы контролируются:
- по состоянию физических дисков (норма/сбой);
- по состоянию логических дисковых массивов: «количество переназначенных блоков» (свидетельство о возможном повреждении поверхности диска) и «статус логических массивов» (норма/сбой).
- Состояние платы акселератора контролируется:
- по статусу батарей акселератора;
- ошибки контроля чётности;
- статус акселератора.
Наряду с этим Система мониторинга настроена на обеспечение:
- Контроля целостности агентов системы: система контролирует сама себя.
- Контроля доступности серверов по сети: контроль целостность сетевого пространства.
- Управления светодиодами (UID) серверов в случае обнаружения неисправности (после устранения светодиод автоматически гасится).
- Удалённого включения/выключения серверов с рабочего места администратора.
- Контроля ленточного накопителя:
- логическое состояние накопителя: накопитель не отвечает, норма, сбой, находится в состоянии offline, неисправность).
- физическое состояние накопителя: неизвестно, норма, degrade (возможен выход из строя ленты), сбой.
- Контроля общего количества процессов на каждом сервере.
- Отслеживания динамика использования области swapping`a (для всех Linux-серверов).
- Изменения пороговых значений через web-интерфейс.
- Защиты входа в систему мониторинга.
- Контроль системы бесперебойного питания
- Контроль сетевых коммутаторов и характеристик сетевого трафика
- Контроль влажности и температуры внутри стойки, а также несанкционированного доступа к дверям
- Контроль за состоянием важных приложений и системных служб