Восстановление ИТ-инфраструктуры

30.07.2018

Простейший способ восстановить ИТ-инфраструктуру — подготовиться к аварии заранее. Но даже если непоправимое уже произошло, вернуть ее работоспособность можно.

Восстановление ИТ-инфраструктуры — это возвращение функциональности ее ИТ-сервисов после сбоя или аварии. Это важные мероприятия, которые помогают компании избежать или минимизировать финансовые издержки и сохранить позиции на рынке.

Значение отказоустойчивости

Отказоустойчивая ИТ-инфраструктура — один из важнейших приоритетов современной компании. ИТ-инфраструктура обеспечивает непрерывность бизнес-процессов и определяет конкурентоспособность бизнеса. Под отказоустойчивостью понимают такое состояние информационных систем, при котором локальный сбой (например, отказ сервера или потеря данных) не приводит к падению или остановке всей системы.

Когда требуется восстановление IT-инфраструктуры

Отказ аппаратных ресурсов

Из строя может выйти главный сервер, хранилище, коммутационная сеть, рабочие станции или терминалы в офисе, система контроля доступа, АТС. Это происходит из-за сбоев в работе оборудования, перебоев с электропитанием, недостатком информации о состоянии «железа», несвоевременной модернизации вычислительного и сетевого оборудования.

Программные сбои

Может «упасть» операционная система, серверы или пользовательские компьютеры могут быть атакованы (заблокированы) вирусами, блокировщиками или вымогателями. Возможны проблемы с восстановлением  из резервных копий, если те оказались повреждены.

Стихийные бедствия

Землетрясения, наводнения, пожары — стихия может уничтожить инфраструктуру организации на физическом уровне.

Инсайдерские провокации

Сопровождаются изъятием серверов и другой вычислительной техники в офисе или дата-центре, сбросом или перенастройкой сетевого оборудования, системы контроля доступа, удаленного управления, уничтожением дисковых накопителей с бизнес-данными.

Что входит в услугу восстановления ИТ-инфраструктуры

Если вы столкнулись с аварией, простоями в работе или серьезным сбоем, для возвращения функциональности информационной системы на предприятии нужно выполнить комплекс мероприятий.

  • Составление плана аварийного восстановления. В тексте плана расставляются приоритеты, согласно которым возвращается жизнеспособность ИТ-сервисов или отдельных единиц оборудования;
  • Ремонтные работы. Затрагивают аппаратную часть — офисные компьютеры, терминалы, но чаще сервер, хранилища, коммутационное оборудование и системы жизнеобеспечения. Если необходимо, поставляется новое оборудование и программное обеспечение, проводятся работы по внедрению, настройке, тестированию и вводу в эксплуатацию;
  • Профилактические работы. Необходимы для того, чтобы исключить сбои в будущем и обеспечить стабильную работу программному и аппаратному обеспечению информационных систем компании;
  • Модернизация оборудования и ПО. При грамотном выборе нового оборудования на замену старого (часто морально устаревшего) можно снизить количество вероятных точек отказа в будущем. Основная задача на этом этапе — построить новую отказоустойчивую инфраструктуру;
  • Утилизация списанного оборудования. Технику необходимо утилизировать таким образом, что причинить наименьший вред экологии и соблюсти нормативные и бухгалтерские требования;
  • Подготовка рекомендаций. На основе комплексного аудитора информационной системы составляется список рекомендаций, которые помогут предотвратить повторные инциденты. Советы экспертов будут затрагивать четыре базовых уровня: аппаратного обеспечения, виртуализации (актуально для ЦОДов), операционных систем и приложений.

Профилактические мероприятия

Чтобы свести к нулю вероятность наступления ситуации, когда повторно потребуется восстановить IT-инфраструктуру, о ней достаточно позаботиться заранее. Ваша задача — исключить простои из-за отказа аппаратных и программных ресурсов, сбоев в системах жизнеобеспечения, вирусных атак, кражи данных или других факторов. Это можно сделать несколькими способами.

Планирование непрерывности бизнеса (ВСМ)

Представляет собой комплекс организационных мероприятий, которые направлены на снижение рисков остановки бизнес-процессов и минимизации последствий, если сбой все-таки произошел. Для этого составляют перечень наиболее критичных пользовательских IT-сервисов, которые будут восстановлены в первую очередь. Обязательной будет расстановка приоритетов для каждого сервиса и бизнес-процесса, благодаря чему можно спланировать последовательность действий при восстановлении. Также необходимо определить потенциальные точки отказа, найти между ними зависимости и подключить их к системе мониторинга (об этом ниже).

Полный или частичный перенос ИТ-инфраструктуры в облако

Можно перейти от модели on-premise к гибридной, когда виртуальная облачная среда используется для хранения резервных данных. Компания-провайдер предоставляет финансовые гарантии доступности бизнес-сервисов и сохранности данных согласно SLA-соглашению, а также берет на себя обязанности по поддержке инфраструктуры. В облаке инфраструктура надежно защищена не только благодаря резервированию критически важных компонентов (аппаратных, программных и баз данных), но и за счет разнообразия и доступности мощных автоматизированных инструментов для безболезненного восстановления.

Резервное копирование

Это простой (с точки зрения технического воплощения) и доступный способ избежать серьезных проблем в форс-мажорных ситуациях. Резервное копирование должно распространяться на данные, которые задействованы в бизнес-процессах компании. Бэкапирование позволяет легко восстановить информацию, которую по неосторожности удалили пользователи, украли или заблокировали злоумышленники в результате вирусной или хакерской атаки, повредили физически — на уровне накопителей — в результате стихийных бедствий.

Настройка мониторинга

Непрерывный мониторинг ключевых параметров функционирования ИТ-инфраструктуры позволяет оперативно находить и устранять вероятные точки отказа, а также предотвращать сбои в аппаратном и программном обеспечении. Продвинутые системы мониторинга выдают полезные рекомендации по тому, что изменить в работе, чтобы не допустить остановки бизнес-процессов на предприятии.

Решение кадрового вопроса

Чтобы оперативно восстановить ИТ-инфраструктуру, необходимы соответствующие технические специалисты, которые выполнят комплекс необходимых мероприятий по приведению работоспособности к стабильным показателям. Инженеров можно вырастить внутри компании, постоянно повышая их компетенции, или нанять под конкретную задачу, воспользовавшись услугами аутсорсеров.

У Вас похожая задача? Мы всегда готовы подсказать решение!
Задайте вопросы напрямую руководителю данного проекта (9.00–23.00):