|
Что такое ILM?
ILM (управление жизненным циклом информации) — это на сегодня одна из самых «горячих» концепций хранения данных, которая начала складываться всего лишь несколько лет тому назад и не привязана к какому-то одному продукту, категории или семейству продуктов. Скорее, это подход к управлению хранимыми данными на более эффективной и экономичной основе при помощи определенной стратегии, гарантирующей, что инфраструктура хранения в организации согласована с задачами бизнеса.
Концепция, лежащая в основе ILM, следующая: ценность отдельных элементов информации, которыми располагает организация, со временем меняется. По мере роста стоимости и сложности инфраструктуры ИТ вообще и инфраструктуры хранения в частности, менее важная информация должна храниться на менее дорогих устройствах.
Сама идея Information Lifecycle Management, как это нередко бывает в ИТ, не нова. Ранее уже предпринимались попытки систематизировать знания и технологии, имеющие отношение к управлению информацией от момента ее создания до утилизации. Однако сегодня лавинообразный рост объемов данных, удешевление стоимости носителей и прогресс технологий, заставили по-новому осмыслить проблему управления информацией. Согласно оценкам журнала Storage Magazine, 3 тыс. работников уже сегодня в среднем ежедневно отправляют по электронной почте терабайт данных. Средний прирост объемов ежегодно накапливаемой информации составляет 45-60% — и это при том, что широко используется ссылочная информация, позволяющая уменьшить дублирование. Объемы неструктурированных данных растут быстрее структурированных, и к концу 2009 года неструктурированные данные будут составлять 61% всей вновь созданной за год информации.
Надо ли хранить и защищать всю производимую информацию? Если нет, то какую, нужно и как долго? Как обеспечить оптимальный доступ к ней? Следует учесть, что кроме общекорпоративных правил, определяющих сроки хранения той или иной информации, имеются международные и национальные законы и нормативные акты. Все они, не считая еще множества отраслевых актов, достаточно четко регламентируют сроки хранения информации. При этом сами данные также со временем изменяются. Это хорошо видно на примере банковской транзакции, когда для создания наиболее важного для финансового учреждения документа — баланса, сначала собираются все специфические транзакции, живущие только до момента их анализа или распечатки, потом формируются консолидированные отчетности и итоговый баланс, а данные по локальным операциям через месяц прекращают свое существование. Таких примеров множество, но ясно, что для учета нормативов хранения и процесса устаревания информации требуются специальные технологии, позволяющие отслеживать периоды жизни данных и обеспечивающие адекватные способы доступа к ним. Бизнес постоянно ищет пути уменьшения стоимости операций: глобализация, трудности экономики, неизбежный рост стоимости трудовых ресурсов вынуждают больше думать о реорганизации существующих методов работы, чем о закупках новейших решений. Однако сегодня управление жизненным циклом информации реализуется преимущественно вручную буквально на каждом из его этапов: выделение соответствующей системы хранения, репликация, резервирование, архивирование и удаление данных, используются отдельные приложения, практически никак не интегрированные друг с другом. В таких условиях сложно говорить о гарантированном уровне безопасности и качества обслуживания. Интегральный подход к обработке информации позволит уменьшить стоимость владения и увеличить производительность выполнения процессов обработки документов, причем при гарантированном соблюдении соглашений об уровне обслуживания (service level agreement, SLA).
Под термином ILM скрывается не столько расширенная система документооборота, не продукт, а комбинация процессов и решений, имеющая целью предоставить защищенную информацию в нужном месте в нужное время и по оптимальной цене. Это достигается за счет непрерывной оптимизации всех процессов обработки информации на протяжении всего ее жизненного цикла с учетом политик, определяемых пожеланиями бизнеса, соглашений об уровне обслуживания и требований к снижению стоимости владения.
Хотя необходимость поиска новых путей обслуживания огромных объемов данных — одна из главных забот крупных корпораций, идея ILM также значима и для малого и среднего бизнеса. Извлечь выгоду из ILM смогут организации любых размеров: этот метод позволяет классифицировать и хранить данные в соответствии со степенью значимости для бизнеса.
Жизненный цикл информации сегодня и завтра
ILM охватывает все процессы управления размещением, хранением, распределением, миграцией, архивированием и удалением данных в инфраструктуре предприятия. ILM реализует сервисы по обработке данных в рамках общего сервис-ориентированного подхода к предоставлению ресурсов. С каждым элементом корпоративных данных на каждом этапе их жизненного цикла соотносятся определенные параметры безопасности и качества обслуживания: производительность носителя, доступность, уровень защиты, скорость восстановления, стоимость хранения и т.д. ILM-решения позволяют формировать корпоративные политики по заданию уровня обслуживания для данных различных приложений и управлять этими данными в соответствии с заданными политиками на протяжении всего их жизненного цикла. Ключевая задача ILM — на каждом этапе жизни информации гарантировать размещение данных на тех носителях, характеристики которых удовлетворяют заданным параметрам QoS (quality of service — «качество обслуживания»). Для решения этой задачи ILM-среда должна включать средства классификации корпоративной информации по степени ее значимости для бизнес-процессов компании и инструменты управления размещением данных на устройствах хранения в соответствии с этой классификацией. Например, ILM разместит данные от критичных бизнес-приложений ILM на высокопроизводительном дисковом массиве с возможностью зеркалирования томов.
Функции ILM не ограничиваются только управлением хранением данных на определенных носителях. Требуется еще решать задачи интеллектуального управления потоками работ и бизнес-процессами, которые задействуют на эти данные. ILM управляет информацией на основе изменяющихся с течением времени критериев ее значимости для бизнес-процессов и потребностей приложений. Жизненный цикл данных начинается с момента их создания в различных системах, таких как электронная почта, ERP, СУБД, финансовые приложения, системы обработки изображений и др. Затем под управлением ILM реализуются процессы доступа, распределения, защиты, хранения и ликвидации данных. ILM позволяет задавать политики для такого управления, в которых специфицируются параметры качества сервиса данных: доступность, защищенность, скорость восстановления, производительность, местонахождение носителя и стоимость хранения.
Для того чтобы реализовать перечисленные задачи, ILM следует базировать на инфраструктуре хранения, включающей устройства разных классов, использовать программный инструментарий управления хранением и увязывать между собой задачи управления инфраструктурой хранения и потребности бизнес-приложений по размещению, использованию, хранению и миграции данных. Требуется отслеживать время нахождения конкретного информационного объекта на определенном уровне, частоту его использования, объем, возраст, легальность доступа и т.п., одновременно соизмеряя полученные данные с требуемыми параметрами стоимости, целесообразности хранения на том или ином уровне и адекватности SLA. Процессы миграции инициируются после анализа текущего состояния информационного объекта, либо по событию извне, например, в соответствии с политиками, задающими пороговые значения параметров.
Содержание политик определяют внешние критерии, формируемые бизнесом:
- необходимый объем информации, требуемый для принятия бизнес-решения;
- состав SLA;
- разграничение прав доступа и т.п.
Первый критерий определяется бизнес-логикой и часто не поддается формализации, а получается, например, на основе рекомендаций консультантов. Как только определен объем информации, определяются требования по ее защите. Показатель RPO (Recovery Point Objectives) специфицирует критическую массу информации, которая может быть утеряна при фатальных событиях без нарушения бизнеса (как много транзакций может быть потеряно). В некоторых случаях (для банков) это значение равно нулю, но для промышленности потери нескольких транзакций могут быть не столь критичны. Показатель RTO (Recovery Time Objectives) определяет время простоя системы от момента возникновения нарушения до восстановления работоспособности. Обычно это время, необходимое для перезагрузки и отката на предыдущее состояние. Ясно, что когда речь идет о нескольких терабайтах данных, то на их восстановление могут уйти часы и даже дни. Применительно к ILM соглашения об уровне обслуживания могут означать, например, гарантированное время доступа к информационному объекту. Права доступа зависят от требований к управлению и целостности данных. Например, требуется обеспечить доступ только внутри компании, или необходимо обеспечить возможность обращения к документации со стороны внешних партнеров. При каждой миграции данных с одного уровня на другой средства ILM должны согласовывать свои действия с этими требованиями, например, сохранив возможность доступа к редко используемому в последнее время документу из офиса, после его перемещения в архив. Согласно практике работы с информацией, в ILM выделяют три уровня организации информационных объектов.
Том. Это базовый уровень, своего рода контейнер с данными, над которым система хранения осуществляет те или иные операции. Том имеет свой идентификатор — LUN (Logical Unit Number), позволяющий параллельно обрабатывать данные независимо от их физического размещения, создавать копии, хранить информацию о виртуальных носителях, осуществлять мониторинг текущего состояния информационного объекта и т.п. С точки зрения приложения любые перемещения LUN с одного носителя на другой должны быть прозрачны — логический адрес объекта остается неизменным.
Файловая система. Информационными объектами файловой системы или базы данных являются файлы, каталоги, узлы, таблицы, метаданные. Как и для базового уровня, объекты файловой системы с точки зрения приложений должны быть нейтральны к конкретной физической реализации. Для этого служит пул метаинформации, позволяющей виртуализировать файловую систему, однако сегодня еще невозможно прямое обращение к классам хранения (логическая структуризация) и осуществляется непрямая табличная адресация. Поэтому, в частности, атрибуты процессов в ILM вычисляются через таблицу указателей.
Приложения. Реальные проблемы в ILM кроются не в процессах создания или размещения данных на хранение, а при обеспечении приложениям доступа к информационным объектам с соблюдением нормативов по срокам хранения, SLA, целостности и безопасности. К примеру, сообщения электронной почты могут содержать конфиденциальную информацию о начислении налогов, которые согласно определенным нормам должны иметь как свой конкретный срок хранения, так и степень защищенности. Приложения, отвечающие за архивирование и удаление данных должны учитывать эти моменты.
Все три уровня информационной структуры могут жить только вместе, что требует специального сервиса по интеграции. Скажем, физическая файловая система связана с виртуальными томами, задействованными в LUN — любое расширение файловой системы влечет за собой череду логических шагов по изменению метаданных. Другой пример — электронная почта. Конкретное послание может быть удалено с почтового сервера, однако если согласно политикам срок действия соответствующей информации еще не закончился, система архивирования сохранит это сообщение в своей базе — данный процесс выполняется на уровне приложений, но сама база перемещается на более медленный физический носитель — уровень файловой системы.
Почему ILM?
При обращении к ILM внимание профессионалов в области хранения сосредоточено на четырех ключевых факторах. Вероятно, самый очевидный — постоянный рост объема данных. Рост данных имеет ряд существенных последствий. Слишком большое количество данных приводит к снижению производительности важнейших приложений. Архивирование устаревших данных теоретически может означать продление срока службы приложения и избавит от необходимости дорогостоящего обновления оборудования. Затрудненный доступ к данным также может привести к снижению производительности и сделать труднодостижимым желаемый уровень обслуживания. Сюда же надо добавить, что предоставление широкого доступа к данным порождает множество угроз для системы безопасности, которые компании вынуждены как-то учитывать.
Происходит не только количественный, но и качественный рост данных — появляются новые типы данных. Все более существенным фактором роста объема данных становится электронная почта. Необходимость управлять архивацией почты превратилась в острую проблему. Простое ограничение дискового пространства, выделяемого пользователям, перестало иметь существенное значение для определения того, что нужно архивировать, а что — удалять.
Однако электронная почта — только верхушка гигантского айсберга, сложенного из новых типов данных, которые требуют новой стратегии управления хранением. Для видеоданных, изображений, Web-данных и данных интерактивных журналов (blog) необходимо место. Передача голоса по протоколу IP (VoIP) становится общепринятой технологией, и рано или поздно VoIP-данные тоже надо будет где-то хранить. Все это приводит к дополнительным нагрузкам на инфраструктуру хранения.
Необходимость извлекать данные, чью ценность невозможно установить простым наблюдением за частотой обращений, очевиднее всего проявляется применительно к электронной почте: компании должны быть в состоянии не только извлекать отдельные электронные письма, но и суметь воспроизвести всю историю почтовой переписки со множеством вложений.
Последний фактор, который стимулирует внимание к ILM, — это инновационные разработки в технологии хранения. По мере того как инфраструктуры SAN и Network Attached Storage (NAS) становятся общеупотребительными, хранилище все больше напоминает ресурс общего доступа — всерьез обсуждается возможность превращения служб хранения в некую сервисную службу. Более того, развитие дешевых дисковых технологий, таких как ATA, приводит к появлению новых видов иерархий запоминающих устройств. Вместо двух ярусов — диска и ленты — многие инфраструктуры хранения теперь имеют три и более ярусов, благодаря чему данные перемещаются с высокопроизводительных промышленных дисковых накопителей на менее дорогие и не очень производительные дисковые накопители типа near-online, почти оперативные, для проведения операций резервирования и восстановления, а затем на ленту для архивного хранения.
Технологии и архитектуры
С точки зрения концепции, неважно, на какой конкретно ИТ-конфигурации построено ILM-решение — главное, чтобы обеспечивалось консолидированное взаимодействие всех территориально-распределенных компонентов. Сетевые системы хранения существенно упрощают выбор архитектуры ILM, каждому серверу предоставляется доступ к нужному ему хранилищу.
После определения технологии доступа к данным, технические параметры для ILM начинают играть вспомогательную роль, что достигается за счет технологии виртуализации. С точки зрения ILM не имеет значения, на оборудовании какого производителя будут храниться данные: важны лишь параметры стоимости и быстродействия. То же можно сказать про сети и серверы — выбор в каждом случае осуществляется автоматически путем поиска решения удовлетворения требований политик на основе описаний характеристик оборудования и программного обеспечения. Например, система хранения от производителя A имеет более высокие показатели производительности, однако продукт от производителя B дешевле, но, решение от производителя С имеет более расширенную функциональность, позволяющую полнее решать задачи архивирования.
Обращение к территориально-распределенному хранению является одним из необходимых атрибутов ILM, особенно в свете обеспечения надежности. Как правило, различают три уровня «распределенности»: кампус (характерная удаленность — до 10 км); город (100 км); регион.
Центральное хранилище, снабженное кроссплатформными средствами администрирования категории SRM (storage resource management), содержит характеристики системы хранения, параметры физических дисков, логических томов, файловых систем, контейнеры баз данных и т.п. Для размещения конкретных типов данных могут потребоваться разные типы систем хранения; задача SRM состоит в анализе и принятии решения о способе и месте хранения данных. Задача не сводится только к определению по типу файла места и способа их размещения — требуется еще анализ, например, по их принадлежности определенному департаменту. Например, отделу маркетинга требуются большие мультимедиа файлы, надежность хранения которых в общем случае может быть невысокой, а финансовый департамент оперирует относительно компактными текстовыми таблицами, от сохранности которых может зависеть судьба бизнеса.
Время интегрировать
Отдельные элементы ILM уже можно было встретить и в мэйнфреймах, и в отдельных корпоративных решениях, построенных на базе архитектур клиент-сервер, но сегодня пришло время интеграции разрозненных знаний, технологий и методов из этой области. Индустрия готова к этому, а появление авторитетных системных интеграторов стимулирует это процесс. Однако не следует, сломя голову бросаться внедрять ILM. Ключевым фактором должны быть требования бизнеса. Иногда еще сложно понять все взаимосвязи и потоки документов внутри компании, прояснить все требования с целью их формализации в виде политик или требований SLA. Кроме этого, имеются еще и чисто организационные проблемы, например, антагонизм интересов различных департаментов; в этом случае без помощи внешних консультантов консолидировать процесс управления информацией на протяжении всего ее жизненного цикла будет весьма сложно.
ILM все еще продолжает формироваться как идея, но отдельные части ILM-решений уже предлагаются фактически всеми крупными поставщиками систем хранения, следующими выбранной стратегии развития ILM, и вполне измеримый ROI уже может быть доступен. Более того, техники ILM могут помочь компаниям провести консолидацию как в серверном парке, так и в инфраструктуре систем хранения.
Об авторе:
Сергей Карпенко, руководитель Центра Бизнес-знаний компании SI BIS, к.т.н., доцент кафедры безопасности информационных технологий НАУ.
|
|