TIG China > CaseStudy-Health

系统集成及虚拟化迁移案例分析

公司介绍

某医疗保健机构是财富500强公司之一，总部所在地美国,主要经营医疗健康, 拥有800台以上的服务器和EMC SAN存储.该客户的数据中心环境面临着空间不足，电源和制冷需求过大的问题．因此需要迁移到新的数据中心．但新的数据中心空间有限，为了能优化环境降低空间和物理成本，决定采用系统虚拟化．

IT背景

用户虚拟化之前使用的是标准配置的HP Proliant BL系列服务器.由于公司的业务的发展,开始遇到几个困难:

l   新的业务和应用的出现,需要用到性能更为强大的服务器;

l   医疗保健机构来,需要有一个确定的容灾策略,来提高自己的可靠性;

l   基于绿色环保的倡导,需要降低电力成本,降低IT环境所产生的排碳量;

l   现有环境管理成本偏高, 希望可以得到降低;

l   每个服务器只跑一个单独的应用,但有限的空间抑制了应用的增加;

l   城市水管问题导致部分机房溢水,需要快速的将服务器迁移到新的环境.

基于以上几个原因,我们通过分析得出结论,要改善用户的现状,虚拟化是一个完善的解决方案.虚拟化具有降低成本,快速迁移等显著优点.

遇到的问题

对于刚开始接触虚拟化方案的客户来说, 也会产生一系列的问题和困扰, 例如下面几个就是该公司考虑的问题,以及我们的回答:

l   虚拟化环境和物理环境不同,很多在物理机上的行为和策略能不能直接拿来使用？

对于数据中心管理员来说，虚拟机的管理上是没有区别的；对于应用的管理者来说，虚拟化对他们是透明的

l   从物理环境到虚拟环境的迁移, 客户需要有一个观念转换的过程，这个过程持续多久？

除了系统管理员，虚拟化对于其他人是透明的，是感觉不到的．虚拟化的概念并不复杂，接受起来也很容易

l   客户对新的技术不熟悉,在管理上会缺乏安全感，虚拟化管理复杂吗;

虚拟化的一大作用就是简化管理，降低了复杂度，学习起来也是很快的过程．

l   客户的预算和时间有限,能在最短的时间看到效果吗？

成本的降低是显而易见的．虚拟话可以做到数据中心的快速迁移，这比传统的迁移方法更安全，更有效；

l   虚拟化环境的稳定性和生命周期怎样？

VMware采用业界最先进的虚拟化技术，使用HA和DRS保证了高可用性；虚拟化的动态迁移将物理机与虚拟机分隔，保证了物理机的淘汰也不会影响业务的连续性．对于虚拟机本身不存在老化的过程，除非应用的更新换代．

产品和解决方案

硬件：　HP DL380服务器（64G内存，2个四核的CPU）

关键性软件：

1. VMware Capacity Planner

CP是我们在该方案中使用的重要工具。它是一款业务和IT容量规划工具，它提供了一套完整的分析、规划和决策支持功能，用来实现速度更快、精确度更高的可测量基础架构评估服务。

VMware Capacity Planner的工作过程可以分为以下几个步骤：

2. VMware Converter

VMware Converter 可以快速将基于 Microsoft Windows 的物理机和第三方映像格式转换为 VMware 虚拟机。它还可以在两个 VMware 平台之间转换虚拟机。

实施要点

首先，是什么造就一个成功的项目？

正确而合理的规划范围，快速准确的交付，基于预算的策划同时尽量节省开支，　完善的实施前评估，详细的规划，正确的实施，及时的反馈更新……这些是主要的因素，这些方面的结合才能够最好的完成整个项目。

1. 虚拟化前后性能评估标准。

该公司的应用主管负责监测性能状态,他们会比对迁移后的虚拟机性能数据，然后做出相应的动。整个过程如图所示：

一般来说, 整个性能测试时在迁移完成后的一天内完成的.在这一天里,应用管理员会做完成一个完整周期的测试，由虚拟机得出的测试的数据将会与物理机相比较.

2. 详细的P2V过程

首先, Capacity Planner会得到一些服务器的性能数据,这些数据包括了主要资源的使用率,如CPU ,MEM的使用率,不同核的使用频率.如图所示:

同时CP也会给出详细的表格数据来分析应用的资源使用情况:

然后当CP拿到数据以后,就可以开始分析结果.Capacity Planner 定义了一个”最易达成目标”,这个是我们最先的目的.我们创建了一个包含800个服务器的列表,用来计划给Humana做迁移. 我们创建了一个迁移前的检查列表, 用来和服务器的应用管理员来面谈. 安排了电话会议来讨论迁移的方案,同时也找出任何会影响P2V正常迁移的要素.( 从服务上不支持的应用,或者邦定了mac的应用等等) .完成这个过程以后就可以做迁移的计划了。如下表所示:

根据表格的计划,我们再进行迁移操作

在迁移的时候，在Humana PM，迁移的执行者（TIG），和应用的所有者之间建立一个沟通的桥梁。在P2V之前，在物理机上执行一系列迁移前的操作步骤，用来帮助迁移进行。网络配置被预先保存下来。网卡重命名，用户/密码记录。然后告诉app owner一个适当的时间来完成迁移。迁移是在线完成的，因为这样可以保持服务在使用中，并且迁移中生成的重要的数据也被保留下来。

迁移完成后，会紧接着执行一个清理列表。每一个迁移都执行相同的步骤来确保统一性。完成清理后，应用的owner会被要求来效验app是否工作正常。如果工作正常，就会将迁移后的服务器放入测试的阶段。

当所有性能测试完成以后，迁移被应用得owner和manager认同以后，迁移视为完成。

3. 相关的服务器，存储，网络会被重新配置

所有新的esx hosts 采用新的DL380 G5 机器，配置为2*4core CPU, 64G内存，2*4口的网卡，2个HBA卡

网络的配置上使用6个口来做虚拟机网络和Vlan， 4口用来管理和VMotion,存储上每个LUN不多于15个虚拟机，存储做到精简配置,按需分配。

4. 在新的虚拟话环境中如何设计备份和容灾

备份的策略和物理机的时候没有任何改变。所有备份的流量使用单独的网络。每一个VM有2个网络接口，一个用来正常网络访问，一个用来做备份。DR用HA和DRS的结合来实现。

5. 在虚拟化平台上如何确保安全性

VC集成到活动目录中，VC的帐号划分了不同的等级并赋予不同的权限，所有对VC的访问都是严格控制的。APP的用户通过RDP来访问他们的应用。对于app的访问和物理机没有任何区别。DMZ和military只能够被指定的IP地址所访问，而且与其他网络之间用防火墙进行隔离。

系统架构对比

之前

硬件上采用的是HP DL和刀片系列，约2000多台windows 2000和windows 2003服务器运行在2个数据中心。服务器型号是HP Proliant DL380和DL580服务器。存储上采用SAN EMC Symetric. 支持大约20000个用户。

之后

采用同一配置的DL380服务器（64G内存，2个四核的CPU），虚拟化的配置和内部边境相匹配。例如：生产集群，测试集群，QA集群，DMZ集群和military集群。主机会随着项目的进度而增加。Capacity Planner 显示总共有多少主机（在项目开始之前都没有获取的） . 当开始迁移时，资源就被监控了。当更多的资源（内存，CPU，存储）需要的时候，未使用的主机就会被添加到适当的集群里。这样的做法的好处是，使得项目可以在测试服务器，生产服务器或DMZ等服务器之间变动。最后的配置是， 1个vCenter, 160 个， 1000台以上的服务器迁移（大部分是由于旧数据中心的水灾）。

对于TCO(总体拥有成本) 的计算,TIG的P2V项目为Humana三年的TCO节省了约50%.

Cumulative 3 Year TCO Comparison

Current (As Is)

With VI (Projected)

Difference ($ and % savings)

TCO - Direct

$3,721,664

$1,913,321

$1,808,343;   48.6%

TCO - Indirect

$269,628

$67,257

$202,371;    75.1%

Total TCO (3 year)

$3,991,292

$1,980,578

$2,010,714;    50.4%