公司介绍
某医疗保健机构是财富500强公司之一,总部所在地美国,主要经营医疗健康, 拥有800台以上的服务器和EMC SAN存储.该客户的数据中心环境面临着空间不足,电源和制冷需求过大的问题.因此需要迁移到新的数据中心.但新的数据中心空间有限,为了能优化环境降低空间和物理成本,决定采用系统虚拟化.
IT背景
用户虚拟化之前使用的是标准配置的HP Proliant BL系列服务器.由于公司的业务的发展,开始遇到几个困难:
l 新的业务和应用的出现,需要用到性能更为强大的服务器;
|
l 医疗保健机构来,需要有一个确定的容灾策略,来提高自己的可靠性;
|
l 基于绿色环保的倡导,需要降低电力成本,降低IT环境所产生的排碳量;
|
l 现有环境管理成本偏高, 希望可以得到降低;
|
l 每个服务器只跑一个单独的应用,但有限的空间抑制了应用的增加;
|
l 城市水管问题导致部分机房溢水,需要快速的将服务器迁移到新的环境.
|
基于以上几个原因,我们通过分析得出结论,要改善用户的现状,虚拟化是一个完善的解决方案.虚拟化具有降低成本,快速迁移等显著优点.
遇到的问题
对于刚开始接触虚拟化方案的客户来说, 也会产生一系列的问题和困扰, 例如下面几个就是该公司考虑的问题,以及我们的回答:
l 虚拟化环境和物理环境不同,很多在物理机上的行为和策略能不能直接拿来使用?
|
|
对于数据中心管理员来说,虚拟机的管理上是没有区别的;对于应用的管理者来说,虚拟化对他们是透明的
|
|
l 从物理环境到虚拟环境的迁移, 客户需要有一个观念转换的过程,这个过程持续多久?
|
|
除了系统管理员,虚拟化对于其他人是透明的,是感觉不到的.虚拟化的概念并不复杂,接受起来也很容易
|
|
l 客户对新的技术不熟悉,在管理上会缺乏安全感,虚拟化管理复杂吗;
|
|
虚拟化的一大作用就是简化管理,降低了复杂度,学习起来也是很快的过程.
|
|
l 客户的预算和时间有限,能在最短的时间看到效果吗?
|
|
成本的降低是显而易见的.虚拟话可以做到数据中心的快速迁移,这比传统的迁移方法更安全,更有效;
|
|
l 虚拟化环境的稳定性和生命周期怎样?
|
|
VMware采用业界最先进的虚拟化技术,使用HA和DRS保证了高可用性;虚拟化的动态迁移将物理机与虚拟机分隔,保证了物理机的淘汰也不会影响业务的连续性.对于虚拟机本身不存在老化的过程,除非应用的更新换代.
|
产品和解决方案
硬件: HP DL380服务器(64G内存,2个四核的CPU)
关键性软件:
1. VMware Capacity Planner
CP是我们在该方案中使用的重要工具。它是一款业务和IT容量规划工具,它提供了一套完整的分析、规划和 决策支持功能,用来实现速度更快、精确度更高的可测量基础架构评估服务。
VMware Capacity Planner的工作过程可以分为以下几个步骤:
2. VMware Converter
VMware Converter 可以快速将基于 Microsoft Windows 的物理机和第三方映像格式转换为 VMware 虚拟机。它还可以在两个 VMware 平台之间转换虚拟机。
实施要点
首先,是什么造就一个成功的项目?
正确而合理的规划范围,快速准确的交付,基于预算的策划同时尽量节省开支, 完善的实施前评估,详细的规划,正确的实施,及时的反馈更新……这些是主要的因素,这些方面的结合才能够最好的完成整个项目。
1. 虚拟化前后性能评估标准。
该公司的应用主管负责监测性能状态,他们会比对迁移后的虚拟机性能数据,然后做出相应的动。整个过程如图所示:
一般来说, 整个性能测试时在迁移完成后的一天内完成的.在这一天里,应用管理员会做完成一个完整周期的测试,由虚拟机得出的测试的数据将会与物理机相比较.
2. 详细的P2V过程
首先, Capacity Planner会得到一些服务器的性能数据,这些数据包括了主要资源的使用率,如CPU ,MEM的使用率,不同核的使用频率.如图所示:
同时CP也会给出详细的表格数据来分析应用的资源使用情况:
然后当CP拿到数据以后,就可以开始分析结果.Capacity Planner 定义了一个”最易达成目标”,这个是我们最先的目的.我们创建了一个包含800个服务器的列表,用来计划给Humana做迁移. 我们创建了一个迁移前的检查列表, 用来和服务器的应用管理员来面谈. 安排了电话会议来讨论迁移的方案,同时也找出任何会影响P2V正常迁移的要素.( 从服务上不支持的应用,或者邦定了mac的应用等等) .完成这个过程以后就可以做迁移的计划了。如下表所示:
根据表格的计划,我们再进行迁移操作
在迁移的时候,在Humana PM, 迁移的执行者(TIG), 和应用的所有者之间建立一个沟通的桥梁。在P2V之前,在物理机上执行一系列迁移前的操作步骤,用来帮助迁移进行。网络配置被预先保存下来。网卡重命名,用户/密码记录。然后告诉app owner一个适当的时间来完成迁移。迁移是在线完成的,因为这样可以保持服务在使用中,并且迁移中生成的重要的数据也被保留下来。
迁移完成后,会紧接着执行一个清理列表。每一个迁移都执行相同的步骤来确保统一性。完成清理后,应用的owner会被要求来效验app是否工作正常。如果工作正常,就会将迁移后的服务器放入测试的阶段。
当所有性能测试完成以后,迁移被应用得owner和manager认同以后,迁移视为完成。
3. 相关的服务器,存储,网络会被重新配置
所有新的esx hosts 采用新的DL380 G5 机器,配置为2*4core CPU, 64G内存,2*4口的网卡,2个HBA卡
网络的配置上使用6个口来做虚拟机网络和Vlan, 4口用来管理和VMotion,存储上 每个LUN不多于15个虚拟机, 存储做到精简配置,按需分配。
4. 在新的虚拟话环境中如何设计备份和容灾
备份的策略和物理机的时候没有任何改变。所有备份的流量使用单独的网络。每一个VM有2个网络接口,一个用来正常网络访问,一个用来做备份。DR用HA和DRS的结合来实现。
5. 在虚拟化平台上如何确保安全性
VC集成到活动目录中,VC的帐号划分了不同的等级并赋予不同的权限,所有对VC的访问都是严格控制的。APP的用户通过RDP来访问他们的应用。对于app的访问和物理机没有任何区别。DMZ和military只能够被指定的IP地址所访问,而且与其他网络之间用防火墙进行隔离。
系统架构对比
之前
硬件上采用的是HP DL和刀片系列,约2000多台windows 2000和windows 2003服务器运行在2个数据中心。服务器型号是HP Proliant DL380和DL580服务器。存储上采用SAN EMC Symetric. 支持大约20000个用户。
之后
采用同一配置的DL380服务器(64G内存,2个四核的CPU),虚拟化的配置和内部边境相匹配。例如:生产集群,测试集群,QA集群,DMZ集群和military集群。主机会随着项目的进度而增加。Capacity Planner 显示总共有多少主机(在项目开始之前都没有获取的) . 当开始迁移时,资源就被监控了。当更多的资源(内存,CPU,存储)需要的时候, 未使用的主机就会被添加到适当的集群里。这样的做法的好处是,使得项目可以在测试服务器,生产服务器或DMZ等服务器之间变动。最后的配置是, 1个vCenter, 160 个, 1000台以上的服务器迁移(大部分是由于旧数据中心的水灾)。
对于TCO(总体拥有成本) 的计算,TIG的P2V项目为Humana三年的TCO节省了约50%.
Cumulative 3 Year TCO Comparison
|
Current (As Is)
|
With VI (Projected)
|
Difference ($ and % savings)
|
TCO - Direct
|
$3,721,664
|
$1,913,321
|
$1,808,343; 48.6%
|
TCO - Indirect
|
$269,628
|
$67,257
|
$202,371; 75.1%
|
Total TCO (3 year)
|
$3,991,292
|
$1,980,578
|
$2,010,714; 50.4%
|