YB-ND云容错
YBM-ND容错解决方案优势
YBM是业界唯一一家全力致力于研发,推广软件级容错机技术的厂商,并始终成为提供连续可用性计算机系统的领先者。
伴随计算机系统的普及,特别是越来越多的企业采用Microsoft Windows /Linux作为其应用系统环境,企业的关键性应用对系统环境的可靠性和可用性要求欲以剧增。YBM适时在今年六月推出了业界第一台基于X86技术和Microsoft Windows/ RedHat的硬件级容错服务器系列产品—YBM-ND。
YBM-ND生产的容错服务器软件秉承传统的容错硬件体系结构,为联机事务处理(OLTP)领域的关键性应用提供了新的连续可用性平台选择。其特点是:
零停顿时间
YBM-ND容错计算机系统提供业界最高可靠性、和可用性。要求采购的服务器系统采用双模(DMR太阳城23138TMR)硬件体系结构。双模系统可用性达到99.999%,平均每年非计划(意外)停机时间不超过5分钟。而三模系统可用性可超过99.9999%的可用性。与其它解决方案低于99.99%,平均每年非计划(意外)停机时间超过4~5小时的可用性相比,用客户获得极大的稳定性。
无故障恢复时间
系统所有关键部件均为冗余配置。冗余部件时钟同步运行相同指令。保证即使在硬件出现故障时,其冗余部件仍然保持继续运行,从而保证当前交易的处理,应用不会因此而停顿和数据丢失。其它方案下,应用需要等待计算机系统的故障恢复,数据库的恢复,网络联接的恢复以及应用的恢复。
无内存数据丢失
YBM-ND独特的冗余硬件结构不但保证磁盘静态数据的完整性,而且保证内存数据的完整性。从而保证交易的完整一致性。而其它解决方案使无法做到的。在故障恢复期间,当前交易和内存数据将要丢失。
标准Windows/Linux
兼容性
YBM-ND支持标准的Windows/Liunx(RedHat)操作系统环境。保持应用二进制兼容。标准Windows和RedHat下运行的软件无需任何变动即可稳定在上面运行。
Windows/Liunx(RedHat)可靠性增值
YBM-ND利用其独特的冗余结构和容错技术,改进和完善了Windows
/Liunx(RedHat)的可靠性和稳定性。
1
强化驱动
为加强可靠性而设计的YBM-ND强化驱动不但可以实时检测和隔离故障部件,而且可以检测和隔离不良驱动的内存越界写操作,防止造成系统严重后果。
2
在线转存
在Windows /Liunx(RedHat)发生崩溃后,YBM-ND立即可从一个CPU重启动,使关键应用立即投入生产。与此同时,另一个冗余CPU保持内存状态数据,并在线将故障状态转存至磁盘,以供调试和诊断。
3
快速重启动
YBM-ND提供预先定义内存段,使得当系统崩溃后的重启动期间,此定义的内存段数据保持不被刷新,从而重要数据、上下文生成数据、以及较大的驱动程序维持在定义的内存段,减少重启动时间,并保护了重要数据。
应用透明性
YBM-ND故障处理在硬件部件级完成。任何故障均能被自动隔离,而不会导致系统进一步严重问题。YBM-ND容错系统对应用使透明的,即:
a 在单机上开发的应用无需修改,即可获得YBM-ND容错技术的特征。不象其它方案那样需要额外编制面向故障的脚本程序;
b
应用的测试仅限于正常的软件测试。而无需进行繁琐的、重复的脚本程序测试来验证脚本程序能够正确地进行恢复工作;
c
功能系统的维护如同单机一样。没有额外备份或集群技术的维护需要。
生命周期总成本和风险
YBM-ND的故障处理和维护使可预测的,为企业的成本预算奠定基础,从而YBM-ND解决方案总成本是最低的。相反,其它利用脚本程序解决故障的方案因为一些不可预测的故障没有相应的脚本程序处理而使应用瘫痪,企业将面临不可预测的成本和风险。
YBM-ND和HA的区别
集群(双机热备份)方案与容错方案的对比 |
||
内容 |
集群HA方案 |
容错YBM-ND方案 |
硬件结构 |
冗余服务器和磁盘柜,通过集群软件,设计切换机制,由软件来执行故障的恢复 |
100%部件冗余,计算机指令时钟同步,通过比较或表决线路,由硬件执行容错,预防故障发生 |
软件结构 |
100%部件冗余,计算机指令时钟同步,通过比较或表决线路,由硬件执行容错,预防故障发生 |
单软件映像,强化驱动和热插拔支持,软件结构像单机这么简单,无需做特殊处理 |
停机故障类型 |
所有故障,包括永久和瞬间故障 |
绝大部分故障都不会造成停机 |
故障造成 停机时间 |
几分钟—几十分钟不等,根据服务器之间的切换时间和应用复杂程度,来决定停机时间 |
零切换时间,故障不会造成停机 |
数据完整性 |
故障发生导致动态实时数据丢失,切换不完善导致数据不一致 |
没有数据丢失,保证数据完整性和一致性 |
应用软件测试 |
所有应用软件必须经过严格切换测试,模拟故障不全 |
无需进行切换测试,所有软件对客户是透明的 |
系统设计 |
复杂,必须考虑所有硬软件在集群系统下的可用性 |
设计简单,只需考虑单机应用 |
安装步骤 |
硬件结构复杂,现场组装时间长,软件必须安装两次,而且现场必须编制切换的脚本程序 |
模块化设计,插拔式安装,时间短,软件一次安装完成,无需现场编制任何脚本程序 |
安装时间 |
一天 |
3小时左右 |
测试 |
必须经过严格的所有硬件故障模拟测试,所有软件故障模拟测试,以及故障导致切换的测试 |
只需经过硬件热插拔测试,由于软件由其开发商以经过长期严格测试,无需在现场测试 |
测试时间 |
模拟故障不能完全考虑到现场的实际应用状况,故严格的测试需要一周左右时间 |
几分钟的模拟硬件故障测试 |
技术要求 |
安装实施工程师必须对集群技术、微软技术和应用软件的技术非常熟悉,并具有丰富的经验 |
只需要了解单机技术和微软技术即可,无需经过特殊的专业培训 |
设备管理 |
本身包含设备多,管理复杂,尤其除了管理服务器以外,还必须对磁盘柜进行管理 |
设备单一,管理简单,如同管理单机一样管理 |
系统检测 |
一般只有在开机时,服务器才会进行自检,正常使用时,不具备实时检测和纠错功能 |
具有实时自我检测功能,并且能自动隔离故障,无须人工检测 |
管理方式 |
必须现场进行管理,而且严格上来讲,必须7x24小时现场有工程师管理 |
可配置远程管理功能,由于故障不会导致系统瘫痪,即使故障发生,也无需立即到达现场处理故障 |
运行中测试 |
集群在实际应用中必须定期进行故障模拟和切换测试,以确保一旦故障出现,系统能够顺利切换,一般两周到一个月必须测试一次 |
只需对系统进行定期常规的健康检查,一般不需要测试 |
人员要求 |
对系统管理员必须经过专业技术培训,熟悉硬件和软件技术,以及时在现场作出故障处理 |
不需要经过专门的技术培训 |
易难程度 |
由于设备多,维护难度大,需要专业工程师维护 |
维护容易,无须经过专业培训,故障出现一般无须立即响应 |
故障修复 |
拆机后替换式故障诊断,故障定位后,替换故障备件,现场可能一次不能完成,修复时间长 |
模块化设计,系统自动提示故障位置,故障部件所在的模块一起更换,故障定位和备件更换快 |
热插拔 |
一般只有电源、风扇和硬盘支持热插拔,除以上部件外,均须停机拆卸更换 |
所有部件支持热插拔,包括CPU、内存、电源、风扇、I/O板卡,甚至底板均可连同模块一起热插拔,可在线进行部件更换 |
故障修复后测试 |
集群系统在任何故障修复后均必须再进行切换测试,保证故障再次发生,系 |
故障修复后只需进行常规健康检查 |
服务形式 |
被动式服务,一般采取人工电话咨询、工程师现场故障判断和备件更换,无法进行远程维护和自动报警 |
故障修复后只需进行常规健康检查 |
硬件采购成本 |
有双机双柜和双机单柜选择,平均成本较低 |
一般硬件采购成本较高 |
软件采购成本 (参考市场价格:下页) |
操作系统:Windows企业版 两套 数据库:SQL企业版 两套 集群软件:双机双柜必须另购 一套 应用软件:企业版 一套 |
操作系统:Windows企业版 一套 数据库:SQL标准版或企业版 一套 应用软件:标准版 一套 |
实施成本 |
集群一般需要专业的工程师到现场安装实施,集成费用、测试费用一般比较高 |
实施成本低,基本无测试成本,就如同单机集成 |
开发成本 |
软件二次开发后须经过集群环境测试,开发成本高,另外系统投产后如果需要增加软件和修改软件,也会产生开发成本 |
没有特殊的软件开发 |
生命周期 |
一般使用周期为3-4年 |
一般使用周期为4-6年 |
管理维护成本 |
对人员数量、技术水平、培训要求高 |
人员数量少,无须特殊技术和培训 |
太阳城娱乐亚洲
申请测试
TO GET TEST或直接致电我们 4008-578-875