PlusWell Cluster
容
错
软
件
技
术
白
皮
书
北京天行健达信息技术有限公司
2005年3月
一、 PlusWell Cluster容错软件技术简介及其应用 (支持共享磁盘阵列方式)
(一) PlusWell Cluster Cluster容错软件原理
1、 PlusWell Cluster Cluster容错软件定义、特性、资源保护
PlusWell Cluster Cluster 容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。
在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时, 会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。
可以被PlusWell Cluster容错软件保护起来的资源是:
卷(Volume)
IP 地址
共享文件
管理器服务器名称
应用程序
定义的用户
2、心跳故障检测Heartbeat
PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster 容错软件就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当PlusWell Cluster 容错软件把这唯一的一条通信路径标为失效时, PlusWell Cluster容错软件便立即开始恢复过程。然而,如果你有冗余路径, PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。
一般情况下PlusWell Cluster容错软件 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号, 把所有通信路径都标为失效, PlusWell Cluster 容错软件开始安全检查。
安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3、 通信路径
PlusWell Cluster容错软件支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网。
(2)串行口 在PlusWell Cluster容错软件配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。
PlusWell Cluster 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路
|
|