<html><body bgcolor="#FFFFFF"><div>I hope you're planning to expand to least a 3 node cluster before you go into production. You know two node clusters are inherently unstable, right?I assume you've read the architectural overview of how the cluster suite achieves quorum.</div><div><br></div><div>A cluster requires (n/2)+1 to continue to operate. If you restart or otherwise remove a machine from a two node cluster, you've lost quorum and by definition you've dissolved your cluster while you're in that state.</div><div><br></div><div>I'm pretty sure the behavior you are describing is proper.<br><br>Time flies like an arrow.<div>Fruit flies like a banana.</div></div><div><br>On May 11, 2009, at 4:08, "Viral .D. Ahire" <<a href="mailto:CISPLengineer.hz@ril.com">CISPLengineer.hz@ril.com</a>> wrote:<br><br></div><div></div><blockquote type="cite"><div>

Hi,<br>
<br>
I have configured two node cluster on redhat-5. now the problem is when
i relocate,restart or stop,  running cluster service between nodes (2
nos) ,the node get fenced and restart server . Other side, the server
who obtain cluster service leave the cluster and it's cluster service
(cman) stop automatically .so it is also fenced by other server.<br>
<br>
I observed that , this problem occurred while stopping cluster service
(oracle).<br>
<br>
Please help me to resolve this problem.<br>
<br>
log messages and cluster.conf file are as given as  below.<br>
-------------------------<br>
/etc/cluster/cluster.conf<br>
-------------------------<br>
<?xml version="1.0"?><br>
<cluster config_version="59" name="new_cluster"><br>
    <fence_daemon post_fail_delay="0" post_join_delay="3"/><br>
    <clusternodes><br>
        <clusternode name="psfhost1" nodeid="1" votes="1"><br>
            <fence><br>
                <method name="1"><br>
                    <device name="cluster1"/><br>
                </method><br>
            </fence><br>
        </clusternode><br>
        <clusternode name="psfhost2" nodeid="2" votes="1"><br>
            <fence><br>
                <method name="1"><br>
                    <device name="cluster2"/><br>
                </method><br>
            </fence><br>
        </clusternode><br>
    </clusternodes><br>
    <cman expected_votes="1" two_node="1"/><br>
    <fencedevices><br>
        <fencedevice agent="fence_ilo" hostname="ilonode1"
login="Administrator" name="cluster1" passwd="9M6X9CAU"/><br>
        <fencedevice agent="fence_ilo" hostname="ilonode2"
login="Administrator" name="cluster2" passwd="ST69D87V"/><br>
    </fencedevices><br>
    <rm><br>
        <failoverdomains><br>
            <failoverdomain name="poy-cluster" ordered="0"
restricted="0"><br>
                <failoverdomainnode name="psfhost1" priority="1"/><br>
                <failoverdomainnode name="psfhost2" priority="1"/><br>
            </failoverdomain><br>
        </failoverdomains><br>
        <resources><br>
            <ip address="10.2.220.2" monitor_link="1"/><br>
            <script file="/etc/init.d/httpd" name="httpd"/><br>
            <fs device="/dev/cciss/c1d0p3" force_fsck="0"
force_unmount="0" fsid="52427" fstype="ext3" mountpoint="/app"
name="app" options="" self_fence="0"/><br>
            <fs device="/dev/cciss/c1d0p4" force_fsck="0"
force_unmount="0" fsid="39388" fstype="ext3" mountpoint="/opt"
name="opt" options="" self_fence="0"/><br>
            <fs device="/dev/cciss/c1d0p1" force_fsck="0"
force_unmount="0" fsid="62307" fstype="ext3" mountpoint="/data"
name="data" options="" self_fence="0"/><br>
            <fs device="/dev/cciss/c1d0p2" force_fsck="0"
force_unmount="0" fsid="47234" fstype="ext3" mountpoint="/OPERATION"
name="OPERATION" options="" self_fence="0"/><br>
            <script file="/etc/init.d/orcl" name="Oracle"/><br>
        </resources><br>
        <service autostart="0" name="oracle" recovery="relocate"><br>
            <fs ref="app"/><br>
            <fs ref="opt"/><br>
            <fs ref="data"/><br>
            <fs ref="OPERATION"/><br>
            <ip ref="10.2.220.2"/><br>
            <script ref="Oracle"/><br>
        </service><br>
    </rm><br>
</cluster><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
---------------- -------<br>
/var/log/messages<br>
-----------------------<br>
following logs during relocate cluster service (oracle) between nodes.<br>
<p class="MsoNormal"><span style="font-size: 10pt; font-family: "Courier New";"><big><u><b>Node-1</b></u></big><br>
</span></p>
<p class="MsoNormal"><span style="font-size: 10pt; font-family: "Courier New";">2 16:17:58
psfhost2 clurgmgrd[3793]: <notice> Starting stopped service
service:oracle <br>
May  2 16:17:58 psfhost2 kernel: kjournald starting.  Commit interval 5
seconds<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs warning: maximal mount count
reached, running e2fsck is recommended<br>
May  2 16:17:58 psfhost2 kernel: EXT3 FS on cciss/c1d0p3, internal
journal<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs: mounted filesystem with
ordered data mode.<br>
May  2 16:17:58 psfhost2 kernel: kjournald starting.  Commit interval 5
seconds<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs warning: maximal mount count
reached, running e2fsck is recommended<br>
May  2 16:17:58 psfhost2 kernel: EXT3 FS on cciss/c1d0p4, internal
journal<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs: mounted filesystem with
ordered data mode.<br>
May  2 16:17:58 psfhost2 kernel: kjournald starting.  Commit interval 5
seconds<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs warning: maximal mount count
reached, running e2fsck is recommended<br>
May  2 16:17:58 psfhost2 kernel: EXT3 FS on cciss/c1d0p1, internal
journal<br>
May  2 16:17:58 psfhost2 kernel: EXT3-fs: mounted filesystem with
ordered data mode.<br>
May  2 16:17:59 psfhost2 kernel: kjournald starting.  Commit interval 5
seconds<br>
May  2 16:17:59 psfhost2 kernel: EXT3-fs warning: maximal mount count
reached, running e2fsck is recommended<br>
May  2 16:17:59 psfhost2 kernel: EXT3 FS on cciss/c1d0p2, internal
journal<br>
May  2 16:17:59 psfhost2 kernel: EXT3-fs: mounted filesystem with
ordered data mode.<br>
May  2 16:17:59 psfhost2 avahi-daemon[3661]: Registering new address
record for 10.2.220.2 on eth0.<br>
May  2 16:18:00 psfhost2 in.rdiscd[5945]: setsockopt
(IP_ADD_MEMBERSHIP): Address already in use<br>
May  2 16:18:00 psfhost2 in.rdiscd[5945]: Failed joining addresses <br>
May  2 16:18:11 psfhost2 clurgmgrd[3793]: <notice> Service
service:oracle started <br>
May  2 16:19:17 psfhost2 kernel: bnx2: eth1 NIC Link is Down<br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] entering GATHER state
from 11. <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] Saving state aru 1b
high seq received 1b <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] Storing new sequence id
for ring 90 <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] entering COMMIT state. <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] entering RECOVERY
state. <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] position [0] member
10.2.220.6: <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] previous ring seq 140
rep 10.2.220.6 <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] aru 9 high delivered 9
received flag 1 <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] position [1] member
10.2.220.7: <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] previous ring seq 136
rep 10.2.220.7 <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] aru 1b high delivered
1b received flag 1 <br>
May  2 16:19:26 psfhost2 openais[3275]: [TOTEM] Did not need to
originate any messages in recovery. <br>
May  2 16:19:26 psfhost2 openais[3275]: [CLM  ] CLM CONFIGURATION
CHANGE <br>
May  2 16:19:26 psfhost2 openais[3275]: [CLM  ] New Configuration: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ]     r(0)
ip(10.2.220.7)  <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] Members Left: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] Members Joined: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] CLM CONFIGURATION
CHANGE <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] New Configuration: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ]     r(0)
ip(10.2.220.6)  <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ]     r(0)
ip(10.2.220.7)  <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] Members Left: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] Members Joined: <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ]     r(0)
ip(10.2.220.6)  <br>
May  2 16:19:27 psfhost2 openais[3275]: [SYNC ] This node is within the
primary component and will provide service. <br>
May  2 16:19:27 psfhost2 openais[3275]: [TOTEM] entering OPERATIONAL
state. <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] got nodejoin message
10.2.220.6 <br>
May  2 16:19:27 psfhost2 openais[3275]: [CLM  ] got nodejoin message
10.2.220.7 <br>
May  2 16:19:27 psfhost2 openais[3275]: [CPG  ] got joinlist message
from node 2 <br>
May  2 16:19:29 psfhost2 kernel: bnx2: eth1 NIC Link is Up, 1000 Mbps
full duplex, receive & transmit flow control ON<br>
May  2 16:19:31 psfhost2 kernel: bnx2: eth1 NIC Link is Down<br>
May  2 16:19:35 psfhost2 kernel: bnx2: eth1 NIC Link is Up, 100 Mbps
full duplex, receive & transmit flow control ON<br>
May  2 16:19:42 psfhost2 kernel: dlm: connecting to 1<br>
May  2 16:20:36 psfhost2 ccsd[3265]: Update of cluster.conf complete
(version 57 -> 59). <br>
May  2 16:20:43 psfhost2 clurgmgrd[3793]: <notice> Reconfiguring <br>
May  2 16:21:15 psfhost2 clurgmgrd[3793]: <notice> Stopping
service service:oracle <br>
May  2 16:21:25 psfhost2 avahi-daemon[3661]: Withdrawing address record
for 10.2.220.7 on eth0.<br>
May  2 16:21:25 psfhost2 avahi-daemon[3661]: Leaving mDNS multicast
group on interface eth0.IPv4 with address 10.2.220.7.<br>
May  2 16:21:25 psfhost2 avahi-daemon[3661]: Joining mDNS multicast
group on interface eth0.IPv4 with address 10.2.220.2.<br>
May  2 16:21:25 psfhost2 clurgmgrd: [3793]: <err> Failed to
remove 10.2.220.2 <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] entering RECOVERY
state. <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] position [0] member
127.0.0.1: <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] previous ring seq 144
rep 10.2.220.6 <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] aru 31 high delivered
31 received flag 1 <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] Did not need to
originate any messages in recovery. <br>
May  2 16:21:40 psfhost2 openais[3275]: [TOTEM] Sending initial ORF
token <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] CLM CONFIGURATION
CHANGE <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] New Configuration: <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ]     r(0) ip(127.0.0.1) 
<br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] Members Left: <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ]     r(0)
ip(10.2.220.7)  <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] Members Joined: <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] CLM CONFIGURATION
CHANGE <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] New Configuration: <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ]     r(0) ip(127.0.0.1) 
<br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] Members Left: <br>
May  2 16:21:40 psfhost2 openais[3275]: [CLM  ] Members Joined: <br>
May  2 16:21:40 psfhost2 openais[3275]: [SYNC ] This node is within the
primary component and will provide service.<br>
May<span style="">  </span>2 16:21:40 psfhost2 openais[3275]: [TOTEM]
entering
OPERATIONAL state.<br>
May<span style="">  </span>2 16:21:40 psfhost2 openais[3275]: [<st1:place w:st="on">MAIN</st1:place> ] Killing node psfhost2 because it has
rejoined the
cluster without cman_tool join<br>
May<span style="">  </span>2 16:21:40 psfhost2 openais[3275]: [CMAN ]
cman killed by node 2 because we rejoined the cluster without a full
restart<br>
May<span style="">  </span>2 16:21:40 psfhost2 fenced[3291]:
cman_get_nodes error -1 104<br>
May<span style="">  </span>2 16:21:40 psfhost2 kernel:
clurgmgrd[3793]:
segfault at 0000000000000000 rip 0000000000408c4a rsp 00007fff3c4a9e20
error 4<br>
May<span style="">  </span>2 16:21:40 psfhost2 fenced[3291]: cluster
is
down, exiting<br>
May<span style="">  </span>2 16:21:40 psfhost2 groupd[3283]:
cman_get_nodes error -1 104<br>
May<span style="">  </span>2 16:21:40 psfhost2 dlm_controld[3297]:
cluster is down, exiting<br>
May<span style="">  </span>2 16:21:40 psfhost2 gfs_controld[3303]:
cluster is down, exiting<br>
May<span style="">  </span>2 16:21:40 psfhost2 clurgmgrd[3792]:
<crit> Watchdog: Daemon died, rebooting...<br>
May<span style="">  </span>2 16:21:40 psfhost2 kernel: dlm: closing
connection to node 1<br>
May<span style="">  </span>2 16:21:40 psfhost2 kernel: dlm: closing
connection to node 2<br>
May<span style="">  </span>2 16:21:40 psfhost2 kernel: md: stopping
all
md devices.<br>
May<span style="">  </span>2 16:21:41 psfhost2 kernel: uhci_hcd
0000:01:04.4: HCRESET not completed yet!<br>
May<span style="">  </span>2 16:24:55 psfhost2 syslogd 1.4.1: restart.<br>
May<span style="">  </span>2 16:24:55 psfhost2 kernel: klogd 1.4.1,
log
source = /proc/kmsg started.<br>
May<span style="">  </span>2 16:24:55 psfhost2 kernel: Linux version
2.6.18-53.el5 (<a class="moz-txt-link-abbreviated" href="mailto:brewbuilder@hs20-bc1-7.build.redhat.com"><a href="mailto:brewbuilder@hs20-bc1-7.build.redhat.com">brewbuilder@hs20-bc1-7.build.redhat.com</a></a>)
(gcc version
4.1.2
20070626 (Red Hat 4.1.2-14)) #1 SMP Wed Oct </span></p></div></blockquote><blockquote type="cite"><div><span>--</span><br><span>Linux-cluster mailing list</span><br><span><a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a></span><br><span><a href="https://www.redhat.com/mailman/listinfo/linux-cluster">https://www.redhat.com/mailman/listinfo/linux-cluster</a></span></div></blockquote></body></html>