Hi,<br><br>I set two_node=0 in purpose, because of I use a quorum disk with one additional vote. If one one fails, I still have two votes, and the cluster remains quorate, avoiding the split-brain situation. Is this approach wrong? In my tests, this aspect of the quorum worked well.<br>

<br>Fencing works very well. When something happens, the fencing kills the faulting server without any problems.<br>
<br>The first time I ran into problems I cheked multicast traffic between the nodes with iperf and everything appeared to be OK. What I don't know is how works the purge you said. I didn't know that any purge was running whatsoever. How can I check if is happening? Moreover, when I did the test only one cluster was running. Now there are 3 cluster running in the same virtual switch. <br>


<br><br>Software:<br><pre><font size="4">Red Hat Enterprise Linux Server release 5.7 (Tikanga)<br>cman-2.0.115-85.el5<br>rgmanager-2.0.52-21.el5<br>openais-0.80.6-30.el5</font></pre><br> Regards, Javi<br><br><div class="gmail_quote">
2012/7/16 Digimer <span dir="ltr"><<a href="mailto:lists@alteeve.ca" target="_blank">lists@alteeve.ca</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Why did you set 'two_node="0" expected_votes="3"' on a two node cluster?<br>
With this, losing a node will mean you lose quorum and all cluster<br>
activity will stop. Please change this to 'two_node="1" expected_votes="1"'.<br>
<br>
Did you confirm that your fencing actually works? Does 'fence_node<br>
node1' and 'fence_node node2' actually kill the target?<br>
<br>
Are you running into multicast issues? If your switch (virtual or real)<br>
purges multicast groups periodically, it will break the cluster.<br>
<br>
What version of the cluster software and what distro are you using?<br>
<br>
Digimer<br>
<div><div><br>
<br>
On 07/16/2012 12:03 PM, Javier Vela wrote:<br>
> Hi, two weeks ago I asked for some help building a two-node cluster with<br>
> HA-LVM. After some e-mails, finally I got my cluster working. The<br>
> problem now is that sometimes, and in some clusters (I have three<br>
> clusters with the same configuration), I got very strange behaviours.<br>
><br>
> #1 Openais detects some problem and shutdown itself. The network is Ok,<br>
> is a virtual device in vmware, shared with the other cluster hearbet<br>
> networks, and only happens in one cluster. The error messages:<br>
><br>
> Jul 16 08:50:32 node1 openais[3641]: [TOTEM] FAILED TO RECEIVE<br>
> Jul 16 08:50:32 node1 openais[3641]: [TOTEM] entering GATHER state from 6.<br>
> Jul 16 08:50:36 node1 openais[3641]: [TOTEM] entering GATHER state from 0<br>
><br>
> Do you know what can I check in order to solve the problem? I don't know<br>
> from where I should start. What makes Openais to not receive messages?<br>
><br>
><br>
> #2 I'm getting a lot of RGmanager errors when rgmanager tries to change<br>
> the service status. i.e: clusvdcam -d service. Always happens when I<br>
> have the two nodes UP. If I shutdown one node, then the command finishes<br>
> succesfully. Prior to execute the command, I always check the status<br>
> with clustat, and everything is OK:<br>
><br>
> clurgmgrd[5667]: <err> #52: Failed changing RG status<br>
><br>
> Another time, what can I check in order to detect problems with<br>
> rgmanager that clustat and cman_tool doesn't show?<br>
><br>
> #3 Sometimes, not always, a node that has been fenced cannot join the<br>
> cluster after the reboot. With clustat I can see that there is quorum:<br>
><br>
> clustat:<br>
> [root@node2 ~]# clustat<br>
> Cluster Status test_cluster @ Mon Jul 16 05:46:57 2012<br>
> Member Status: Quorate<br>
><br>
>  Member Name                             ID   Status<br>
>  ------ ----                             ---- ------<br>
>  node1-hb                                  1 Offline<br>
>  node2-hb                               2 Online, Local, rgmanager<br>
>  /dev/disk/by-path/pci-0000:02:01.0-scsi-    0 Online, Quorum Disk<br>
><br>
>  Service Name                   Owner (Last)                   State<br>
>  ------- ----                   ----- ------                   -----<br>
>  service:test                   node2-hb                  started<br>
><br>
> The log show how node2 fenced node1:<br>
><br>
> node2 messages<br>
> Jul 13 04:00:31 node2 fenced[4219]: node1 not a cluster member after 0<br>
> sec post_fail_delay<br>
> Jul 13 04:00:31 node2 fenced[4219]: fencing node "node1"<br>
> Jul 13 04:00:36 node2 clurgmgrd[4457]: <info> Waiting for node #1 to be<br>
> fenced<br>
> Jul 13 04:01:04 node2 fenced[4219]: fence "node1" success<br>
> Jul 13 04:01:06 node2 clurgmgrd[4457]: <info> Node #1 fenced; continuing<br>
><br>
> But the node that tries to join the cluster says that there isn't<br>
> quorum. Finally. It finishes inquorate, without seeing node1 and the<br>
> quorum disk.<br>
><br>
> node1 messages<br>
> Jul 16 05:48:19 node1 ccsd[4207]: Error while processing connect:<br>
> Connection refused<br>
> Jul 16 05:48:19 node1 ccsd[4207]: Cluster is not quorate.  Refusing<br>
> connection.<br>
><br>
> Have something in common the three errors?  What should I check? I've<br>
> discarded cluster configuration because cluster is working, and the<br>
> errors doesn't appear in all the nodes. The most annoying error<br>
> cureently is the #1. Every 10-15 minutes Openais fails and the nodes<br>
> gets fenced. I attach the cluster.conf.<br>
><br>
> Thanks in advance.<br>
><br>
> Regards, Javi<br>
><br>
><br>
><br>
</div></div><span><font color="#888888">> --<br>
> Linux-cluster mailing list<br>
> <a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br>
> <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
><br>
<br>
<br>
--<br>
Digimer<br>
Papers and Projects: <a href="https://alteeve.com" target="_blank">https://alteeve.com</a><br>
<br>
<br>
</font></span></blockquote></div><br>