Hi, two weeks ago I asked for some help building a two-node cluster with HA-LVM. After some e-mails, finally I got my cluster working. The problem now is that sometimes, and in some clusters (I have three clusters with the same configuration), I got very strange behaviours.<br>
<br>#1 Openais detects some problem and shutdown itself. The network is Ok, is a virtual device in vmware, shared with the other cluster hearbet networks, and only happens in one cluster. The error messages:<br><br>Jul 16 08:50:32 node1 openais[3641]: [TOTEM] FAILED TO RECEIVE<br>
Jul 16 08:50:32 node1 openais[3641]: [TOTEM] entering GATHER state from 6.<br>Jul 16 08:50:36 node1 openais[3641]: [TOTEM] entering GATHER state from 0<br><br>Do you know what can I check in order to solve the problem? I don't know from where I should start. What makes Openais to not receive messages?<br>
<br><br>#2 I'm getting a lot of RGmanager errors when rgmanager tries to change the service status. i.e: clusvdcam -d service. Always happens when I have the two nodes UP. If I shutdown one node, then the command finishes succesfully. Prior to execute the command, I always check the status with clustat, and everything is OK:<br>
<br>clurgmgrd[5667]: <err> #52: Failed changing RG status<br><br>Another time, what can I check in order to detect problems with rgmanager that clustat and cman_tool doesn't show?<br><br>#3 Sometimes, not always, a node that has been fenced cannot join the cluster after the reboot. With clustat I can see that there is quorum:<br>
<br>clustat:<br>[root@node2 ~]# clustat<br>Cluster Status test_cluster @ Mon Jul 16 05:46:57 2012<br>Member Status: Quorate<br><br> Member Name                             ID   Status<br> ------ ----                             ---- ------<br>
 node1-hb                                  1 Offline<br> node2-hb                               2 Online, Local, rgmanager<br> /dev/disk/by-path/pci-0000:02:01.0-scsi-    0 Online, Quorum Disk<br><br> Service Name                   Owner (Last)                   State<br>
 ------- ----                   ----- ------                   -----<br> service:test                   node2-hb                  started<br><br>The log show how node2 fenced node1:<br><br>node2 messages<br>Jul 13 04:00:31 node2 fenced[4219]: node1 not a cluster member after 0 sec post_fail_delay<br>
Jul 13 04:00:31 node2 fenced[4219]: fencing node "node1"<br>Jul 13 04:00:36 node2 clurgmgrd[4457]: <info> Waiting for node #1 to be fenced<br>Jul 13 04:01:04 node2 fenced[4219]: fence "node1" success<br>
Jul 13 04:01:06 node2 clurgmgrd[4457]: <info> Node #1 fenced; continuing<br><br>But the node that tries to join the cluster says that there isn't quorum. Finally. It finishes inquorate, without seeing node1 and the quorum disk.<br>
<br>node1 messages<br>Jul 16 05:48:19 node1 ccsd[4207]: Error while processing connect: Connection refused<br>Jul 16 05:48:19 node1 ccsd[4207]: Cluster is not quorate.  Refusing connection.<br><br>Have something in common the three errors?  What should I check? I've discarded cluster configuration because cluster is working, and the  errors doesn't appear in all the nodes. The most annoying error cureently is the #1. Every 10-15 minutes Openais fails and the nodes gets fenced. I attach the cluster.conf.<br>
<br>Thanks in advance.<br><br>Regards, Javi<br><br>