<br><font size=2 face="sans-serif">Most likely the multicast packet communication
between the 2 nodes is not getting through your network.</font>
<br>
<br><tt><font size=2>linux-cluster-bounces@redhat.com wrote on 04/15/2010
01:05:01 PM:<br>
<br>
> Good afternoon,<br>
> I'm trying to form my first cluster of two nodes, using iLO fence
<br>
> devices. I need some help because I can't find what I've missed. <br>
> My main problem is that the "service cman start" reboots
the other <br>
> node and I can't form the two nodes cluster.<br>
> I'm using (at both nodea and nodeb, they are on the same VLAN and
<br>
> pings each other ok):<br>
> <br>
> [root@nodea ~]# uname -a<br>
> Linux nodea 2.6.18-164.15.1.el5 #1 SMP Wed Mar 17 11:30:06 EDT 2010
<br>
> x86_64 x86_64 x86_64 GNU/Linux<br>
> [root@nodea ~]# rpm -qa |grep cman<br>
> cman-2.0.115-1.el5_4.9<br>
> <br>
> [root@nodea ~]# cat /etc/cluster/cluster.conf (nodeb has the same
file)<br>
> <?xml version="1.0" ?><br>
> <cluster alias="VCluster" config_version="5"
name="VCluster"><br>
>     <fence_daemon post_fail_delay="0" post_join_delay="25"/><br>
>     <clusternodes><br>
>         <clusternode name="nodea"
nodeid="1" votes="1"><br>
>             <fence><br>
>                 <method
name="1"><br>
>                    
<device name="nodeaILO"/><br>
>                 </method><br>
>             </fence><br>
>         </clusternode><br>
>         <clusternode name="nodeb"
nodeid="2" votes="1"><br>
>             <fence><br>
>                 <method
name="1"><br>
>                    
<device name="nodebILO"/><br>
>                 </method><br>
>             </fence><br>
>         </clusternode><br>
>     </clusternodes><br>
>     <cman expected_votes="1" two_node="1"/><br>
>     <fencedevices><br>
>         <fencedevice agent="fence_ilo"
hostname="nodeacn" <br>
> login="user" name="nodeaILO" passwd="hp"/><br>
>         <fencedevice agent="fence_ilo"
hostname="nodebcn" <br>
> login="user" name="nodebILO" passwd="hp"/><br>
>     </fencedevices><br>
>     <rm><br>
>         <failoverdomains/><br>
>         <resources/><br>
>     </rm><br>
> </cluster><br>
> <br>
> When I start the cman service, it hangs up for some time at the <br>
> "Starting fencing..." step and after those configured 25secs
it <br>
> fences nodeb and reboots it.<br>
> [root@nodea ~]# service cman start<br>
> Starting cluster: <br>
>    Loading modules... done<br>
>    Mounting configfs... done<br>
>    Starting ccsd... done<br>
>    Starting cman... done<br>
>    Starting daemons... done<br>
>    Starting fencing... done<br>
>                    
                     
                 [  OK
 ]<br>
> <br>
> "nodeb" gets rebooted:<br>
> [root@nodeb ~]# <br>
> Broadcast message from root (Thu Apr 15 18:42:24 2010):<br>
> <br>
> The system is going down for system halt NOW!<br>
> <br>
> At the syslog I just can find:<br>
> Apr 15 18:40:59 nodea ccsd[16930]: Initial status:: Quorate <br>
> Apr 15 18:40:59 nodea openais[16936]: [CLM  ] Members Left: <br>
> Apr 15 18:40:59 nodea openais[16936]: [CLM  ] Members Joined:
<br>
> Apr 15 18:40:59 nodea openais[16936]: [CLM  ] CLM CONFIGURATION
CHANGE <br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ] New Configuration:
<br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ]     r(0)
ip(10.192.16.42)  <br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ] Members Left: <br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ] Members Joined:
<br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ]     r(0)
ip(10.192.16.42)  <br>
> Apr 15 18:41:00 nodea openais[16936]: [SYNC ] This node is within
<br>
> the primary component and will provide service. <br>
> Apr 15 18:41:00 nodea openais[16936]: [TOTEM] entering OPERATIONAL
state. <br>
> Apr 15 18:41:00 nodea openais[16936]: [CMAN ] quorum regained, <br>
> resuming activity <br>
> Apr 15 18:41:00 nodea openais[16936]: [CLM  ] got nodejoin message
<br>
> 10.192.16.42 <br>
> Apr 15 18:42:11 nodea fenced[16955]: nodeb not a cluster member <br>
> after 25 sec post_join_delay<br>
> Apr 15 18:42:11 nodea fenced[16955]: fencing node "nodeb"<br>
> Apr 15 18:42:23 nodea fenced[16955]: fence "nodeb" success<br>
> <br>
> [root@nodea ~]# clustat<br>
> Cluster Status for VCluster @ Thu Apr 15 18:55:23 2010<br>
> Member Status: Quorate<br>
> <br>
>  Member Name              
                     
                ID   Status<br>
>  ------ ----              
                     
                ---- ------<br>
>  nodea                
                     
                     
 <br>
> 1 Online, Local<br>
>  nodeb                
                     
                     
 2 Offline<br>
> <br>
> Then when nodeb starts again, I try to start cman there to join the
<br>
> cluster... but it again fences "nodea":<br>
> [root@nodeb ~]# clustat<br>
> Could not connect to CMAN: No such file or directory<br>
> [root@nodeb ~]# service cman start<br>
> Starting cluster: <br>
>    Loading modules... done<br>
>    Mounting configfs... done<br>
>    Starting ccsd... done<br>
>    Starting cman... done<br>
>    Starting qdiskd... done<br>
>    Starting daemons... done<br>
>    Starting fencing... (wait for 25secs again) done<br>
>                    
                     
                 [  OK
 ]<br>
> "nodea" gets rebooted:<br>
> [root@nodea ~]# <br>
> Broadcast message from root (Thu Apr 15 18:58:40 2010):<br>
> <br>
> The system is going down for system halt NOW!<br>
> <br>
> Apr 15 18:57:31 nodeb openais[11789]: [CLM  ] Members Joined:
<br>
> Apr 15 18:57:31 nodeb openais[11789]: [CLM  ]     r(0)
ip(10.192.16.44)  <br>
> Apr 15 18:57:31 nodeb openais[11789]: [SYNC ] This node is within
<br>
> the primary component and will provide service. <br>
> Apr 15 18:57:31 nodeb openais[11789]: [TOTEM] entering OPERATIONAL
state. <br>
> Apr 15 18:57:31 nodeb openais[11789]: [CMAN ] quorum regained, <br>
> resuming activity <br>
> Apr 15 18:57:31 nodeb openais[11789]: [CLM  ] got nodejoin message
<br>
> 10.192.16.44 <br>
> Apr 15 18:57:34 nodeb qdiskd[10323]: <info> Quorum Daemon Initializing
<br>
> Apr 15 18:57:34 nodeb qdiskd[10323]: <crit> Initialization failed
<br>
> Apr 15 18:58:42 nodeb fenced[11816]: nodea not a cluster member <br>
> after 25 sec post_join_delay<br>
> Apr 15 18:58:42 nodeb fenced[11816]: fencing node "nodea"<br>
> Apr 15 18:58:54 nodeb fenced[11816]: fence "nodea" success<br>
> <br>
> And I can't get the two nodes, joining the cluster...<br>
> I guess I'm missing something at the cluster.conf file??? I can't
<br>
> find what I'm making wrong.<br>
> <br>
> Thanks for any help!<br>
> <br>
> Alex Re--<br>
> Linux-cluster mailing list<br>
> Linux-cluster@redhat.com<br>
> https://www.redhat.com/mailman/listinfo/linux-cluster</font></tt>