Hi again folks...<br><br>One update here:<br><br>- I'd removed bonding for cluster heartbeat (bond0) and setup it direct on eth0 for all nodes. This solves the issue for membership.<br><br>Now I can boot up all 4 nodes, join fence domain, start clvmd on them. Everything is stable and I didn't see random messages about "openais retransmit" anymore.<br>
<br>Of course, I still have a problem :).<br><br>I've 1 GFS filesystem and 16 GFS2 filesystems. I can mount all filesystems on node1 and node2 (same build/switch), but when I try to run "service gfs2 start" on node3 or node4 (another build/switch) the things becomes unstable and whole cluster fail with infinity messages about "cpg_mcast_retry RETRY_NUMBER".<br>
<br>Log can be found here: <a href="http://pastebin.com/m2f26ab1d">http://pastebin.com/m2f26ab1d</a><br><br>What apparently happened is that without bonding setup the network layer becomes more "simple" and could handle with membership but still cant handle with GFS/GFS2 heartbeat. <br>
<br>I've set nodes to talk IGMPv2, as said at: <a href="http://archives.free.net.ph/message/20081001.223026.9cf6d7bf.de.html">http://archives.free.net.ph/message/20081001.223026.9cf6d7bf.de.html</a><br><br>Well.. any hints?<br>
<br>Thanks again.<br><br>--<br><br>Flávio do Carmo Júnior aka waKKu<br><br><br><div class="gmail_quote">On Thu, Apr 30, 2009 at 1:41 PM, Flavio Junior <span dir="ltr"><<a href="mailto:billpp@gmail.com">billpp@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi Abraham, thanks for your answer.<br>
<br>
I'd configured your suggestion to cluster.conf but still gets the same problem.<br>
<br>
Here is what I did:<br>
* Disable cman init script on boot for all nodes<br>
* Edit config file and copy it for all nodes<br>
* reboot all<br>
* start cman on node1 (OK)<br>
* start cman on node2 (OK)<br>
* start cman on node3 (problems to become member, fence node2)<br>
<br>
Here is the log file with this process 'til the fence:<br>
<a href="http://pastebin.com/f477e7114" target="_blank">http://pastebin.com/f477e7114</a><br>
<br>
PS: node1 and node2 as on the same switch at site1. node3 and node4 as<br>
on the same switch at site2.<br>
<br>
Thanks again, any other suggestions ?<br>
<br>
I dont know if it would help but, is corosync a feasible option for<br>
production use?<br>
<div class="im"><br>
--<br>
<br>
Flávio do Carmo Júnior aka waKKu<br>
<br>
</div><div><div></div><div class="h5">On Wed, Apr 29, 2009 at 10:19 PM, Abraham Alawi <<a href="mailto:a.alawi@auckland.ac.nz">a.alawi@auckland.ac.nz</a>> wrote:<br>
> If not tried already, the following settings in cluster.conf might help<br>
> especially "clean_start"<br>
><br>
> <fence_daemon clean_start="1" post_fail_delay="5" post_join_delay="15"/><br>
> clean_start --> assume the cluster is in healthy state upon startup<br>
> post_fail_delay --> seconds to wait before fencing a node that thinks it<br>
> should be fenced (i.e. lost connection with)<br>
> post_join_delay --> seconds to wait before fencing any node that should be<br>
> fenced upon startup (right after joining)<br>
><br>
> On 30/04/2009, at 8:21 AM, Flavio Junior wrote:<br>
><br>
>> Hi folks,<br>
>><br>
>> I've been trying to set up a 4-node RHCS+GFS cluster for awhile. I've<br>
>> another 2-node cluster using CentOS 5.3 without problem.<br>
>><br>
>> Well.. My scenario is as follow:<br>
>><br>
>> * System configuration and info: <a href="http://pastebin.com/f41d63624" target="_blank">http://pastebin.com/f41d63624</a><br>
>><br>
>> * Network:<br>
>> <a href="http://www.uploadimagens.com/upload/2ac9074fbb10c2479c59abe419880dc8.jpg" target="_blank">http://www.uploadimagens.com/upload/2ac9074fbb10c2479c59abe419880dc8.jpg</a><br>
>>  * Switches on loop are 3Com 2924 (or 2948)-SFP<br>
>>  * Have STP enabled (RSTP auto)<br>
>>  * IGMP Snooping Disabled as:<br>
>><br>
>> <a href="http://magazine.redhat.com/2007/08/23/automated-failover-and-recovery-of-virtualized-guests-in-advanced-platform/" target="_blank">http://magazine.redhat.com/2007/08/23/automated-failover-and-recovery-of-virtualized-guests-in-advanced-platform/</a><br>

>> comment 32<br>
>>  * Yellow lines are a fiber link 990ft (330mts) single-mode<br>
>>  * I'm using a dedicated tagged VLAN for cluster-heartbeat<br>
>>  * I'm using 2 NIC's with bonding mode=1 (active/backup) for<br>
>> heartbeat and 4 NIC's to "public"<br>
>>  * Every node has your public four cables plugged on same switch and<br>
>> Link-Aggregation on it<br>
>>  * Looking to the picture, that 2 switches with below fiber link is<br>
>> where the nodes are plugged. 2 nodes each build.<br>
>><br>
>> SAN: <a href="http://img139.imageshack.us/img139/642/clusters.jpg" target="_blank">http://img139.imageshack.us/img139/642/clusters.jpg</a><br>
>>  * Switches: Brocade TotalStorage 16SAN-B<br>
>>  * Storages: IBM DS4700 72A (using ERM for sync replication (storage<br>
>> level))<br>
>><br>
>> My problem is:<br>
>><br>
>> I can't get the 4 nodes up. Every time the fourth (sometimes even the<br>
>> third) node becomes online i got one or two of them fenced. I keep<br>
>> getting messages about openais/cman, cpg_mcast_joined very often:<br>
>> --- snipped ---<br>
>> Apr 29 16:08:23 athos groupd[5393]: cpg_mcast_joined retry 1098900<br>
>> Apr 29 16:08:23 athos groupd[5393]: cpg_mcast_joined retry 1099000<br>
>> --- snipped ---<br>
>><br>
>> Is really seldom the times I can get a node to boot up and join on<br>
>> fence domain, almost every time it hangs and i need to reboot and try<br>
>> again or either reboot, enter single mode, disable cman, reboot, keep<br>
>> trying to service cman start/stop. Sometimes another nodes can see the<br>
>> node in domain but boot keeps hangs on "Starting fenced..."<br>
>><br>
>> ########<br>
>> [root@athos ~]# cman_tool services<br>
>> type             level name     id       state<br>
>> fence            0     default  00010001 none<br>
>> [1 3 4]<br>
>> dlm              1     clvmd    00020001 none<br>
>> [1 3 4]<br>
>> [root@athos ~]# cman_tool nodes -f<br>
>> Node  Sts   Inc   Joined               Name<br>
>>  0   M      0   2009-04-29 15:16:47<br>
>> /dev/disk/by-id/scsi-3600a0b800048834e000014fb49dcc47b<br>
>>  1   M   7556   2009-04-29 15:16:35  athos-priv<br>
>>      Last fenced:   2009-04-29 15:13:49 by athos-ipmi<br>
>>  2   X   7820                        porthos-priv<br>
>>      Last fenced:   2009-04-29 15:31:01 by porthos-ipmi<br>
>>      Node has not been fenced since it went down<br>
>>  3   M   7696   2009-04-29 15:27:15  aramis-priv<br>
>>      Last fenced:   2009-04-29 15:24:17 by aramis-ipmi<br>
>>  4   M   8232   2009-04-29 16:12:34  dartagnan-priv<br>
>>      Last fenced:   2009-04-29 16:09:53 by dartagnan-ipmi<br>
>> [root@athos ~]# ssh root@aramis-priv<br>
>> ssh: connect to host aramis-priv port 22: Connection refused<br>
>> [root@athos ~]# ssh root@dartagnan-priv<br>
>> ssh: connect to host dartagnan-priv port 22: Connection refused<br>
>> [root@athos ~]#<br>
>> #########<br>
>><br>
>> (I know how unreliable is ssh, but I'm seeing the console screen<br>
>> hanged.. Just trying to show it)<br>
>><br>
>><br>
>> The BIG log file: <a href="http://pastebin.com/f453c220" target="_blank">http://pastebin.com/f453c220</a><br>
>> Every entry on this log after 16:54h is when node2 (porthos-priv<br>
>> 172.16.1.2) was booting and hanged on "Starting fenced..."<br>
>><br>
>><br>
>> I've no more ideias to try solve this problem, any hints is<br>
>> appreciated. If you need any other info, just tell me how to get it<br>
>> and I'll post just after I read.<br>
>><br>
>><br>
>> Very thanks, in advance.<br>
>><br>
>> --<br>
>><br>
>> Flávio do Carmo Júnior aka waKKu<br>
>><br>
>> --<br>
>> Linux-cluster mailing list<br>
>> <a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
>> <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
><br>
> ''''''''''''''''''''''''''''''''''''''''''''''''''''''<br>

> Abraham Alawi<br>
><br>
> Unix/Linux Systems Administrator<br>
> Science IT<br>
> University of Auckland<br>
> e: <a href="mailto:a.alawi@auckland.ac.nz">a.alawi@auckland.ac.nz</a><br>
> p: +64-9-373 7599, ext#: 87572<br>
><br>
> ''''''''''''''''''''''''''''''''''''''''''''''''''''''<br>

><br>
><br>
</div></div></blockquote></div><br>