<div dir="ltr">We have multicast enabled on the switch. I've also tried the multicast.py tool from RH's knowledge base to test multicast and I see the expected output, though the tool uses a different multicast IP( guess that shouldn't matter). I've tried increasing the post_join_delay to 360 seconds to give me enough time to check everything on both the nodes. One node still gets fenced. `clustat` output says the other node is offline on both servers. So one node can't see the other one ? This again points to issue with multicast. Any other clues as to what/where to look ?<br>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Jun 11, 2014 at 8:33 PM, Digimer <span dir="ltr"><<a href="mailto:lists@alteeve.ca" target="_blank">lists@alteeve.ca</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5">On 11/06/14 10:48 AM, Arun G Nair wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hello,<br>
<br>
    What are the reasons for fence loops when only cman is started ? We<br>
have an RHEL 6.5 2-node cluster which goes in to a fence loop and every<br>
time we start cman on both nodes. Either one fences the other. Multicast<br>
seems to be working properly. My understanding is that without rgmanager<br>
running there won't be a multicast group subscription ? I don't see the<br>
multicast address in 'netstat -g' unless rgmanager is running. I've<br>
tried to increase the fence post_join_delay but one of the nodes still<br>
gets fenced.<br>
<br>
The cluster works fine if we use unicast UDP.<br>
<br>
Thanks,<br>
</blockquote>
<br></div></div>
Hi,<br>
<br>
  When cman starts, it waits post_join_delay seconds for the peer to connect. If, after that time expires (6 seconds by default, iirc), it gives up and calls a fence against the peer to put it into a known state.<br>
<br>
  Corosync is what determines membership, and it is started by cman. The rgmanager only handles resource start/stop/relocate/recovery and has nothing to do with fencing directly. Corosync is what uses multicast.<br>
<br>
  So as you seem to have already surmised, multicast is probably not working in your environment. Have you enabled multicast traffic on the firewall? Do your switches support multicast properly?<br>
<br>
digimer<span class="HOEnZb"><font color="#888888"><br>
<br>
-- <br>
Digimer<br>
Papers and Projects: <a href="https://alteeve.ca/w/" target="_blank">https://alteeve.ca/w/</a><br>
What if the cure for cancer is trapped in the mind of a person without access to education?<br>
<br>
-- <br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/<u></u>mailman/listinfo/linux-cluster</a><br>
</font></span></blockquote></div><br><br clear="all"><br>-- <br>Arun G Nair<br>Sr. Sysadmin<br>Dimension Data | Ph: (800) 664-9973<br><a href="http://www.surveymonkey.com/s/XRCYXBH" target="_blank">Feedback? We're listening</a>
</div>