Hi Lon,<br><br>Thank you for reply.<br><br>What I gathered from your response is to remove manual fencing at once. This will cause fence daemon to retry fence_bladecenter until the node is fenced. More likely the fenced will succeed in fencing the failed node(provided IP, user name and password for bladecenter management module are right); even if it times out for the first time. Am I right?<br>
<br>I will try removing manual fencing and see how things go. <br><br><br>>> If fencing is failing (permanently), you can still run:<br>
>>   fence_ack_manual -e -n <nodename><br><br>
By the way as per my understanding fence_ack_manual -n <node name> can be 
executed to acknowledge only manually fenced node(and not bladecenter 
fenced node), correct me if this understanding is wrong. So God forbid, if fence_bladecenter fails for some reason; we still have option to run fence_manual and then fence_ack_manual, so cluster is back to working.<br><br>
Thanks again and have great weekend ahead<br><br>Yours truly,<br>Parvez<br><br><div class="gmail_quote">On Fri, Mar 4, 2011 at 10:45 PM, Lon Hohberger <span dir="ltr"><<a href="mailto:lhh@redhat.com">lhh@redhat.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div class="im">On Tue, Mar 01, 2011 at 06:50:18PM +0530, Parvez Shaikh wrote:<br>
> Hi Ryan,<br>
><br>
> Thank you for response. Does it mean there is no way to intimate<br>
> administrator about failure of fencing as of now?<br>
><br>
> Let me give more information about my cluster -<br>
><br>
> I have set of nodes in cluster with only IP resource being protected. I have<br>
> two levels of fencing, first bladecenter fencing and second one is manual<br>
> fencing.<br>
<br>
</div>If the problem you have with fence_bladecenter is intermittent - for<br>
example, if it fails 1/2 the time, fence_manual is going to *detract*<br>
from your cluster's ability to recover automatically.<br>
<br>
Ordinarily, if a fencing action fails, fenced will automatically retry<br>
the operation.<br>
<br>
When you configure fence_manual as a backup, this retry will *never*<br>
occur, meaning your cluster hangs.<br>
<div class="im"><br>
<br>
> At times if machine is already down(either power failure or turned off<br>
> abrupty); blade center fencing timesout and manual fencing happens. At this<br>
> time, administrator is expected to run fence_ack_manual.<br>
<br>
> Clearly this is not something which is desirable, as downtime of services is<br>
> as long as administrator runs fence_ack_manual.<br>
<br>
> What is recommended method to deal with  blade center fencing failure in<br>
> this situation? Do I have to add another level of fencing(between blade<br>
> center and manual) which can fence automatically(not requiring manual<br>
> interference)?<br>
<br>
</div>Start with removing fence_manual.<br>
<br>
If fencing is failing (permanently), you can still run:<br>
<br>
   fence_ack_manual -e -n <nodename><br>
<div class="im"><br>
> > > my bladecenter fencing agent, I sometimes get message saying bladecenter<br>
> > > fencing failed because of timeout or fence device IP address/user<br>
> > > credentials are incorrect.<br>
<br>
</div>^^ This is why I think fence_manual is, in your specific case, very<br>
likely hurting your availability.<br>
<font color="#888888"><br>
--<br>
Lon Hohberger - Red Hat, Inc.<br>
</font><div><div></div><div class="h5"><br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
</div></div></blockquote></div><br>