Hello Gianluca<br><br>Do you have a cluster private network?<br><br>if your answer it's yes i recommend don't use heuristic because if your cluster public network goes down your cluster take a fencing loop<br><br>Or you can do something better, use pacemaker+corosync<br>
<br><div class="gmail_quote">Il giorno 09 marzo 2012 15:14, Gianluca Cecchi <span dir="ltr"><<a href="mailto:gianluca.cecchi@gmail.com">gianluca.cecchi@gmail.com</a>></span> ha scritto:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hello,<br>
I have a cluster in RH EL 5.7 with quorum disk and an heuristic.<br>
Current versions of main cluster packages are:<br>
rgmanager-2.0.52-21.el5_7.1<br>
cman-2.0.115-85.el5_7.3<br>
<br>
This is the loaded heuristic<br>
<br>
Heuristic: 'ping -c1 -w1 10.4.5.250' score=1 interval=2 tko=200<br>
<br>
Line in cluster.conf:<br>
<heuristic interval="2" program="ping -c1 -w1 10.4.5.250" score="1" tko="200"/><br>
<br>
where 10.4.5.250 is the gateway of the production lan,<br>
>From ping man page:<br>
 -c count<br>
 Stop after sending count ECHO_REQUEST packets. With deadline (-w)<br>
option,  ping  waits  for count ECHO_REPLY packets, until the timeout<br>
expires.<br>
-w deadline<br>
 Specify a timeout, in seconds, before ping exits regardless of how many<br>
packets have  been  sent or  received.  In  this case ping does not stop<br>
after count packet are sent, it waits either for deadline expire or<br>
until count probes are answered or for some error notification from<br>
network.<br>
<br>
So I would expect that the single ping command, executed as a sanity<br>
check, at most after 1 second<br>
should exit with a code, regardless an echo reply has been received or not<br>
And in fact I had no particular problem for many months<br>
<br>
As a test, putting an ip on an unreachable lan (say 10.4.6.5):<br>
date<br>
n=0<br>
while [ $n -lt 20 ]<br>
do<br>
  ping -c1 -w1 10.4.6.5<br>
  sleep 2<br>
  n=$(expr $n + 1)<br>
done<br>
date<br>
<br>
Output is<br>
Fri Mar  9 11:59:02 CET 2012<br>
PING 10.4.6.5 (10.4.6.5) 56(84) bytes of data.<br>
<br>
--- 10.4.6.5 ping statistics ---<br>
2 packets transmitted, 0 received, 100% packet loss, time 1000ms<br>
<br>
...<br>
<br>
--- 10.4.6.5 ping statistics ---<br>
2 packets transmitted, 0 received, 100% packet loss, time 999ms<br>
<br>
Fri Mar  9 12:00:02 CET 2012<br>
<br>
so 60 seconds....<br>
<br>
In case of gateway reachability problems (also tested with an iptables<br>
rule that drops icmp output request) I would then have:<br>
<br>
qdiskd[2780]: <debug> Heuristic: 'ping -c1 -w1 10.4.5.250' missed<br>
(1/200)<br>
<br>
Strange thing I got yesterday night was this only line:<br>
<br>
qdiskd[22145]: <info> Heuristic: 'ping -c1 -w1 10.4.5.250' DOWN -<br>
Exceeded timeout of 75 seconds<br>
<br>
and the node self-fencing causing relocation of some services<br>
So for some reason the ping command was not able to exit at all, I presume...<br>
despite the -c and -w options....<br>
<br>
I suppose a condition that causes an internal timeout defined for the<br>
monitor operation itself (default to 75 seconds?)<br>
something like a pacemaker directive<br>
op monitor interval="20" timeout="40"<br>
<br>
And the cluster at this point considering as heuristic failed at all<br>
and self-fencing....<br>
Is this right?<br>
<br>
My default quorumd directive is this one, btw:<br>
<br>
<quorumd device="/dev/mapper/mpquorum" interval="5" label="oraprquorum"<br>
log_facility="local4" log_level="7" tko="16" votes="1"><br>
<br>
And in fact when for some reason I have temporary problems with my<br>
SAN, I get something like:<br>
<br>
qdiskd[1339]: <warning> qdisk cycle took more than 5 seconds to complete<br>
(34.540000)<br>
<br>
and on the other node<br>
qdiskd[6025]: <debug> Node 1 missed an update (2/200)<br>
qdiskd[6025]: <debug> Node 1 missed an update (3/200)<br>
...<br>
<br>
Can anyone give any insight for the message I got yesterday that I<br>
never saw before:<br>
qdiskd[22145]: <info> Heuristic: 'ping -c1 -w1 10.4.5.250' DOWN -<br>
Exceeded timeout of 75 seconds<br>
<br>
?<br>
Do I have to suppose a bug in the ping command?<br>
<br>
Thanks in advance,<br>
Gianluca<br>
<br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>esta es mi vida e me la vivo hasta que dios quiera<br>