<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=IS link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal>Hi,<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>I have a 2 node cluster running RHEL 5.1 x86_64 and fully
patched as of today. <o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>If i cold-boot the cluster (both nodes) everything comes up
smoothly and i can migrate services between nodes etc...<o:p></o:p></p>

<p class=MsoNormal>However when i take one node down i am having difficultys
leaving the fence domain. If i kill the fence daemon on the node i am trying to
remove gracefully or use cman_tool leave force and reboot it, it comes back up,
cman starts and it appears to join the cluster. The CLVMD init script hangs
(just sits and hangs) and rgmanager does not start up correctly. Also CLVMD and
rgmanager just sit in a zombie state and i have to poweroff or fence the node
to get it to reboot....<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>The cluster never stabilizes it self until i cold boot both
nodes. Then it is OK until the next reboot. I have read something about similar
cases but did not find any magic solution! ;)<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>My cluster.conf is attached.<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>There is no firewall running on the machines in question
(chkconfig iptables off;).<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Various output from the the that is rebooted:<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Output from group_tool services:<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>type             level name       id       state<o:p></o:p></p>

<p class=MsoNormal>fence            0     default    00000000 JOIN_STOP_WAIT<o:p></o:p></p>

<p class=MsoNormal>[1 2]<o:p></o:p></p>

<p class=MsoNormal>dlm              1     rgmanager  00000000 JOIN_STOP_WAIT<o:p></o:p></p>

<p class=MsoNormal>[1 2]<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Output from group_tool fenced:<o:p></o:p></p>

<p class=MsoNormal>1210193027 our_nodeid 1 our_name node-16<o:p></o:p></p>

<p class=MsoNormal>1210193027 listen 4 member 5 groupd 7<o:p></o:p></p>

<p class=MsoNormal>1210193029 client 3: join default<o:p></o:p></p>

<p class=MsoNormal>1210193029 delay post_join 120s post_fail 0s<o:p></o:p></p>

<p class=MsoNormal>1210193029 added 2 nodes from ccs<o:p></o:p></p>

<p class=MsoNormal>1210193542 client 3: dump<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Various output from the other node:<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Output from group_tool services:<o:p></o:p></p>

<p class=MsoNormal>type             level name       id       state<o:p></o:p></p>

<p class=MsoNormal>fence            0     default    00010002 JOIN_START_WAIT<o:p></o:p></p>

<p class=MsoNormal>[1 2]<o:p></o:p></p>

<p class=MsoNormal>dlm              1     clvmd      00020002 none<o:p></o:p></p>

<p class=MsoNormal>[2]<o:p></o:p></p>

<p class=MsoNormal>dlm              1     rgmanager  00030002 FAIL_ALL_STOPPED<o:p></o:p></p>

<p class=MsoNormal>[1 2]<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Output from group_tool dump fenced:<o:p></o:p></p>

<p class=MsoNormal>1210191957 our_nodeid 2 our_name node-17<o:p></o:p></p>

<p class=MsoNormal>1210191957 listen 4 member 5 groupd 7<o:p></o:p></p>

<p class=MsoNormal>1210191958 client 3: join default<o:p></o:p></p>

<p class=MsoNormal>1210191958 delay post_join 120s post_fail 0s<o:p></o:p></p>

<p class=MsoNormal>1210191958 added 2 nodes from ccs<o:p></o:p></p>

<p class=MsoNormal>1210191958 setid default 65538<o:p></o:p></p>

<p class=MsoNormal>1210191958 start default 1 members 2<o:p></o:p></p>

<p class=MsoNormal>1210191958 do_recovery stop 0 start 1 finish 0<o:p></o:p></p>

<p class=MsoNormal>1210191958 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191958 add first victim node-16<o:p></o:p></p>

<p class=MsoNormal>1210191959 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191960 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191961 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191962 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191963 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191964 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191965 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191966 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191967 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191968 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191969 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191970 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191971 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191972 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191973 node "node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal>1210191974 reduce victim node-16<o:p></o:p></p>

<p class=MsoNormal>1210191974 delay of 16s leaves 0 victims<o:p></o:p></p>

<p class=MsoNormal>1210191974 finish default 1<o:p></o:p></p>

<p class=MsoNormal>1210191974 stop default<o:p></o:p></p>

<p class=MsoNormal>1210191974 start default 2 members 1 2<o:p></o:p></p>

<p class=MsoNormal>1210191974 do_recovery stop 1 start 2 finish 1<o:p></o:p></p>

<p class=MsoNormal>1210193633 client 3: dump<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Thanks in advanced.<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Kær kveðja / Best Regards,<br>
<br>
</span><b><span style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Finnur Örn Guðmundsson</span></b><span style='font-size:10.0pt;
font-family:"Arial","sans-serif";color:navy'><br>
Network Engineer - Network Operations<br>
<a href="mailto:fog@t.is"><span style='color:blue'>fog@t.is</span></a><br>
<br>
</span><b><span style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>TM Software</span></b><span style='font-size:10.0pt;font-family:
"Arial","sans-serif";color:navy'><br>
Urðarhvarf 6, IS-203 Kópavogur, Iceland<br>
Tel: +354 545 3000 - fax +354 545 3610<br>
<a href="http://www.tm-software.is/"><span style='color:blue'>www.tm-software.is</span></a><br>
<br>
This e-mail message and any attachments are confidential and may be privileged.
TM Software e-mail disclaimer: <a href="http://www.tm-software.is/disclaimer"><span
style='color:blue'>www.tm-software.is/disclaimer</span></a> </span><o:p></o:p></p>

</div>

</body>

</html>