<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:p="urn:schemas-microsoft-com:office:powerpoint" xmlns:a="urn:schemas-microsoft-com:office:access" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:s="uuid:BDC6E3F0-6DA3-11d1-A2A3-00AA00C14882" xmlns:rs="urn:schemas-microsoft-com:rowset" xmlns:z="#RowsetSchema" xmlns:b="urn:schemas-microsoft-com:office:publisher" xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet" xmlns:c="urn:schemas-microsoft-com:office:component:spreadsheet" xmlns:oa="urn:schemas-microsoft-com:office:activation" xmlns:html="http://www.w3.org/TR/REC-html40" xmlns:q="http://schemas.xmlsoap.org/soap/envelope/" xmlns:D="DAV:" xmlns:x2="http://schemas.microsoft.com/office/excel/2003/xml" xmlns:ois="http://schemas.microsoft.com/sharepoint/soap/ois/" xmlns:dir="http://schemas.microsoft.com/sharepoint/soap/directory/" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:dsp="http://schemas.microsoft.com/sharepoint/dsp" xmlns:udc="http://schemas.microsoft.com/data/udc" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:sub="http://schemas.microsoft.com/sharepoint/soap/2002/1/alerts/" xmlns:ec="http://www.w3.org/2001/04/xmlenc#" xmlns:sp="http://schemas.microsoft.com/sharepoint/" xmlns:sps="http://schemas.microsoft.com/sharepoint/soap/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:udcxf="http://schemas.microsoft.com/data/udc/xmlfile" xmlns:wf="http://schemas.microsoft.com/sharepoint/soap/workflow/" xmlns:mver="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns:mrels="http://schemas.openxmlformats.org/package/2006/relationships" xmlns:ex12t="http://schemas.microsoft.com/exchange/services/2006/types" xmlns:ex12m="http://schemas.microsoft.com/exchange/services/2006/messages" xmlns:Z="urn:schemas-microsoft-com:" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
span.EmailStyle18
        {mso-style-type:personal;
        font-family:"Arial","sans-serif";
        color:blue;
        font-weight:normal;
        font-style:normal;
        text-decoration:none none;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page Section1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=IS link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='color:#1F497D'>Hi,<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>Nop,<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>The shared storage is provided
by IBM SVC (SAN Volume Controller) through Qlogic 24xx HBA cards. The switches
are Brocade 48000.<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>Devices are created on top of
dm-multipath devices.<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>I really think this has something
to do with the fence daemon since i am unable to leave the fence domain
gracefully on a cold boot of the whole cluster.<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>Thanks,<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'>Finnur<o:p></o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='color:#1F497D'><o:p> </o:p></span></p>

<div>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm'>

<p class=MsoNormal><b><span lang=EN-US style='font-size:10.0pt;font-family:
"Tahoma","sans-serif"'>From:</span></b><span lang=EN-US style='font-size:10.0pt;
font-family:"Tahoma","sans-serif"'> linux-cluster-bounces@redhat.com
[mailto:linux-cluster-bounces@redhat.com] <b>On Behalf Of </b>Theophanis
Kontogiannis<br>
<b>Sent:</b> 9. maí 2008 15:31<br>
<b>To:</b> 'linux clustering'<br>
<b>Subject:</b> RE: [Linux-cluster] RHEL 5.1 (fully patched) - A weird issue<o:p></o:p></span></p>

</div>

</div>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'>Hi Finnur,<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'><o:p> </o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'>The LV is running on top of DRBD?<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'>Please provide us with a bit more details.<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'><o:p> </o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'>Thank you,<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'>Theophanis Kontogiannis.<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'><o:p> </o:p></span></p>

<p class=MsoNormal><span lang=EN-US style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:blue'><o:p> </o:p></span></p>

<div>

<div style='margin-left:36.0pt'>

<div class=MsoNormal align=center style='text-align:center'><span lang=EN-US
style='font-size:12.0pt;font-family:"Times New Roman","serif"'>

<hr size=2 width="100%" align=center>

</span></div>

</div>

<p class=MsoNormal style='margin-left:36.0pt'><b><span lang=EN-US
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
lang=EN-US style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>
linux-cluster-bounces@redhat.com [mailto:linux-cluster-bounces@redhat.com] <b>On
Behalf Of </b>Finnur Orn Gu?mundsson - TM Software<br>
<b>Sent:</b> Wednesday, May 07, 2008 11:57 PM<br>
<b>To:</b> linux-cluster@redhat.com<br>
<b>Subject:</b> [Linux-cluster] RHEL 5.1 (fully patched) - A weird issue</span><span
lang=EN-US style='font-size:12.0pt;font-family:"Times New Roman","serif"'><o:p></o:p></span></p>

</div>

<p class=MsoNormal style='margin-left:36.0pt'><span lang=EN-US><o:p> </o:p></span></p>

<p class=MsoNormal style='margin-left:36.0pt'>Hi,<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>I have a 2 node cluster running
RHEL 5.1 x86_64 and fully patched as of today. <o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>If i cold-boot the cluster (both
nodes) everything comes up smoothly and i can migrate services between nodes
etc...<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>However when i take one node down
i am having difficultys leaving the fence domain. If i kill the fence daemon on
the node i am trying to remove gracefully or use cman_tool leave force and
reboot it, it comes back up, cman starts and it appears to join the cluster.
The CLVMD init script hangs (just sits and hangs) and rgmanager does not start
up correctly. Also CLVMD and rgmanager just sit in a zombie state and i have to
poweroff or fence the node to get it to reboot....<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>The cluster never stabilizes it
self until i cold boot both nodes. Then it is OK until the next reboot. I have
read something about similar cases but did not find any magic solution! ;)<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>My cluster.conf is attached.<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>There is no firewall running on
the machines in question (chkconfig iptables off;).<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Various output from the the that
is rebooted:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Output from group_tool services:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>type            
level name  
    id       state<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>fence           
0     default    00000000 JOIN_STOP_WAIT<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>[1 2]<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>dlm             
1     rgmanager  00000000 JOIN_STOP_WAIT<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>[1 2]<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Output from group_tool fenced:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193027 our_nodeid 1 our_name
node-16<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193027 listen 4 member 5
groupd 7<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193029 client 3: join default<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193029 delay post_join 120s
post_fail 0s<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193029 added 2 nodes from ccs<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193542 client 3: dump<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Various output from the other
node:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Output from group_tool services:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>type            
level name      
id       state<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>fence           
0     default    00010002 JOIN_START_WAIT<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>[1 2]<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>dlm             
1     clvmd      00020002 none<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>[2]<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>dlm             
1     rgmanager  00030002 FAIL_ALL_STOPPED<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>[1 2]<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Output from group_tool dump
fenced:<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191957 our_nodeid 2 our_name
node-17<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191957 listen 4 member 5
groupd 7<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 client 3: join default<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 delay post_join 120s
post_fail 0s<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 added 2 nodes from ccs<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 setid default 65538<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 start default 1
members 2<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 do_recovery stop 0
start 1 finish 0<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191958 add first victim
node-16<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191959 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191960 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191961 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191962 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191963 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191964 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191965 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191966 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191967 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191968 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191969 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191970 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191971 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191972 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191973 node
"node-16" not a cman member, cn 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 reduce victim node-16<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 delay of 16s leaves 0
victims<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 finish default 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 stop default<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 start default 2
members 1 2<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210191974 do_recovery stop 1
start 2 finish 1<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>1210193633 client 3: dump<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'>Thanks in advanced.<o:p></o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><o:p> </o:p></p>

<p class=MsoNormal style='margin-left:36.0pt'><span style='font-size:10.0pt;
font-family:"Arial","sans-serif";color:navy'>Kær kveðja / Best Regards,<br>
<br>
<b>Finnur Örn Guðmundsson</b><br>
Network Engineer - Network Operations<br>
<a href="mailto:fog@t.is">fog@t.is</a><br>
<br>
<b>TM Software</b><br>
Urðarhvarf 6, IS-203 Kópavogur, Iceland<br>
Tel: +354 545 3000 - fax +354 545 3610<br>
<a href="http://www.tm-software.is/">www.tm-software.is</a><br>
<br>
This e-mail message and any attachments are confidential and may be privileged.
TM Software e-mail disclaimer: <a href="http://www.tm-software.is/disclaimer">www.tm-software.is/disclaimer</a>
</span><o:p></o:p></p>

</div>

</body>

</html>