<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:36.0pt;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Verdana","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
 /* List Definitions */
 @list l0
        {mso-list-id:1373115124;
        mso-list-type:hybrid;
        mso-list-template-ids:-1272146900 67698703 67698713 67698715 67698703 67698713 67698715 67698703 67698713 67698715;}
@list l0:level1
        {mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
ol
        {margin-bottom:0cm;}
ul
        {margin-bottom:0cm;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=WordSection1>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Hi,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>We
have hit a snag during testing of a 3-node cluster, where only nodes 1 and 2
are allowed to run the service.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>If
we shutdown the node running the service, the service first starts on the
surviving node, but is then stopped.  This is not an activity we would
normally expect to do, but some of the environment monitoring in our servers
can trigger this situation - temperature getting too high etc.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>What
I think happens is the following:<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>1.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
1: shutdown calls on rgmanager to stop:  this takes several seconds,
stopping the service.<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>2.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
2: rgmanager starts to relocate the service to the surviving node<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>3.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
1: shutdown calls on cman to stop<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>4.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
2: while relocating the service, cman enters gather state because host 1 has
dropped out.  The service is still starting and triggers "Failed
changing service status" in log below.<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>5.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
1: halts<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>6.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
2: the service completes start up.  The cluster reconfiguration completes. 
<o:p></o:p></span></p>

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><span
style='mso-list:Ignore'>7.<span style='font:7.0pt "Times New Roman"'>   
</span></span></span><![endif]><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>host
2: the service is stopped.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Is
this a bug in the cluster system, or just an unfortunate sequence of events
that the cluster cannot cope with, i.e. node failure while a service is relocating
?<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>regards,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Martin<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Here
is the log from node 2:<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal>Aug 16 16:58:40 gmhcluster2 clurgmgrd[4132]: <notice>
Member 1 shutting down<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:40 gmhcluster2 openais[4084]: [TOTEM]
Retransmit List: 86<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:46 gmhcluster2 clurgmgrd[4132]: <notice>
Starting stopped service service:MASTERVIP<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] The token
was lost in the OPERATIONAL state.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] Receive
multicast socket recv buffer size (320000 bytes).<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] Transmit
multicast socket send buffer size (262142 bytes).<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] entering
GATHER state from 2.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <err>
#47: Failed changing service status<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <warning>
#71: Relocating failed service service:MASTERVIP<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <warning>
#70: Failed to relocate service:MASTERVIP; restarting locally<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <notice>
Starting stopped service service:MASTERVIP<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering
GATHER state from 0.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Creating
commit token because I am the rep.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Saving
state aru 90 high seq received 90<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Storing
new sequence id for ring 1e4<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering
COMMIT state.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering
RECOVERY state.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] position
[0] member 172.30.31.4:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] previous
ring seq 480 rep 172.30.31.3<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] aru 90
high delivered 90 received flag 1<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] position
[1] member 172.30.31.5:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] previous
ring seq 480 rep 172.30.31.3<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] aru 90
high delivered 90 received flag 1<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Did not
need to originate any messages in recovery.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 kernel: dlm: closing connection
to node 1<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Sending
initial ORF token<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 clurgmgrd: [4132]: <info>
Executing /usr/sbin/dc-cluster-resourceagent start<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] CLM
CONFIGURATION CHANGE<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] New
Configuration:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM 
]      r(0) ip(172.30.31.4)<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM 
]      r(0) ip(172.30.31.5)<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]
Members Left:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM 
]      r(0) ip(172.30.31.3)<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]
Members Joined:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] CLM
CONFIGURATION CHANGE<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] New
Configuration:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM 
]      r(0) ip(172.30.31.4)<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent:
[2492] INFO - ACTIVESITE in state started<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM 
]      r(0) ip(172.30.31.5)<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2
/usr/sbin/dc-cluster-resourceagent: [2492] INFO - ACTIVESITE service is running
- ACTIVESITE in state started<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]
Members Left:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2
/usr/sbin/dc-cluster-resourceagent: [2492] INFO - Service MASTERVIP: Performing
precautionary updates to databases before setting up VIP<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]
Members Joined:<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2
/usr/sbin/dc-cluster-resourceagent: [2492] INFO - Service MASTERVIP: running
precautionary update [touch /tmp/dc-set-dr-counters] <o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [SYNC ] This node
is within the primary component and will provide service.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2
/usr/sbin/dc-cluster-resourceagent: [2492] INFO - Service MASTERVIP: running
precautionary update [touch /tmp/dc-set-dr-auto-increments]<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering
OPERATIONAL state.<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:16 gmhcluster2 openais[4084]: [CLM  ] got
nodejoin message 172.30.31.4<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:16 gmhcluster2 openais[4084]: [CLM  ] got
nodejoin message 172.30.31.5<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:16 gmhcluster2 openais[4084]: [CPG  ] got
joinlist message from node 3<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:16 gmhcluster2 clurgmgrd: [4132]: <info>
Adding IPv4 address 172.30.30.93/24 to bond0<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:16 gmhcluster2 openais[4084]: [CPG  ] got
joinlist message from node 2<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:17 gmhcluster2 clurgmgrd[4132]: <notice>
Service service:MASTERVIP started<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:17 gmhcluster2 clurgmgrd[4132]: <notice>
Stopping service service:MASTERVIP<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:17 gmhcluster2 clurgmgrd: [4132]: <info>
Removing IPv4 address 172.30.30.93/24 from bond0<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:27 gmhcluster2 clurgmgrd: [4132]: <info>
Executing /usr/sbin/dc-cluster-resourceagent stop<o:p></o:p></p>

<p class=MsoNormal>Aug 16 16:59:27 gmhcluster2 clurgmgrd[4132]: <notice>
Service service:MASTERVIP is stopped<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p> </o:p></span></p>

<p class=MsoNormal><o:p> </o:p></p>

</div>

</body>

</html>