Hi Martijn,<br><br>I want to know how to setup a 3-node cluster environment can you suggested me some good book or could you provide some of the technical articles which i can follow and try it on to my test server. <br><br>
<div class="gmail_quote">On Tue, Aug 17, 2010 at 12:03 AM, Martijn <span dir="ltr"><<a href="mailto:martijn@tenheuvel.net">martijn@tenheuvel.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
<br>
-origineel bericht-<br>
Onderwerp: [Linux-cluster] what happens during orderly shutdown ?<br>
Van: "Martin Waite" <<a href="mailto:Martin.Waite@datacash.com">Martin.Waite@datacash.com</a>><br>
Datum: 16-08-2010 19:05<br>
<br>
Hi,<br>
<br>
<br>
<br>
We have hit a snag during testing of a 3-node cluster, where only nodes<br>
1 and 2 are allowed to run the service.<br>
<br>
<br>
<br>
If we shutdown the node running the service, the service first starts on<br>
the surviving node, but is then stopped.  This is not an activity we<br>
would normally expect to do, but some of the environment monitoring in<br>
our servers can trigger this situation - temperature getting too high<br>
etc.<br>
<br>
<br>
<br>
What I think happens is the following:<br>
<br>
<br>
<br>
1.    host 1: shutdown calls on rgmanager to stop:  this takes several<br>
seconds, stopping the service.<br>
<br>
2.    host 2: rgmanager starts to relocate the service to the surviving<br>
node<br>
<br>
3.    host 1: shutdown calls on cman to stop<br>
<br>
4.    host 2: while relocating the service, cman enters gather state<br>
because host 1 has dropped out.  The service is still starting and<br>
triggers "Failed changing service status" in log below.<br>
<br>
5.    host 1: halts<br>
<br>
6.    host 2: the service completes start up.  The cluster<br>
reconfiguration completes.<br>
<br>
7.    host 2: the service is stopped.<br>
<br>
<br>
<br>
Is this a bug in the cluster system, or just an unfortunate sequence of<br>
events that the cluster cannot cope with, i.e. node failure while a<br>
service is relocating ?<br>
<br>
<br>
<br>
regards,<br>
<br>
Martin<br>
<br>
<br>
<br>
Here is the log from node 2:<br>
<br>
<br>
<br>
Aug 16 16:58:40 gmhcluster2 clurgmgrd[4132]: <notice> Member 1 shutting<br>
down<br>
<br>
Aug 16 16:58:40 gmhcluster2 openais[4084]: [TOTEM] Retransmit List: 86<br>
<br>
Aug 16 16:58:46 gmhcluster2 clurgmgrd[4132]: <notice> Starting stopped<br>
service service:MASTERVIP<br>
<br>
Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] The token was lost in<br>
the OPERATIONAL state.<br>
<br>
Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] Receive multicast<br>
socket recv buffer size (320000 bytes).<br>
<br>
Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] Transmit multicast<br>
socket send buffer size (262142 bytes).<br>
<br>
Aug 16 16:58:55 gmhcluster2 openais[4084]: [TOTEM] entering GATHER state<br>
from 2.<br>
<br>
Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <err> #47: Failed changing<br>
service status<br>
<br>
Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <warning> #71: Relocating<br>
failed service service:MASTERVIP<br>
<br>
Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <warning> #70: Failed to<br>
relocate service:MASTERVIP; restarting locally<br>
<br>
Aug 16 16:59:01 gmhcluster2 clurgmgrd[4132]: <notice> Starting stopped<br>
service service:MASTERVIP<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering GATHER state<br>
from 0.<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Creating commit token<br>
because I am the rep.<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Saving state aru 90<br>
high seq received 90<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Storing new sequence<br>
id for ring 1e4<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering COMMIT<br>
state.<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering RECOVERY<br>
state.<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] position [0] member<br>
<a href="http://172.30.31.4" target="_blank">172.30.31.4</a>:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] previous ring seq 480<br>
rep 172.30.31.3<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] aru 90 high delivered<br>
90 received flag 1<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] position [1] member<br>
<a href="http://172.30.31.5" target="_blank">172.30.31.5</a>:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] previous ring seq 480<br>
rep 172.30.31.3<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] aru 90 high delivered<br>
90 received flag 1<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Did not need to<br>
originate any messages in recovery.<br>
<br>
Aug 16 16:59:15 gmhcluster2 kernel: dlm: closing connection to node 1<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] Sending initial ORF<br>
token<br>
<br>
Aug 16 16:59:15 gmhcluster2 clurgmgrd: [4132]: <info> Executing<br>
/usr/sbin/dc-cluster-resourceagent start<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] CLM CONFIGURATION<br>
CHANGE<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] New Configuration:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]      r(0)<br>
ip(172.30.31.4)<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]      r(0)<br>
ip(172.30.31.5)<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] Members Left:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]      r(0)<br>
ip(172.30.31.3)<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] Members Joined:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] CLM CONFIGURATION<br>
CHANGE<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] New Configuration:<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]      r(0)<br>
ip(172.30.31.4)<br>
<br>
Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent: [2492]<br>
INFO - ACTIVESITE in state started<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ]      r(0)<br>
ip(172.30.31.5)<br>
<br>
Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent: [2492]<br>
INFO - ACTIVESITE service is running - ACTIVESITE in state started<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] Members Left:<br>
<br>
Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent: [2492]<br>
INFO - Service MASTERVIP: Performing precautionary updates to databases<br>
before setting up VIP<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [CLM  ] Members Joined:<br>
<br>
Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent: [2492]<br>
INFO - Service MASTERVIP: running precautionary update [touch<br>
/tmp/dc-set-dr-counters]<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [SYNC ] This node is within<br>
the primary component and will provide service.<br>
<br>
Aug 16 16:59:15 gmhcluster2 /usr/sbin/dc-cluster-resourceagent: [2492]<br>
INFO - Service MASTERVIP: running precautionary update [touch<br>
/tmp/dc-set-dr-auto-increments]<br>
<br>
Aug 16 16:59:15 gmhcluster2 openais[4084]: [TOTEM] entering OPERATIONAL<br>
state.<br>
<br>
Aug 16 16:59:16 gmhcluster2 openais[4084]: [CLM  ] got nodejoin message<br>
172.30.31.4<br>
<br>
Aug 16 16:59:16 gmhcluster2 openais[4084]: [CLM  ] got nodejoin message<br>
172.30.31.5<br>
<br>
Aug 16 16:59:16 gmhcluster2 openais[4084]: [CPG  ] got joinlist message<br>
from node 3<br>
<br>
Aug 16 16:59:16 gmhcluster2 clurgmgrd: [4132]: <info> Adding IPv4<br>
address <a href="http://172.30.30.93/24" target="_blank">172.30.30.93/24</a> to bond0<br>
<br>
Aug 16 16:59:16 gmhcluster2 openais[4084]: [CPG  ] got joinlist message<br>
from node 2<br>
<br>
Aug 16 16:59:17 gmhcluster2 clurgmgrd[4132]: <notice> Service<br>
service:MASTERVIP started<br>
<br>
Aug 16 16:59:17 gmhcluster2 clurgmgrd[4132]: <notice> Stopping service<br>
service:MASTERVIP<br>
<br>
Aug 16 16:59:17 gmhcluster2 clurgmgrd: [4132]: <info> Removing IPv4<br>
address <a href="http://172.30.30.93/24" target="_blank">172.30.30.93/24</a> from bond0<br>
<br>
Aug 16 16:59:27 gmhcluster2 clurgmgrd: [4132]: <info> Executing<br>
/usr/sbin/dc-cluster-resourceagent stop<br>
<br>
Aug 16 16:59:27 gmhcluster2 clurgmgrd[4132]: <notice> Service<br>
service:MASTERVIP is stopped<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
<font color="#888888"><br>
<br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
</font></blockquote></div><br>