More clues, <br><br>using system-config-cluster <br><br>When I try to run a service in state failed I always get an error.<br>I have tu disable the service, to get disabled state. With this state I can restart the services.<br>
<br>I think I have a problem with the relocate because I cant do it nor with luci nor with system-config-cluster nor with clusvadm<br><br>I always get error when i try this<br><br>greetings<br><br>ESG<br><br><div class="gmail_quote">
2009/2/13 ESGLinux <span dir="ltr"><<a href="mailto:esggrupos@gmail.com">esggrupos@gmail.com</a>></span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hello, <br><br>The services run ok on node1. If I halt node2 and try to run the services the run ok on node1. <br>If I run the services without cluster they also run ok.<br><br>I have eliminated the HTTP services and I have left the service BBDD to debug the problem. Here is the log when the service is running on node2 and node1 comes up:<br>

<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] entering GATHER state from 11.<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] Creating commit token because I am                                                                              the rep.<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] Saving state aru 1a high seq receiv                                                                             ed 1a<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] Storing new sequence id for ring 17                                                                             f4<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] entering COMMIT state.<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] entering RECOVERY state.<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] position [0] member <a href="http://192.168.1.185" target="_blank">192.168.1.185</a>:<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] previous ring seq 6128 rep 192.168.                                                                             1.185<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] aru 1a high delivered 1a received f                                                                             lag 1<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] position [1] member <a href="http://192.168.1.188" target="_blank">192.168.1.188</a>:<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] previous ring seq 6128 rep 192.168.                                                                             1.188<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] aru 9 high delivered 9 received fla                                                                             g 1<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] Did not need to originate any messa                                                                             ges in recovery.<br>

Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] Sending initial ORF token<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] CLM CONFIGURATION CHANGE<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] New Configuration:<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ]    r(0) ip(192.168.1.185)<br>

Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] Members Left:<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] Members Joined:<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] CLM CONFIGURATION CHANGE<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] New Configuration:<br>

Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ]    r(0) ip(192.168.1.185)<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ]    r(0) ip(192.168.1.188)<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] Members Left:<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] Members Joined:<br>

Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ]    r(0) ip(192.168.1.188)<br>Feb 13 09:16:00 NODE2 openais[3326]: [SYNC ] This node is within the primary component and will provide service.<br>Feb 13 09:16:00 NODE2 openais[3326]: [TOTEM] entering OPERATIONAL state.<br>

Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] got nodejoin message 192.168.1.185<br>Feb 13 09:16:00 NODE2 openais[3326]: [CLM  ] got nodejoin message 192.168.1.188<br>Feb 13 09:16:00 NODE2 openais[3326]: [CPG  ] got joinlist message from node 2<br>

Feb 13 09:16:03 NODE2 kernel: dlm: connecting to 1<br>Feb 13 09:16:24 NODE2 clurgmgrd[4001]: <notice> Relocating service:BBDD to better node node1<br>Feb 13 09:16:24 NODE2 clurgmgrd[4001]: <notice> Stopping service service:BBDD<br>

Feb 13 09:16:25 NODE2 clurgmgrd: [4001]: <err> Stopping Service mysql:mydb > Failed - Application Is Still Running<br>Feb 13 09:16:25 NODE2 clurgmgrd: [4001]: <err> Stopping Service mysql:mydb > Failed<br>

Feb 13 09:16:25 NODE2 clurgmgrd[4001]: <notice> stop on mysql "mydb" returned 1 (generic error)<br>Feb 13 09:16:25 NODE2 avahi-daemon[3872]: Withdrawing address record for 192.168.1.183 on eth0.<br>Feb 13 09:16:35 NODE2 clurgmgrd[4001]: <crit> #12: RG service:BBDD failed to stop; intervention required<br>

Feb 13 09:16:35 NODE2 clurgmgrd[4001]: <notice> Service service:BBDD is failed<br>Feb 13 09:16:36 NODE2 clurgmgrd[4001]: <warning> #70: Failed to relocate service:BBDD; restarting locally<br>Feb 13 09:16:36 NODE2 clurgmgrd[4001]: <err> #43: Service service:BBDD has failed; can not start.<br>

Feb 13 09:16:36 NODE2 clurgmgrd[4001]: <alert> #2: Service service:BBDD returned failure code.  Last Owner: node2<br>Feb 13 09:16:36 NODE2 clurgmgrd[4001]: <alert> #4: Administrator intervention required.<br>
<br>
<br>As you can see in the message "Relocating service:BBDD to better node node1"<br><br>But it fails<br><br>Another error that appears frecuently in my logs is the next:<br><br><err> Checking Existence Of File /var/run/cluster/mysql/mysql:mydb.pid [mysql:mydb] > Failed - File Doesn't Exist<br>

<br>I dont know if this is important. but I think this makes the message err> Stopping Service mysql:mydb > Failed - Application Is Still Running and this makes the service fails (I´m just guessing...)<br><br>Any idea?<div>
<div></div><div class="Wj3C7c"><br>
<br>ESG<br><br><br><div class="gmail_quote">2009/2/12 rajveer singh <span dir="ltr"><<a href="mailto:torajveersingh@gmail.com" target="_blank">torajveersingh@gmail.com</a>></span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

<div>Hi,</div>
<div> </div>
<div>Ok, perhaps there is some problem with the services on node1 , so, are you able to run these services on node1 without cluster. You first stop the cluster, and try to run these services on node1. <br><br>It should run.</div>



<div> </div>
<div>Re,</div>
<div>Rajveer Singh</div>
<div> </div>
<div class="gmail_quote">2009/2/13 ESGLinux <span dir="ltr"><<a href="mailto:esggrupos@gmail.com" target="_blank">esggrupos@gmail.com</a>></span><div><div></div><div><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0px 0px 0px 0.8ex; padding-left: 1ex;">Hello, <br><br>Thats what I want, when node1 comes up I want to relocate to node1 but what I get is all my services stoped and in failed state.<br>


<br>With my configuration I expect to have the services running on node1. <br><br>Any idea about this behaviour?<br><br>Thanks<br><br>ESG<br><br><br>
<div class="gmail_quote">2009/2/12 rajveer singh <span dir="ltr"><<a href="mailto:torajveersingh@gmail.com" target="_blank">torajveersingh@gmail.com</a>></span> 
<div>
<div></div>
<div><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br><br>
<div class="gmail_quote">2009/2/12 ESGLinux <span dir="ltr"><<a href="mailto:esggrupos@gmail.com" target="_blank">esggrupos@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0px 0px 0px 0.8ex; padding-left: 1ex;">
<div>
<div></div>
<div>Hello all, <br><br>I´m testing a cluster using luci as admin tool. I have configured 2 nodes with 2 services http + mysql. This configuration works almost fine. I have the services running on the node1<br> and y reboot this node1. Then the services relocates to node2 and all contnues working but, when the node1 goes up all the services stops. <br>


<br>I think that the node1, when comes alive, tries to run the services and that makes the services stops, can it be true? I think node1 should not start anything because the services are running in node2. <br><br>Perphaps is a problem with the configuration, perhaps with fencing (i have not configured fencing at all)<br>


<br>here is my cluster.conf. Any idea? <br><br>Thanks in advace<br><br>ESG<br><br><br><?xml version="1.0"?><br><cluster alias="MICLUSTER" config_version="29" name="MICLUSTER"><br>


        <fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="3"/><br>        <clusternodes><br>                <clusternode name="node1" nodeid="1" votes="1"><br>


                        <fence/><br>                </clusternode><br>                <clusternode name="node2" nodeid="2" votes="1"><br>                        <fence/><br>


                </clusternode><br>        </clusternodes><br>        <cman expected_votes="1" two_node="1"/><br>        <fencedevices/><br>        <rm><br>                <failoverdomains><br>


                        <failoverdomain name="DOMINIOFAIL" nofailback="0" ordere<br>d="1" restricted="1"><br>                             <b> <font size="4">  <failoverdomainnode name="node1" priority="1"/><br>


</font></b><font size="4">                               </font><b><font size="4"> <failoverdomainnode name="node2" priority="2"/><br></font></b>                        </failoverdomain><br>


                </failoverdomains><br>                <resources><br>                        <ip address="192.168.1.183" monitor_link="1"/><br>                </resources><br>                <service autostart="1" domain="DOMINIOFAIL" exclusive="0" name="<br>


HTTP" recovery="relocate"><br>                        <apache config_file="conf/httpd.conf" name="http" server<br>_root="/etc/httpd" shutdown_wait="0"/><br>

                        <ip ref="192.168.1.183"/><br>
                </service><br>                <service autostart="1" domain="DOMINIOFAIL" exclusive="0" name="<br>BBDD" recovery="relocate"><br>                        <mysql config_file="/etc/my.cnf" listen_address="192.168<br>


.1.183" name="mydb" shutdown_wait="0"/><br>                        <ip ref="192.168.1.183"/><br>                </service><br>        </rm><br></cluster><br><br>


<br></div></div>--<br>Linux-cluster mailing list<br><a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br><a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>


</blockquote></div>
<div><br>Hi ESG,</div>
<div> </div>
<div>Offcoures, as you have defined the priority of node1 as 1 and node2 as 2, so node1 is having more priority, so whenever it will be up, it will try to  run the service on itself and so it will relocate the service from node2 to node1.</div>



<div> </div>
<div> </div>
<div>Re,</div>
<div>Rajveer Singh</div><br>--<br>Linux-cluster mailing list<br><a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br><a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>


</blockquote></div></div></div><br><br>--<br>Linux-cluster mailing list<br><a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br><a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>


</blockquote></div></div></div><br>
<br>--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com" target="_blank">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br></blockquote></div><br>
</div></div></blockquote></div><br>