<br><br><div class="gmail_quote">On Mon, Jul 6, 2009 at 10:08 AM, Armanet Stephane <span dir="ltr"><<a href="mailto:armanets@ill.fr">armanets@ill.fr</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hello list<br>
<br>
I'm trying to setup a 3 nodes Cluster with 2 failover Domain for an HA<br>
mail solution.<br>
I want 1 run active for the Imap server in the Imap Failover domain , 1<br>
node active for the Smtp in the Smtp Failover domain and the 3rd in the<br>
2 failover domain as a backup node.<br>
<br>
I run Centos 5.3<br>
My fence device is a wti power switch<br>
<br>
My cluster.conf is in attachement<br>
<br>
My SMTP service is composed of:<br>
        1 IP<br>
        1 amavisd scritp<br>
        1 postfix script<br>
        2 NFS mount for postfix and amavis<br>
<br>
If I manually kill the postfix master process (to simulate a crash), my<br>
node is not fence and the logs said:<br>
<br>
Jul  6 10:00:40 centos-smtp1 clurgmgrd: [4228]: <info> Executing<br>
/etc/init.d/postfix status<br>
Jul  6 10:00:40 centos-smtp1 clurgmgrd: [4228]: <err> script:postfix:<br>
status of /etc/init.d/postfix failed (returned 3)<br>
Jul  6 10:00:40 centos-smtp1 clurgmgrd[4228]: <notice> status on script<br>
"postfix" returned 1 (generic error)<br>
Jul  6 10:00:40 centos-smtp1 clurgmgrd[4228]: <notice> Stopping service<br>
service:Postfix<br>
Jul  6 10:00:40 centos-smtp1 clurgmgrd: [4228]: <info> Executing<br>
/etc/init.d/amavisd stop<br>
Jul  6 10:00:40 centos-smtp1 kernel: do_vfs_lock: VFS is out of sync<br>
with lock manager!<br>
Jul  6 10:00:40 centos-smtp1 last message repeated 8 times<br>
Jul  6 10:00:41 centos-smtp1 clurgmgrd: [4228]: <info> Executing<br>
/etc/init.d/postfix stop<br>
Jul  6 10:00:41 centos-smtp1 clurgmgrd: [4228]: <err> script:postfix:<br>
stop of /etc/init.d/postfix failed (returned 1)<br>
Jul  6 10:00:41 centos-smtp1 clurgmgrd[4228]: <notice> stop on script<br>
"postfix" returned 1 (generic error)<br>
Jul  6 10:00:41 centos-smtp1 clurgmgrd: [4228]: <info> Removing IPv4<br>
address <a href="http://195.83.126.201/24" target="_blank">195.83.126.201/24</a> from bond0<br>
Jul  6 10:00:41 centos-smtp1 avahi-daemon[3552]: Withdrawing address<br>
record for 195.83.126.201 on bond0.<br>
Jul  6 10:00:51 centos-smtp1 clurgmgrd: [4228]: <info> unmounting<br>
/var/lib/amavis<br>
Jul  6 10:00:51 centos-smtp1 clurgmgrd: [4228]: <info> unmounting<br>
/var/spool/postfix<br>
Jul  6 10:00:51 centos-smtp1 clurgmgrd[4228]: <crit> #12: RG<br>
service:Postfix failed to stop; intervention required<br>
Jul  6 10:00:51 centos-smtp1 clurgmgrd[4228]: <notice> Service<br>
service:Postfix is failed<br>
Jul  6 10:00:52 centos-smtp1 ntpd[3322]: synchronized to 195.83.126.119,<br>
stratum 1<br>
<br>
Clustat said:<br>
<br>
Cluster Status for cluster-test @ Mon Jul  6 10:02:39 2009<br>
Member Status: Quorate<br>
<br>
 Member Name                                                     ID   Status<br>
 ------ ----                                                     ---- ------<br>
 <a href="http://centos-imap1.ill.fr" target="_blank">centos-imap1.ill.fr</a>                                                 1<br>
Online, Local, rgmanager<br>
 <a href="http://centos-imap2.ill.fr" target="_blank">centos-imap2.ill.fr</a>                                                 2<br>
Online, rgmanager<br>
 <a href="http://centos-smtp1.ill.fr" target="_blank">centos-smtp1.ill.fr</a>                                                 3<br>
Online, rgmanager<br>
 /dev/disk/by-id/scsi-360a98000567247514634507447594661-part1        0<br>
Online, Quorum Disk<br>
<br>
 Service Name                                                   Owner<br>
(Last)                                                   State<br>
 ------- ----                                                   -----<br>
------                                                   -----<br>
 service:Imap<br>
<a href="http://centos-imap2.ill.fr" target="_blank">centos-imap2.ill.fr</a>                                            started<br>
<br>
 service:Postfix<br>
(<a href="http://centos-smtp1.ill.fr" target="_blank">centos-smtp1.ill.fr</a>)                                          failed<br>
<br>
<br>
<br>
<br>
So I have to disable the Postfix servcie with:<br>
        clusvcadm -d Postfix<br>
and re-enable<br>
        clusvcadm -e Postfix<br>
<br>
<br>
<br>
Could you explain my why my original smtp node is not fenced and why my<br>
service is not start on the 2nd node ???<br>
</blockquote><div>Nodes are fenced only when they lost communications with the other nodes, not when a service fails.<br>You should check the init scripts  to make sure it works fine outside the cluster, return values are important. I think in your case is failing because you killed postfix in a way it deleted the .pid file, and that made the init script fail.<br>
BTW you should configure the service as recovery="relocate" if you want them to be started on a different node.<br><br>Greetings,<br>Juanra<br><br><br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
Is there a way to force the fencing ???<br>
<font color="#888888"><br>
<br>
--<br>
ARMANET Stephane<br>
Division Projet Technique<br>
Service Informatique<br>
  Groupe Infrastructure<br>
<br>
Institut Laue langevin<br>
</font><br>--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br></blockquote></div><br>