Hi,<div><br></div><div>NFS Setup, 2 servers, stock redhat 5.4.</div><div><br></div><div>The following is on the SAN:</div><div>1) /var/lib/nfs     (so that I could preserve locks between 2 severs)</div><div>2) /export/home (home area I export to)</div>
<div>3) /export/shared</div><div><div> </div><div>Setup:</div><div>1) HA-LVM (so that only 1 NFS server can see the volume at one time)</div><div>2) /export/home <a href="http://192.168.251.0/255.255.255.0(rw,async,no_root_squash,fsid=4000)">192.168.251.0/255.255.255.0(rw,async,no_root_squash,fsid=4000)</a></div>
<div>3) Shared IP</div><div>4) All NFS dynamic ports are locked down to static one </div><div>5) rpc.statd is started with "-n <hostnameoffloatingip>"</div><div>6) RPCNFSDCOUNT=64</div><div><br></div></div>
<div>The Service setup (with the parent-child relationship):</div><div>- Floating IP</div><div> |- LVM, FileSystem Mounts (to mount /var/lib/nfs, /export/home)</div><div>  |--- nfslock </div><div>    |----- nfs   </div><div>
<br></div><div>It seems to be working with me failing it over several hundred times.</div><div>The only issues were that after fail-over some clients can stop writing.</div><div><br></div><div>Clients mount with defaults,async,noatime,proto=udp. The default is hard-mounting and NFSv3.</div>
<div><br></div><div>I test that there are 4 NFS clients and 8 processes/NFS client writing to files while I perform the failover. </div><div>Some times, there are clients that will stop writing -- this is inconsistent with the fact that it's hard-mounted.</div>
<div>I've tried clients with redhat 5.4.x and 5.5 kernels with the same results. timeo, retrans changes do not help as well.</div><div><br></div><div>I tried TCP option and the clients panic'ked (<a href="http://bugzilla.redhat.com">bugzilla.redhat.com</a> #585269) during fail-over, hence the udp options.</div>
<div><br></div><div>I wonder if anyone is seeing the same thing. The annoying thing is that the clients stopped writing only happen some times; not all the times.</div><div>The failover completed all the time. After the fail-over, the clients can still see the mounted space.</div>
<div><br></div><div>I noticed that when the client has issues, the rpciod/6 will shoot up to 100% for several seconds. My processes that are writing files are shot to 100%, then died without finishing writing the files.</div>
<div><br></div><div>It feels like a bug on NFS clients; I'm not that certain. I would like to request community help for second opinion.</div><div><br></div><div>Thanks.</div><div><br></div><div><br></div>