<br><br><div><span class="gmail_quote">On 1/25/07, <b class="gmail_sendername">Alan Wood</b> <<a href="mailto:chekov@ucla.edu">chekov@ucla.edu</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
some quick comments on your post from someone who has tried an<br>active-active cluster on a shared SCSI device.<br><br>1.  If you want to have the same block partition mounted on two different<br>computers at the same time, then you need some cluster file system like
<br>GFS, you can't use ext3.  There are other cluster filesystems out there<br>(like lustre) but GFS is most well tied to the RH Cluster Suite and<br>designed for high availability as opposed to paralell computing.<br>
2.  If you are going to run GFS in a production environment the<br>recommendation is to not use 2-node.  GFS 5 required 3 nodes but GFS 6<br>offers a 2-node option;  However when using two nodes it is harder to know<br>which node is "broken" when something goes wrong, so you'll note a lot of
<br>discusson on this list about fencing gone awry and needing some sort of<br>tiebeaker like a quorum disk.  If you take care in setting it up a 2-node<br>cluster will work but you'll want to test it extensively before putting it
<br>into production.<br>3.  multipathing should work fine and you can build clvm volumes on top of<br>multipath devices.  Software RAID is different and not really related.<br><br>as for recommendations:<br>1.  don't use SCSI shared storage.  I and others have had reliability
<br>issues with heavy load in these scenarios.<br>2.  use more than 2 nodes.<br>3.  go active-passive is possible.  as is often pointed out, the entire<br>idea of a high availability cluster is that there is enough processing
<br>horsepower to handle the entire remaining load if one node fails.  in a<br>2-node cluster then you'll have to provision each node to be able to run<br>everything.  it is far easier to set it up so that one node therefore runs
<br>everything and the other node awaits failure than having active-active.<br><br>just my $.02<br>-alan<br><br><br></blockquote><div><br>Thank you very much for your excellent suggestions and tips but I could not some of them since I am bound by the specifications laid down by the development team looking into this project. I have made substantial progress in this project and a large number of issues have been resolved.  Since it had to be an Active-Active configuration with  both the nodes accessing the shared storage at the same time, we have gone for GFS as the file system using the latest release as suggested by you. The documentation for current release of RHCS does not talk about any quorum partitions but as suggested by you, I have left some space partitioned which could be used for the purpose if need arises. The multipathing is also working fine using the md driver and we have been able to build logical volumes over the multipath devices. 
<br><br>I am now dealing with the issue of configuring the network interfaces. As of now I have configured ethernet bonding on each of the hosts to achieve network interface redundancy also. However this leads to a lot of network traffic since the same interfaces are being used for heartbeat / monitoring also. Therefore, I am thinking of using the two ethernet interfaces individually, one interface for monitoring and the other one for the LAN through which the clients will be able to access the hosts. They would be connected to separate switches and the fence devices would also be on the monitoring / control network. So I assume that the arrangement would be something like:
<br><br>Node A<br>eth0 - <a href="http://192.168.100.1">192.168.100.1</a><br>eth1 - <a href="http://172.16.1.101">172.16.1.101</a><br>fence device - <a href="http://192.168.100.11">192.168.100.11</a><br><br>Node B<br>eth0 - 
<a href="http://192.168.100.2">192.168.100.2</a><br>eth1 - <a href="http://172.16.1.102">172.16.1.102</a><br>fence device - <a href="http://192.168.100.12">192.168.100.12</a><br><br>The interfaces eth0 and fence devices would be connected through a switch, while the other interfaces (eth1) would be on the LAN where clients would be accessing them. In addition there would be two more floating / shared IP addresses 
<a href="http://172.16.1.201">172.16.1.201</a> for the database server and <a href="http://172.16.1.202">172.16.1.202</a> for the application server which would be defined in the Resources section of Cluster Configuration Tool and would not be mentioned in /etc/hosts (read somewhere in the documentation).
<br><br>Please let me know if these assumptions are correct. I am just wondering how does the cluster manager figure out which interfaces to use for heartbeat and monitoring. I haven't seen any such configuration option in the system-config-cluster program.
<br><br>The issue which then needs to be resolved is of assigning hostname aliases to the shared IP addresses since as per the developers, the application manager and the database need to use a hostname and not an IP address. 
<br><br>Looking forward to your comments, <br><br>Thanks a lot.<br></div><br></div><br>