<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
Christine,<br>
    Thanks for the information.  I checked my routing, and other than
the zero conf route on the<br>
same interface as my private network, everything seems clean.  I moved
the zero conf route to<br>
the public network, so we'll see if that fixes anything.  Also, the
multicast route doesn't get involved,<br>
does it?  The default route is on our public network (obviously) and
the nodes should be talking to<br>
each other over the private network (according to cman_tool status),
but I don't know what interface<br>
the multicasts will be sent out from.  I wouldn't think that would
impact dlm, only the heartbeat, right?<br>
<br>
Thanks again!<br>
<br>
-- scooter<br>
<br>
Christine Caulfield wrote:
<blockquote cite="mid:48FD854D.7030409@redhat.com" type="cite">
  <pre wrap="">Scooter Morris wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">We are in the process of building a cluster, which will hope to put into
production when RHEL 5.3 is released.  Our plan is to use GFS2, which
we've been experimenting with for some time, but we're having some
problems.  The cluster has 3 nodes, two HP DL580's and one HP DL585 --
we're using ILO for fencing.  We want to share a couple of filesystems
using GFS2 which are connected to our SAN (an EVA 5000).  I've set
everything up and it all works as expected, although on occasion, GFS2
just seems to hang.  This happens 1-4 times/week.  What I note in the
logs are a series of dlm messages.  On node 1 (for example) I see:

dlm: connecting to 3
dlm: connecting to 2
dlm: connecting to 2
dlm: connecting to 2
dlm: connecting to 3
dlm: connecting to 2
dlm: connecting to 2
dlm: connecting to 2
dlm: connecting to 3
dlm: connecting to 3
dlm: connecting to 3
dlm: connecting to 3

On node 2, I see:

dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted

and on node 3, I see:
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted
dlm: got connection from 1
Extra connection from node 1 attempted

    </pre>
  </blockquote>
  <pre wrap=""><!---->
Those messages are usually caused by routing problems. The DLM binds to
the address it is given by cman (see the output of cman_tool status for
that) and receiving nodes check incoming packets against that address to
make sure that only valid cluster nodes try to make connections.

What is happening here (I think - it sounds like a problem I've seen
before) is that the packets are being routed though another interface
than the one cman is using and the remote node sees them as coming from
a different address. This can happen if you have two ethernet interfaces
connected to the same physical segment for example.

There was a also a bug that could cause this if the routing was not
quite so broken but a little odd, though I don't have the bugzilla
number to hand, sorry.
  </pre>
</blockquote>
<br>
</body>
</html>