<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.10.2">
</HEAD>
<BODY>
I have the same hardware configuration for 11 nodes, but without any of the spurious failover events.  The main thing different I had to do was to increase the bond device count to 2 (the driver defaults to only 1), as I have mine teamed between dual tg3/e1000 ports from the mobo and PCI card.  bond0 is on a gigabit switch, while bond1 is on 100mb.  In /etc/modprobe.conf:<BR>
<BR>
alias bond0 bonding<BR>
alias bond1 bonding<BR>
<B>options bonding max_bonds=2 mode=1 miimon=100 updelay=200</B><BR>
alias eth0 e1000<BR>
alias eth1 e1000<BR>
alias eth2 tg3<BR>
alias eth3 tg3<BR>
<BR>
So eth0/eth2 are teamed, and eth1/eth3 are teamed.  In dmesg:<BR>
<BR>
e1000: eth0: e1000_watchdog_task: NIC Link is Up 1000 Mbps Full Duplex<BR>
bonding: bond0: making interface eth0 the new active one 0 ms earlier.<BR>
bonding: bond0: enslaving eth0 as an active interface with an up link.<BR>
bonding: bond0: enslaving eth2 as a backup interface with a down link.<BR>
tg3: eth2: Link is up at 1000 Mbps, full duplex.<BR>
tg3: eth2: Flow control is on for TX and on for RX.<BR>
bonding: bond0: link status up for interface eth2, enabling it in 200 ms.<BR>
bonding: bond0: link status definitely up for interface eth2.<BR>
e1000: eth1: e1000_watchdog_task: NIC Link is Up 100 Mbps Full Duplex<BR>
bonding: bond1: making interface eth1 the new active one 0 ms earlier.<BR>
bonding: bond1: enslaving eth1 as an active interface with an up link.<BR>
bonding: bond1: enslaving eth3 as a backup interface with a down link.<BR>
bond0: duplicate address detected!<BR>
tg3: eth3: Link is up at 100 Mbps, full duplex.<BR>
tg3: eth3: Flow control is off for TX and off for RX.<BR>
bonding: bond1: link status up for interface eth3, enabling it in 200 ms.<BR>
bonding: bond1: link status definitely up for interface eth3.<BR>
<BR>
$ uname -srvmpio<BR>
Linux 2.6.9-42.0.10.ELsmp #1 SMP Fri Feb 16 17:13:42 EST 2007 x86_64 x86_64 x86_64 GNU/Linux<BR>
<BR>
$ cat /proc/net/bonding/bond0<BR>
Ethernet Channel Bonding Driver: v2.6.3 (June 8, 2005)<BR>
<BR>
Bonding Mode: fault-tolerance (active-backup)<BR>
Primary Slave: None<BR>
Currently Active Slave: eth0<BR>
MII Status: up<BR>
MII Polling Interval (ms): 100<BR>
Up Delay (ms): 200<BR>
Down Delay (ms): 0<BR>
<BR>
Slave Interface: eth0<BR>
MII Status: up<BR>
Link Failure Count: 0<BR>
Permanent HW addr: 00:11:0a:5f:1e:0a<BR>
<BR>
Slave Interface: eth2<BR>
MII Status: up<BR>
Link Failure Count: 0<BR>
Permanent HW addr: 00:17:a4:a7:9a:54<BR>
<BR>
$ cat /proc/net/bonding/bond1<BR>
Ethernet Channel Bonding Driver: v2.6.3 (June 8, 2005)<BR>
<BR>
Bonding Mode: fault-tolerance (active-backup)<BR>
Primary Slave: None<BR>
Currently Active Slave: eth1<BR>
MII Status: up<BR>
MII Polling Interval (ms): 100<BR>
Up Delay (ms): 200<BR>
Down Delay (ms): 0<BR>
<BR>
Slave Interface: eth1<BR>
MII Status: up<BR>
Link Failure Count: 0<BR>
Permanent HW addr: 00:11:0a:5f:1e:0b<BR>
<BR>
Slave Interface: eth3<BR>
MII Status: up<BR>
Link Failure Count: 0<BR>
Permanent HW addr: 00:17:a4:a7:9a:53<BR>
<BR>
<BR>
On Thu, 2007-04-12 at 08:45 -0400, Scott McClanahan wrote:
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000">I have every node in my four node cluster setup to do active-backup</FONT>
<FONT COLOR="#000000">bonding and the drivers loaded for the bonded network interfaces vary</FONT>
<FONT COLOR="#000000">between tg3 and e100.  All interfaces with the e100 driver loaded report</FONT>
<FONT COLOR="#000000">errors much like what you see here:</FONT>

<FONT COLOR="#000000">bonding: bond0: link status definitely down for interface eth2,</FONT>
<FONT COLOR="#000000">disabling it</FONT>
<FONT COLOR="#000000">e100: eth2: e100_watchdog: link up, 100Mbps, full-duplex</FONT>
<FONT COLOR="#000000">bonding: bond0: link status definitely up for interface eth2.</FONT>

<FONT COLOR="#000000">This happens all day on every node.  I have configured the bonding</FONT>
<FONT COLOR="#000000">module to do MII link monitoring at a frequency of 100 milliseconds and</FONT>
<FONT COLOR="#000000">it is using basic carrier link detection to test if the interface is</FONT>
<FONT COLOR="#000000">alive or not.  There was no custom building of any modules on these</FONT>
<FONT COLOR="#000000">nodes and the o/s is CentOS 4.3.</FONT>

<FONT COLOR="#000000">Some more relevant information is below (this display is consistent</FONT>
<FONT COLOR="#000000">across all nodes):</FONT>

<FONT COLOR="#000000">[smccl@tf35 ~]$uname -srvmpio</FONT>
<FONT COLOR="#000000">Linux 2.6.9-34.ELhugemem #1 SMP Wed Mar 8 00:47:12 CST 2006 i686 i686</FONT>
<FONT COLOR="#000000">i386 GNU/Linux</FONT>

<FONT COLOR="#000000">[smccl@tf35 ~]$head -5 /etc/modprobe.conf</FONT>
<FONT COLOR="#000000">alias bond0 bonding</FONT>
<FONT COLOR="#000000">options bonding miimon=100 mode=1</FONT>
<FONT COLOR="#000000">alias eth0 tg3</FONT>
<FONT COLOR="#000000">alias eth1 tg3</FONT>
<FONT COLOR="#000000">alias eth2 e100</FONT>

<FONT COLOR="#000000">[smccl@tf35 ~]$cat /proc/net/bonding/bond0 </FONT>
<FONT COLOR="#000000">Ethernet Channel Bonding Driver: v2.6.1 (October 29, 2004)</FONT>

<FONT COLOR="#000000">Bonding Mode: fault-tolerance (active-backup)</FONT>
<FONT COLOR="#000000">Primary Slave: None</FONT>
<FONT COLOR="#000000">Currently Active Slave: eth0</FONT>
<FONT COLOR="#000000">MII Status: up</FONT>
<FONT COLOR="#000000">MII Polling Interval (ms): 100</FONT>
<FONT COLOR="#000000">Up Delay (ms): 0</FONT>
<FONT COLOR="#000000">Down Delay (ms): 0</FONT>

<FONT COLOR="#000000">Slave Interface: eth0</FONT>
<FONT COLOR="#000000">MII Status: up</FONT>
<FONT COLOR="#000000">Link Failure Count: 0</FONT>
<FONT COLOR="#000000">Permanent HW addr: 00:10:18:0c:86:a4</FONT>

<FONT COLOR="#000000">Slave Interface: eth2</FONT>
<FONT COLOR="#000000">MII Status: up</FONT>
<FONT COLOR="#000000">Link Failure Count: 12</FONT>
<FONT COLOR="#000000">Permanent HW addr: 00:02:55:ac:a2:ea</FONT>

<FONT COLOR="#000000">Any idea why these e100 links report failures so often?  They are</FONT>
<FONT COLOR="#000000">directly plugged into a Cisco Catalyst 4506.  Thanks.</FONT>

<FONT COLOR="#000000">--</FONT>
<FONT COLOR="#000000">Linux-cluster mailing list</FONT>
<FONT COLOR="#000000"><A HREF="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</A></FONT>
<FONT COLOR="#000000"><A HREF="https://www.redhat.com/mailman/listinfo/linux-cluster">https://www.redhat.com/mailman/listinfo/linux-cluster</A></FONT>

</PRE>
</BLOCKQUOTE>
<TABLE CELLSPACING="0" CELLPADDING="0" WIDTH="100%">
<TR>
<TD>
<B><FONT SIZE="1"><FONT COLOR="#000066">Robert Hurst, Sr. Caché Administrator</FONT></FONT></B><BR>
<B><FONT SIZE="1"><FONT COLOR="#3333ff">Beth Israel Deaconess Medical Center</FONT></FONT></B><BR>
<B><FONT SIZE="1"><FONT COLOR="#6666ff">1135 Tremont Street, REN-7</FONT></FONT></B><BR>
<B><FONT SIZE="1"><FONT COLOR="#6666ff">Boston, Massachusetts   02120-2140</FONT></FONT></B><BR>
<B><FONT SIZE="1"><FONT COLOR="#6666ff">617-754-8754 ∙ Fax: 617-754-8730 ∙ Cell: 401-787-3154</FONT></FONT></B><BR>
<FONT SIZE="1"><FONT COLOR="#9999ff">Any technology distinguishable from magic is insufficiently advanced.</FONT></FONT>
</TD>
</TR>
</TABLE>
</BODY>
</HTML>