<br><br><div class="gmail_quote">On Mon, May 17, 2010 at 4:56 PM, Corey Kovacs <span dir="ltr"><<a href="mailto:corey.kovacs@gmail.com">corey.kovacs@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
The service scripts you have in the config above look made up. Are<br>
those some scripts or wrote or are you actually using sys V inits?<br></blockquote><div><br>I wrote the resource scripts. They all respond to {start|status|stop} as necessary.<br> </div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

Also, can you include a complete log segment? it's quite hard to debug<br>
someone's problem with only partial information.<br></blockquote><div><br>Here's a segment with the APC PDU as the fencing device:<br><div style="margin-left: 40px;">May 12 10:50:00 c1n2 openais[26524]: [TOTEM] The token was lost in the OPERATIONAL state. <br>
May 12 10:50:00 c1n2 openais[26524]: [TOTEM] Receive multicast socket recv buffer size (288000 bytes). <br>May 12 10:50:00 c1n2 openais[26524]: [TOTEM] Transmit multicast socket send buffer size (262142 bytes). <br>May 12 10:50:00 c1n2 openais[26524]: [TOTEM] entering GATHER state from 2. <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] entering GATHER state from 0. <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] Saving state aru 2c3 high seq received 2c3 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] Storing new sequence id for ring ae4 <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] entering COMMIT state. <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] entering RECOVERY state. <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] position [0] member <a href="http://192.168.1.103">192.168.1.103</a>: <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] previous ring seq 2784 rep 192.168.1.103 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] aru 2c3 high delivered 2c3 received flag 1 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] position [1] member <a href="http://192.168.1.104">192.168.1.104</a>: <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] previous ring seq 2784 rep 192.168.1.103 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] aru 2c3 high delivered 2c3 received flag 1 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] position [2] member <a href="http://192.168.1.105">192.168.1.105</a>: <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] previous ring seq 2784 rep 192.168.1.103 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] aru 2c3 high delivered 2c3 received flag 1 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] position [3] member <a href="http://192.168.1.102">192.168.1.102</a>: <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] previous ring seq 2784 rep 192.168.1.103 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] aru 2c3 high delivered 2c3 received flag 1 <br>May 12 10:50:05 c1n2 openais[26524]: [TOTEM] Did not need to originate any messages in recovery. <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] New Configuration: <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.104)  <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.102)  <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] Members Left: <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.101)  <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ] Members Joined: <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] New Configuration: <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.103)  <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.104)  <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.102)  <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ] Members Left: <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] Members Joined: <br>May 12 10:50:05 c1n2 openais[26524]: [SYNC ] This node is within the primary component and will provide service. <br>
May 12 10:50:05 c1n2 openais[26524]: [TOTEM] entering OPERATIONAL state. <br>May 12 10:50:05 c1n2 kernel: dlm: closing connection to node 1<br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.103 <br>
May 12 10:50:05 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.104 <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.105 <br>May 12 10:50:05 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.102 <br>
May 12 10:50:05 c1n2 openais[26524]: [CPG  ] got joinlist message from node 5 <br>May 12 10:50:05 c1n2 openais[26524]: [CPG  ] got joinlist message from node 2 <br>May 12 10:50:05 c1n2 openais[26524]: [CPG  ] got joinlist message from node 3 <br>
May 12 10:50:05 c1n2 openais[26524]: [CPG  ] got joinlist message from node 4 <br>May 12 10:50:08 c1n2 fenced[26544]: 192.168.1.101 not a cluster member after 3 sec post_fail_delay<br>May 12 10:50:08 c1n2 fenced[26544]: fencing node "192.168.1.101"<br>
May 12 10:50:12 c1n2 fenced[26544]: fence "192.168.1.101" success<br></div><div style="margin-left: 40px;">May 12 10:54:04 c1n2 openais[26524]: [TOTEM] entering GATHER state from 11. <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] Saving state aru 3e high seq received 3e <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] Storing new sequence id for ring ae8 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] entering COMMIT state. <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] entering RECOVERY state. <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] position [0] member <a href="http://192.168.1.103">192.168.1.103</a>: <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] previous ring seq 2788 rep 192.168.1.103 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] aru 3e high delivered 3e received flag 1 <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] position [1] member <a href="http://192.168.1.104">192.168.1.104</a>: <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] previous ring seq 2788 rep 192.168.1.103 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] aru 3e high delivered 3e received flag 1 <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] position [2] member <a href="http://192.168.1.105">192.168.1.105</a>: <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] previous ring seq 2788 rep 192.168.1.103 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] aru 3e high delivered 3e received flag 1 <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] position [3] member <a href="http://192.168.1.101">192.168.1.101</a>: <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] previous ring seq 2788 rep 192.168.1.101 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] aru a high delivered a received flag 1 <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] position [4] member <a href="http://192.168.1.102">192.168.1.102</a>: <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] previous ring seq 2788 rep 192.168.1.103 <br>May 12 10:54:04 c1n2 openais[26524]: [TOTEM] aru 3e high delivered 3e received flag 1 <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] Did not need to originate any messages in recovery. <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] New Configuration: <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.104)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.105)  <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.102)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] Members Left: <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] Members Joined: <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] CLM CONFIGURATION CHANGE <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ] New Configuration: <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.104)  <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.101)  <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.102)  <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ] Members Left: <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] Members Joined: <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ]     r(0) ip(192.168.1.101)  <br>May 12 10:54:04 c1n2 openais[26524]: [SYNC ] This node is within the primary component and will provide service. <br>
May 12 10:54:04 c1n2 openais[26524]: [TOTEM] entering OPERATIONAL state. <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.103 <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.104 <br>
May 12 10:54:04 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.105 <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.101 <br>May 12 10:54:04 c1n2 openais[26524]: [CLM  ] got nodejoin message 192.168.1.102 <br>
May 12 10:54:04 c1n2 openais[26524]: [CPG  ] got joinlist message from node 5 <br>May 12 10:54:04 c1n2 openais[26524]: [CPG  ] got joinlist message from node 2 <br>May 12 10:54:04 c1n2 openais[26524]: [CPG  ] got joinlist message from node 3 <br>
May 12 10:54:04 c1n2 openais[26524]: [CPG  ] got joinlist message from node 4 <br></div><div style="margin-left: 40px;"><br></div>Please notice in the above log that the APC PDU reported to node2 (192.168.1.102), and node2 reported in its log, that fencing was successful.<br>
Also please note that no service relocation occurred for the service node1 was running for the four minutes it took for node1 to come back online.<br><br>Here's another log segment after taking out the APC PDU and inserting manual_fencing as the fencing device:<br>
<div style="margin-left: 40px;">May 18 11:34:12 c1n2 root: MARK I begin test. doing ifcfg eth0 down && ifcfg eth1 down on node c1n1  <br>May 18 11:35:03 c1n2 openais[25546]: [TOTEM] The token was lost in the OPERATIONAL state. <br>
May 18 11:35:03 c1n2 openais[25546]: [TOTEM] Receive multicast socket recv buffer size (288000 bytes). <br>May 18 11:35:03 c1n2 openais[25546]: [TOTEM] Transmit multicast socket send buffer size (262142 bytes). <br>May 18 11:35:03 c1n2 openais[25546]: [TOTEM] entering GATHER state from 2. <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] entering GATHER state from 0. <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] Saving state aru 1ec high seq received 1ec <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] Storing new sequence id for ring c5c <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] entering COMMIT state. <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] entering RECOVERY state. <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] position [0] member <a href="http://192.168.1.103">192.168.1.103</a>: <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] previous ring seq 3160 rep 192.168.1.103 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] aru 1ec high delivered 1ec received flag 1 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] position [1] member <a href="http://192.168.1.104">192.168.1.104</a>: <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] previous ring seq 3160 rep 192.168.1.103 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] aru 1ec high delivered 1ec received flag 1 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] position [2] member <a href="http://192.168.1.105">192.168.1.105</a>: <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] previous ring seq 3160 rep 192.168.1.103 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] aru 1ec high delivered 1ec received flag 1 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] position [3] member <a href="http://192.168.1.102">192.168.1.102</a>: <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] previous ring seq 3160 rep 192.168.1.103 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] aru 1ec high delivered 1ec received flag 1 <br>May 18 11:35:08 c1n2 openais[25546]: [TOTEM] Did not need to originate any messages in recovery. <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] New Configuration: <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.104)  <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.102)  <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] Members Left: <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.101)  <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ] Members Joined: <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] New Configuration: <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.103)  <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.104)  <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.102)  <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ] Members Left: <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] Members Joined: <br>May 18 11:35:08 c1n2 openais[25546]: [SYNC ] This node is within the primary component and will provide service. <br>
May 18 11:35:08 c1n2 openais[25546]: [TOTEM] entering OPERATIONAL state. <br>May 18 11:35:08 c1n2 kernel: dlm: closing connection to node 1<br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.103 <br>
May 18 11:35:08 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.104 <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.105 <br>May 18 11:35:08 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.102 <br>
May 18 11:35:08 c1n2 openais[25546]: [CPG  ] got joinlist message from node 4 <br>May 18 11:35:08 c1n2 openais[25546]: [CPG  ] got joinlist message from node 5 <br>May 18 11:35:08 c1n2 openais[25546]: [CPG  ] got joinlist message from node 2 <br>
May 18 11:35:08 c1n2 openais[25546]: [CPG  ] got joinlist message from node 3 <br>May 18 11:35:11 c1n2 fenced[25566]: 192.168.1.101 not a cluster member after 3 sec post_fail_delay<br>May 18 11:35:11 c1n2 fenced[25566]: fencing node "192.168.1.101"<br>
May 18 11:35:11 c1n2 fence_manual: Node 192.168.1.101 needs to be reset before recovery can procede.  Waiting for 192.168.1.101 to rejoin the cluster or for manual acknowledgement that it has been reset (i.e. fence_ack_manual -n 192.168.1.101) <br>
May 18 11:37:30 c1n2 ccsd[25540]: Attempt to close an unopened CCS descriptor (5280). <br>May 18 11:37:30 c1n2 ccsd[25540]: Error while processing disconnect: Invalid request descriptor <br>May 18 11:37:30 c1n2 fenced[25566]: fence "192.168.1.101" success<br>
May 18 11:41:31 c1n2 root: MARK II node c1n1 up now, no service relocation of service core1 occurred<br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] entering GATHER state from 11. <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] Saving state aru 3f high seq received 3f <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] Storing new sequence id for ring c60 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] entering COMMIT state. <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] entering RECOVERY state. <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] position [0] member <a href="http://192.168.1.103">192.168.1.103</a>: <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] previous ring seq 3164 rep 192.168.1.103 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] aru 3f high delivered 3f received flag 1 <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] position [1] member <a href="http://192.168.1.104">192.168.1.104</a>: <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] previous ring seq 3164 rep 192.168.1.103 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] aru 3f high delivered 3f received flag 1 <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] position [2] member <a href="http://192.168.1.105">192.168.1.105</a>: <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] previous ring seq 3164 rep 192.168.1.103 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] aru 3f high delivered 3f received flag 1 <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] position [3] member <a href="http://192.168.1.101">192.168.1.101</a>: <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] previous ring seq 3164 rep 192.168.1.101 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] aru a high delivered a received flag 1 <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] position [4] member <a href="http://192.168.1.102">192.168.1.102</a>: <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] previous ring seq 3164 rep 192.168.1.103 <br>May 18 11:41:41 c1n2 openais[25546]: [TOTEM] aru 3f high delivered 3f received flag 1 <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] Did not need to originate any messages in recovery. <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] CLM CONFIGURATION CHANGE <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] New Configuration: <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.104)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.105)  <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.102)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] Members Left: <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] Members Joined: <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] CLM CONFIGURATION CHANGE <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ] New Configuration: <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.103)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.104)  <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.105)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.101)  <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.102)  <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ] Members Left: <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] Members Joined: <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ]     r(0) ip(192.168.1.101)  <br>May 18 11:41:41 c1n2 openais[25546]: [SYNC ] This node is within the primary component and will provide service. <br>
May 18 11:41:41 c1n2 openais[25546]: [TOTEM] entering OPERATIONAL state. <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.103 <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.104 <br>
May 18 11:41:41 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.105 <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.101 <br>May 18 11:41:41 c1n2 openais[25546]: [CLM  ] got nodejoin message 192.168.1.102 <br>
May 18 11:41:41 c1n2 openais[25546]: [CPG  ] got joinlist message from node 5 <br>May 18 11:41:41 c1n2 openais[25546]: [CPG  ] got joinlist message from node 2 <br>May 18 11:41:41 c1n2 openais[25546]: [CPG  ] got joinlist message from node 3 <br>
May 18 11:41:41 c1n2 openais[25546]: [CPG  ] got joinlist message from node 4 <br>May 18 11:41:48 c1n2 kernel: dlm: connecting to 1<br></div><div style="margin-left: 40px;"><br></div>Wonder what these indicate from that segment:<br>
<div style="margin-left: 40px;">May 18 11:37:30 c1n2 ccsd[25540]: Attempt to close an unopened CCS 
descriptor (5280). <br>
May 18 11:37:30 c1n2 ccsd[25540]: Error while processing disconnect: 
Invalid request descriptor </div></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
Really, I don't want to hear  "It should work, I've done everything<br>
right" since clearly something is wrong. I as have many people here<br>
built several if not dozens of these clusters and we are making<br>
suggestions where we have seen the most problems.<br></blockquote><div><br>Ok. This is my seventh cluster. All previously built clusters, on RHEL5U3 (this one is the first I've built on RHEL5U4) functioned perfectly. I appreciate you making suggestions - I'm just saying that I'd stated three times that the APC unit is fencing properly. Have tested with fence_tool across all nodes.<br>
 <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
It's always funny how the software engineers are never to blame for<br>
there software not working until I prove to them that it's there<br>
fault. Not trying to be a jerk, OR point fingers but open your mind a bit.<br></blockquote><div><br>My mind is open. I keep saying the APC PDU is successfully fencing and keep getting asked if the APC PDU is successfully fencing and I keep reporting that the APC PDU is successfully fencing.<br>
 <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
Sometimes fencing can be hindered by simply being logged into the device while<br>
the cluster is trying to talk to it. First Gen iLO's and some APC<br>
firmware have problems with this.<br></blockquote><div><br>Understood - I've been making sure to log out when testing.<br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>
<br>
Whats the output of ...<br>
<br>
cman_tool status<br></blockquote><div><div style="margin-left: 40px;"># cman_tool status<br>Version: 6.2.0<br>Config Version: 102<br>Cluster Name: hpss1<br>Cluster Id: 3299<br>Cluster Member: Yes<br>Cluster Generation: 3168<br>
Membership state: Cluster-Member<br>Nodes: 5<br>Expected votes: 5<br>Total votes: 5<br>Quorum: 3<br>Active subsystems: 9<br>Flags: Dirty<br>Ports Bound: 0 11 177<br>Node name: 192.168.222.86<br>Node ID: 2<br>Multicast addresses: 239.192.12.239<br>
Node addresses: 192.168.2.86<br><br></div> </div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
cman_tool nodes<br></blockquote><div style="margin-left: 40px;">  cman_tool nodes<br>Node  Sts   Inc   Joined               Name<br>   1   M   3168   2010-05-18 11:41:41  192.168.1.101<br>   2   M   3140   2010-05-18 11:32:12  192.168.1.102<br>
   3   M   3156   2010-05-18 11:32:12  192.168.1.103<br>   4   M   3156   2010-05-18 11:32:12  192.168.1.104<br>   5   M   3160   2010-05-18 11:32:12  192.168.1.105<br><br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

cman_tool services<br></blockquote><div style="margin-left: 40px;">  cman_tool services<br>type             level name              id       state<br>fence            0     default           00010004 none<br>[1 2 3 4 5]<br>
dlm              1     clvmd             00010005 none<br>[1 2 3 4 5]<br>dlm              1     rgmanager         00020004 none<br>[1 2 3 4 5]<br>dlm              1     m1_hpssSource     00020002 none<br>[2]<br>dlm              1     m1_varHpss        00040002 none<br>
[2]<br>dlm              1     m1_varHpssAdmCor  00060002 none<br>[2]<br>gfs              2     m1_hpssSource     00010002 none<br>[2]<br>gfs              2     m1_varHpss        00030002 none<br>[2]<br>gfs              2     m1_varHpssAdmCor  00050002 none<br>
[2]<br><br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
Are you sure that all the nodes have the right cluster config?<br>
ccs_tool update /etc/cluster/cluster.conf ?<br></blockquote><div> </div><div>Yes, absolutely positive. <br><br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>
What are using you using to manage the config? ricci/luci,<br>
system-config-cluster, vi?<br></blockquote><div><br>Sometimes luci, sometimes vi.<br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>
Can we see a "real" cluster.conf?<br></blockquote><div><br>The IPs have been changed through-out this email (as thoroughly and made-to-be consistent as possible) as per security directives.<br><br><?xml version="1.0"?><br>
<cluster config_version="102" name="hpss7"><br>    <fence_daemon clean_start="0" post_fail_delay="3" post_join_delay="60"/><br>    <clusternodes><br>        <clusternode name="192.168.1.101" nodeid="1" votes="1"><br>
            <fence><br>                <method name="1"><br>                    <device name="manual_fence_c1n1" nodename="192.168.1.101"/><br>                </method><br>
            </fence><br>        </clusternode><br>        <clusternode name="192.168.1.102" nodeid="2" votes="1"><br>            <fence><br>                <method name="1"><br>
                    <device name="manual_fence_c1n2" nodename="192.168.1.102"/><br>                </method><br>            </fence><br>        </clusternode><br>        <clusternode name="192.168.1.103" nodeid="3" votes="1"><br>
            <fence><br>                <method name="1"><br>                    <device name="manual_fence_c1n3" nodename="192.168.1.103"/><br>                </method><br>
            </fence><br>        </clusternode><br>        <clusternode name="192.168.1.104" nodeid="4" votes="1"><br>            <fence><br>                <method name="1"><br>
                    <device name="manual_fence_c1n4" nodename="192.168.1.104"/><br>                </method><br>            </fence><br>        </clusternode><br>        <clusternode name="192.168.1.105" nodeid="5" votes="1"><br>
            <fence><br>                <method name="1"><br>                    <device name="manual_fence_c1n5" nodename="192.168.1.105"/><br>                </method><br>
            </fence><br>        </clusternode><br>    </clusternodes><br>    <cman/><br>    <fencedevices><br>        <fencedevice agent="fence_manual" name="manual_fence_c1n3"/><br>
        <fencedevice agent="fence_manual" name="manual_fence_c1n1"/><br>        <fencedevice agent="fence_manual" name="manual_fence_c1n2"/><br>        <fencedevice agent="fence_manual" name="manual_fence_c1n4"/><br>
        <fencedevice agent="fence_manual" name="manual_fence_c1n5"/><br>    </fencedevices><br>    <rm><br>        <failoverdomains><br>            <failoverdomain name="fd_core1" nofailback="1" ordered="1" restricted="1"><br>
                <failoverdomainnode name="192.168.1.101" priority="1"/><br>                <failoverdomainnode name="192.168.1.102" priority="2"/><br>                <failoverdomainnode name="192.168.1.103" priority="3"/><br>
                <failoverdomainnode name="192.168.1.104" priority="4"/><br>                <failoverdomainnode name="192.168.1.105" priority="5"/><br>            </failoverdomain><br>
            <failoverdomain name="fd_mover1" nofailback="1" ordered="1" restricted="1"><br>                <failoverdomainnode name="192.168.1.101" priority="5"/><br>
                <failoverdomainnode name="192.168.1.102" priority="1"/><br>                <failoverdomainnode name="192.168.1.103" priority="2"/><br>                <failoverdomainnode name="192.168.1.104" priority="3"/><br>
                <failoverdomainnode name="192.168.1.105" priority="4"/><br>            </failoverdomain><br>            <failoverdomain name="fd_mover2" nofailback="1" ordered="1" restricted="1"><br>
                <failoverdomainnode name="192.168.1.101" priority="4"/><br>                <failoverdomainnode name="192.168.1.102" priority="5"/><br>                <failoverdomainnode name="192.168.1.103" priority="1"/><br>
                <failoverdomainnode name="192.168.1.104" priority="2"/><br>                <failoverdomainnode name="192.168.1.105" priority="3"/><br>            </failoverdomain><br>
            <failoverdomain name="fd_vfs1" nofailback="1" ordered="1" restricted="1"><br>                <failoverdomainnode name="192.168.1.101" priority="3"/><br>
                <failoverdomainnode name="192.168.1.102" priority="4"/><br>                <failoverdomainnode name="192.168.1.103" priority="5"/><br>                <failoverdomainnode name="192.168.1.104" priority="1"/><br>
                <failoverdomainnode name="192.168.1.105" priority="2"/><br>            </failoverdomain><br>        </failoverdomains><br>        <resources><br>            <ip address="192.168.2.40" monitor_link="1"/><br>
            <ip address="10.10.1.74" monitor_link="1"/><br>            <ip address="192.168.2.41" monitor_link="1"/><br>            <ip address="10.10.1.75" monitor_link="1"/><br>
            <ip address="192.168.2.42" monitor_link="1"/><br>            <ip address="10.10.1.76" monitor_link="1"/><br>            <ip address="192.168.2.43" monitor_link="1"/><br>
            <ip address="10.10.1.77" monitor_link="1"/><br>            <script file="/ha/bin/ha-hpss-core1" name="ha-hpss-core1"/><br>            <script file="/ha/bin/ha-hpss-mover1" name="ha-hpss-mover1"/><br>
            <script file="/ha/bin/ha-hpss-mover2" name="ha-hpss-mover2"/><br>            <script file="/ha/bin/ha-hpss-vfs1" name="ha-hpss-vfs1"/><br>            <clusterfs device="/dev/mapper/c1_hpss_vg-c1_db2Backup" force_unmount="1" fsid="34722" fstype="gfs2" mountpoint="/ha/c1_db2Backup" name="c1_db2Backup" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpss_vg-c1_hpssSource" force_unmount="1" fsid="41961" fstype="gfs2" mountpoint="/ha/c1_hpssSource" name="c1_hpssSource" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpss_vg-c1_varHpss" force_unmount="1" fsid="31374" fstype="gfs2" mountpoint="/ha/c1_varHpss" name="c1_varHpss" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpss_vg-c1_varHpssAdmCor" force_unmount="1" fsid="46145" fstype="gfs2" mountpoint="/ha/c1_varHpssAdmCor" name="c1_varHpssAdmCor" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdb2v95_vg-c1_optIbmDb2V95" force_unmount="1" fsid="38858" fstype="gfs2" mountpoint="/ha/c1_optIbmDb2V95" name="c1_optIbmDb2V95" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdb_vg-c1_hpssdbUserSp1" force_unmount="1" fsid="17090" fstype="gfs2" mountpoint="/ha/c1_hpssdbUserSp1" name="c1_hpssdbUserSp1" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdb_vg-c1_varHpssHpssdb" force_unmount="1" fsid="55384" fstype="gfs2" mountpoint="/ha/c1_varHpssHpssdb" name="c1_varHpssHpssdb" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdblog_vg-c1_db2LogCfg" force_unmount="1" fsid="7401" fstype="gfs2" mountpoint="/ha/c1_db2LogCfg" name="c1_db2LogCfg" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdblog_vg-c1_db2LogSubs1" force_unmount="1" fsid="65529" fstype="gfs2" mountpoint="/ha/c1_db2LogSubs1" name="c1_db2LogSubs1" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdblogm_vg-c1_db2LogMCfg" force_unmount="1" fsid="30927" fstype="gfs2" mountpoint="/ha/c1_db2LogMCfg" name="c1_db2LogMCfg" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/c1_hpssdblogm_vg-c1_db2LogMSubs1" force_unmount="1" fsid="47193" fstype="gfs2" mountpoint="/ha/c1_db2LogMSubs1" name="c1_db2LogMSubs1" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m1_hpss_vg-m1_varHpss" force_unmount="1" fsid="19005" fstype="gfs2" mountpoint="/ha/m1_varHpss" name="m1_varHpss" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m1_hpss_vg-m1_varHpssAdmCor" force_unmount="1" fsid="17130" fstype="gfs2" mountpoint="/ha/m1_varHpssAdmCor" name="m1_varHpssAdmCor" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m2_hpss_vg-m2_hpssSource" force_unmount="1" fsid="32169" fstype="gfs2" mountpoint="/ha/m2_hpssSource" name="m2_hpssSource" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m2_hpss_vg-m2_varHpss" force_unmount="1" fsid="30456" fstype="gfs2" mountpoint="/ha/m2_varHpss" name="m2_varHpss" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m2_hpss_vg-m2_varHpssAdmCor" force_unmount="1" fsid="10387" fstype="gfs2" mountpoint="/ha/m2_varHpssAdmCor" name="m2_varHpssAdmCor" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/v1_hpss_vg-v1_hpssSource" force_unmount="1" fsid="46624" fstype="gfs2" mountpoint="/ha/v1_hpssSource" name="v1_hpssSource" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/v1_hpss_vg-v1_varHpss" force_unmount="1" fsid="46980" fstype="gfs2" mountpoint="/ha/v1_varHpss" name="v1_varHpss" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/v1_hpss_vg-v1_varHpssAdmCor" force_unmount="1" fsid="22473" fstype="gfs2" mountpoint="/ha/v1_varHpssAdmCor" name="v1_varHpssAdmCor" self_fence="1"/><br>
            <clusterfs device="/dev/mapper/m1_hpss_vg-m1_hpssSource" force_unmount="1" fsid="44889" fstype="gfs2" mountpoint="/ha/m1_hpssSource" name="m1_hpssSource" self_fence="1"/><br>
        </resources><br>        <service autostart="1" domain="fd_core1" exclusive="1" name="core1" recovery="relocate"><br>            <ip ref="192.168.2.40"/><br>
            <ip ref="10.10.1.74"/><br>            <script ref="ha-hpss-core1"/><br>            <clusterfs fstype="gfs" ref="c1_db2Backup"/><br>            <clusterfs fstype="gfs" ref="c1_hpssSource"/><br>
            <clusterfs fstype="gfs" ref="c1_varHpss"/><br>            <clusterfs fstype="gfs" ref="c1_varHpssAdmCor"/><br>            <clusterfs fstype="gfs" ref="c1_optIbmDb2V95"/><br>
            <clusterfs fstype="gfs" ref="c1_hpssdbUserSp1"/><br>            <clusterfs fstype="gfs" ref="c1_varHpssHpssdb"/><br>            <clusterfs fstype="gfs" ref="c1_db2LogCfg"/><br>
            <clusterfs fstype="gfs" ref="c1_db2LogSubs1"/><br>            <clusterfs fstype="gfs" ref="c1_db2LogMCfg"/><br>            <clusterfs fstype="gfs" ref="c1_db2LogMSubs1"/><br>
        </service><br>        <service autostart="1" domain="fd_mover1" exclusive="1" name="mover1" recovery="relocate"><br>            <ip ref="192.168.2.41"/><br>
            <ip ref="10.10.1.75"/><br>            <script ref="ha-hpss-mover1"/><br>            <clusterfs fstype="gfs" ref="m1_hpssSource"/><br>            <clusterfs fstype="gfs" ref="m1_varHpss"/><br>
            <clusterfs fstype="gfs" ref="m1_varHpssAdmCor"/><br>        </service><br>        <service autostart="1" domain="fd_mover2" exclusive="1" name="mover2" recovery="relocate"><br>
            <ip ref="192.168.2.42"/><br>            <ip ref="10.10.1.76"/><br>            <script ref="ha-hpss-mover2"/><br>            <clusterfs fstype="gfs" ref="m2_hpssSource"/><br>
            <clusterfs fstype="gfs" ref="m2_varHpss"/><br>            <clusterfs fstype="gfs" ref="m2_varHpssAdmCor"/><br>        </service><br>        <service autostart="1" domain="fd_vfs1" exclusive="1" name="vfs1" recovery="relocate"><br>
            <ip ref="192.168.2.43"/><br>            <ip ref="10.10.1.77"/><br>            <script ref="ha-hpss-vfs1"/><br>            <clusterfs fstype="gfs" ref="v1_hpssSource"/><br>
            <clusterfs fstype="gfs" ref="v1_varHpss"/><br>            <clusterfs fstype="gfs" ref="v1_varHpssAdmCor"/><br>        </service><br>    </rm><br>
</cluster><br><br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
Finally, are you my chance using the HA-LVM stuff to manage disks<br>
across nodes or are you using GFS?<br></blockquote><div><br>The filesystems are all GFS2.<br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>
<br>
As I said above, and you clearly agree, something is not right and the<br>
more information you can share, the better.<br>
<br>
<br>
<br>
<br>
Okham was right for the most part.<br></blockquote><div><br>For the most part, yes.<br><br>Thanks man.<br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<font color="#888888"><br>
<br>
Corey<br>
</font><div><div></div><div class="h5"><br>
<br>
On Mon, May 17, 2010 at 10:00 PM, Dusty <<a href="mailto:dhoffutt@gmail.com">dhoffutt@gmail.com</a>> wrote:<br>
> Addendum, and a symptom of this issue is that because node1 does not reboot<br>
> and rejoin the cluster, the service it was running never relocates.<br>
><br>
> I left it in this state over the weekend. Came back Monday morning, the<br>
> service had still not relocated.<br>
><br>
> It is not fencing. It is not fencing. Fencing works. Fencing works.<br>
><br>
> On Mon, May 17, 2010 at 3:58 PM, Dusty <<a href="mailto:dhoffutt@gmail.com">dhoffutt@gmail.com</a>> wrote:<br>
>><br>
>> I appreciate the help - but I'm saying the same thing for like the fourth<br>
>> or fifth time now.<br>
>><br>
>> Fencing is working well. All cluster nodes are able to communicate to the<br>
>> fence device (APC PDU).<br>
>><br>
>> Another example. The cluster is quorate with five nodes and four running<br>
>> services. Am pulling the plug on node1. I need service1, that happens to be<br>
>> running on node1 right now, to relocate ASAP - not after node1 has rebooted.<br>
>> Node3 is a member of the cluster and is available to accept a service<br>
>> relocation.<br>
>><br>
>> I have cluster ssh logged into all nodes and am tailing their<br>
>> /var/log/messages file.<br>
>><br>
>> 14:57 "Pulling the plug" on node1 now (really just turning off the<br>
>> electrical port on the APC).<br>
>> About five seconds later....<br>
>> 14:58:00 node2 fenced[7584] fencing node "192.168.1.1"<br>
>> 14:58:05 node2 fenced[7584] fence "192.168.1.1" success<br>
>> --- Right now the service SHOULD be being relocated - but it doesn't! ---<br>
>> -- a few minutes later, node1 has rebooted after being successfully fenced<br>
>> via node2 operating the APC PDU.<br>
>> 15:03:43 node3 clurgmgrd[4813]: <notice> Recovering failed service<br>
>> service:service1<br>
>><br>
>> Second test now - doing the exact same thing, but this time really pulling<br>
>> the plug on node1.<br>
>><br>
>> Everything happens the same except node2 fencing node1 has no effect<br>
>> because I've simulated a complete node failure on node1. It is not going to<br>
>> boot.<br>
>><br>
>><br>
>> On Sat, May 15, 2010 at 1:25 PM, Corey Kovacs <<a href="mailto:corey.kovacs@gmail.com">corey.kovacs@gmail.com</a>><br>
>> wrote:<br>
>>><br>
>>> The reason I was pointing at the fencing config is that the service<br>
>>> will only re-locate when fenced is able to confirm that the offending<br>
>>> node has been fenced. If this can't happen, then services will not<br>
>>> relocate since the cluster doesn't know the state of all the nodes. If<br>
>>> a node get's an anvil dropped on it, then it should stop responding<br>
>>> and the cluster should then try to invoke the fence on that node to<br>
>>> make sure that it is indeed dead, even if it only cycles the power<br>
>>> port for n already dead node.<br>
>>><br>
>>> Given you description you should experience the same "problem" if you<br>
>>> simply turn the node off. Nomally, when you turn the power off (not<br>
>>> pull the plug) then boot the node, the cluster either should have<br>
>>> aleady fenced the node, or it will fence as it's booting. Looks odd<br>
>>> but it's correct since the cluster has to get things to a known state.<br>
>>><br>
>>> After the fence and before the node boots, services should start<br>
>>> migrating. All of this you probably know but it's worth saying anwyay.<br>
>>><br>
>>> Basically, if your services only migrate after the node boots up, then<br>
>>> I believe fencing is not working properly. The services should migrate<br>
>>> while the node is booting or even before.<br>
>>><br>
>>> So it appears to me that when you power the apc yourself, or pull the<br>
>>> plug on the node, you have the same condition.<br>
>>><br>
>>> The way to really testing fencing, is to watch the logs on a node and<br>
>>> issue<br>
>>><br>
>>> cman_tool kill <cluster memner> and tell cman to fence the node.<br>
>>><br>
>>> One thought, can all your cluster nodes talk the APC at all times?<br>
>>><br>
>>><br>
>>> -Corey<br>
>>><br>
>>><br>
>>><br>
>>><br>
>>> On Sat, May 15, 2010 at 5:50 PM, Dusty <<a href="mailto:dhoffutt@gmail.com">dhoffutt@gmail.com</a>> wrote:<br>
>>> > Fencing works great - no problems there. The APC PDU responds<br>
>>> > beautifully to<br>
>>> > any node's attempt to fence.<br>
>>> ><br>
>>> > The issue is this:<br>
>>> ><br>
>>> > The service only relocates after the fenced node reboots and rejoins<br>
>>> > the<br>
>>> > cluster. Then the service relocates to another node. This happens well<br>
>>> > and<br>
>>> > without fail.<br>
>>> ><br>
>>> > But what if the node that was fenced refuses to boot back up because,<br>
>>> > say an<br>
>>> > anvil fell out of the sky and smashed it, or its motherboard fried?<br>
>>> ><br>
>>> > This is what I am simulating by pulling the plug on a node that happens<br>
>>> > to<br>
>>> > be running a service. The service will not relocate until the failed<br>
>>> > node<br>
>>> > has rebooted.<br>
>>> ><br>
>>> > I don't want that. I want the service to relocate ASAP regardless of if<br>
>>> > the<br>
>>> > failed node reboots or not.<br>
>>> ><br>
>>> > Thank you so much for your consideration.<br>
>>> ><br>
>>> > --<br>
>>> > Linux-cluster mailing list<br>
>>> > <a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
>>> > <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
>>> ><br>
>>><br>
>>> --<br>
>>> Linux-cluster mailing list<br>
>>> <a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
>>> <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
>><br>
><br>
><br>
> --<br>
> Linux-cluster mailing list<br>
> <a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
> <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
><br>
<br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
</div></div></blockquote></div><br>