<br>Please find /proc/slabinfo from all currently running nodes attached. <br><br>Prior to cat /proc/slabinfo I was impatient and kill -9'd the clurgmgrd PIDs on the failed node. Then I ran /etc/init.d/rgmanager stop, though that operation is still running, "Waiting for services to stop:", with the services still running and operational.
<br><br>Thanks Lon!<br><br><br><div><span class="gmail_quote">On 12/11/06, <b class="gmail_sendername">Lon Hohberger</b> <<a href="mailto:lhh@redhat.com">lhh@redhat.com</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
On Mon, 2006-12-11 at 10:22 -0800, <a href="mailto:aberoham@gmail.com">aberoham@gmail.com</a> wrote:<br>> Another clue -- haldaemon crashed on this node, perhaps at the same<br>> time clurgmgrd started to hang?<br>>
<br>> lastest dmesg entry --<br>> hal[3509]: segfault at 0000000000000000 rip 0000000000400ec7 rsp<br>> 0000007fbfffd7e0 error 4<br>><br>> grep clurgmgrd /var/log/messages --<br>> [snip]<br>> Dec 11 06:39:43 bamf01 clurgmgrd: [7983]: <info>
<br>> Executing /etc/init.d/rsyncd-tiger status<br>> Dec 11 06:39:44 bamf01 clurgmgrd: [7983]: <info><br>> Executing /etc/init.d/httpd.cluster status<br>> Dec 11 06:39:44 bamf01 clurgmgrd: [7983]: <info>
<br>> Executing /etc/init.d/rsyncd-hartigan status<br>> Dec 11 06:41:11 bamf01 clurgmgrd[7983]: <err> #48: Unable to obtain<br>> cluster lock: Connection timed out<br>> Dec 11 06:41:56 bamf01 clurgmgrd[7983]: <err> #50: Unable to obtain
<br>> cluster lock: Connection timed out<br>> [snip]<br><br>Could you check /proc/slabinfo and post it from all nodes?  I think I<br>know what this is.<br><br>-- Lon<br><br><br><br>--<br>Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br><a href="https://www.redhat.com/mailman/listinfo/linux-cluster">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br><br><br></blockquote></div>
<br>