Hi Dominic,<br><br>Yes the errors are only belongs to passive path. <br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
------------------------------<br>
<br>
Message: 3<br>
Date: Tue, 21 Jun 2011 18:22:49 +0530<br>
From: dOminic <<a href="mailto:share2dom@gmail.com">share2dom@gmail.com</a>><br>
To: linux clustering <<a href="mailto:linux-cluster@redhat.com">linux-cluster@redhat.com</a>><br>
Subject: Re: [Linux-cluster] Cluster Failover Failed<br>
Message-ID: <BANLkTi=bAtD8BYp4_T5ksir=<a href="mailto:dRSAO2dq9Q@mail.gmail.com">dRSAO2dq9Q@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
Hi,<br>
<br>
Btw, how many HBAs are present in your box ? . Problem is with scsi3 only ?.<br>
<br>
Refer <a href="https://access.redhat.com/kb/docs/DOC-2991" target="_blank">https://access.redhat.com/kb/docs/DOC-2991</a> , then set the filter.<br>
Also, I would suggest you to open ticket with Linux vendor if IO errors are<br>
belongs to Active paths.<br>
<br>
Pointed IO errors are belongs to disk that in passive paths group ?. you can<br>
verify the same in multipath-ll output .<br>
<br>
regards,<br>
<br>
On Sun, Jun 19, 2011 at 10:03 PM, dOminic <<a href="mailto:share2dom@gmail.com">share2dom@gmail.com</a>> wrote:<br>
<br>
> Hi Balaji,<br>
><br>
> Yes, the reported message is harmless ... However, you can try following<br>
><br>
> 1) I would suggest you to set the filter setting in lvm.conf to properly<br>
> scan your mpath* devices and local disks.<br>
> 2) Enable blacklist section in multipath.conf  eg:<br>
><br>
> blacklist {<br>
>        devnode "^(ram|raw|loop|fd|md|dm-|sr|scd|st)[0-9]*"<br>
>        devnode "^hd[a-z]"<br>
> }<br>
><br>
> # multipath -v2<br>
><br>
> Observe the box. Check whether that helps ...<br>
><br>
><br>
> Regards,<br>
><br>
><br>
> On Wed, Jun 15, 2011 at 12:16 AM, Balaji S <<a href="mailto:skjbalaji@gmail.com">skjbalaji@gmail.com</a>> wrote:<br>
><br>
>> Hi,<br>
>> In my setup implemented 10 tow node cluster's which running mysql as<br>
>> cluster service, ipmi card as fencing device.<br>
>><br>
>> In my /var/log/messages i am keep getting the errors like below,<br>
>><br>
>> Jun 14 12:50:48 hostname kernel: end_request: I/O error, dev sdm, sector 0<br>
>> Jun 14 12:50:48 hostname kernel: sd 3:0:2:2: Device not ready: <6>:<br>
>> Current: sense key: Not Ready<br>
>> Jun 14 12:50:48 hostname kernel:     Add. Sense: Logical unit not ready,<br>
>> manual intervention required<br>
>> Jun 14 12:50:48 hostname kernel:<br>
>> Jun 14 12:50:48 hostname kernel: end_request: I/O error, dev sdn, sector 0<br>
>> Jun 14 12:50:48 hostname kernel: sd 3:0:2:4: Device not ready: <6>:<br>
>> Current: sense key: Not Ready<br>
>> Jun 14 12:50:48 hostname kernel:     Add. Sense: Logical unit not ready,<br>
>> manual intervention required<br>
>> Jun 14 12:50:48 hostname kernel:<br>
>> Jun 14 12:50:48 hostname kernel: end_request: I/O error, dev sdp, sector 0<br>
>> Jun 14 12:51:10 hostname kernel: sd 3:0:0:1: Device not ready: <6>:<br>
>> Current: sense key: Not Ready<br>
>> Jun 14 12:51:10 hostname kernel:     Add. Sense: Logical unit not ready,<br>
>> manual intervention required<br>
>> Jun 14 12:51:10 hostname kernel:<br>
>> Jun 14 12:51:10 hostname kernel: end_request: I/O error, dev sdc, sector 0<br>
>> Jun 14 12:51:10 hostname kernel: printk: 3 messages suppressed.<br>
>> Jun 14 12:51:10 hostname kernel: Buffer I/O error on device sdc, logical<br>
>> block 0<br>
>> Jun 14 12:51:10 hostname kernel: sd 3:0:0:2: Device not ready: <6>:<br>
>> Current: sense key: Not Ready<br>
>> Jun 14 12:51:10 hostname kernel:     Add. Sense: Logical unit not ready,<br>
>> manual intervention required<br>
>> Jun 14 12:51:10 hostname kernel:<br>
>> Jun 14 12:51:10 hostname kernel: end_request: I/O error, dev sdd, sector 0<br>
>> Jun 14 12:51:10 hostname kernel: Buffer I/O error on device sdd, logical<br>
>> block 0<br>
>> Jun 14 12:51:10 hostname kernel: sd 3:0:0:4: Device not ready: <6>:<br>
>> Current: sense key: Not Ready<br>
>> Jun 14 12:51:10 hostname kernel:     Add. Sense: Logical unit not ready,<br>
>> manual intervention required<br>
>><br>
>><br>
>> when i am checking the multipath -ll , this all devices are in passive<br>
>> path.<br>
>><br>
>> Environment :<br>
>><br>
>> RHEL 5.4 & EMC SAN<br>
>><br>
>> Please suggest how to overcome this issue. Support will be highly helpful.<br>
>> Thanks in Advance<br>
>><br>
>><br>
>> --<br>
>> Thanks,<br>
>> BSK<br>
>><br>
>> --<br>
>> Linux-cluster mailing list<br>
>> <a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
>> <a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
>><br>
><br>
><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="https://www.redhat.com/archives/linux-cluster/attachments/20110621/e41e841c/attachment.html" target="_blank">https://www.redhat.com/archives/linux-cluster/attachments/20110621/e41e841c/attachment.html</a>><br>

<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Tue, 21 Jun 2011 15:31:13 +0200<br>
From: Miha Valencic <<a href="mailto:miha.valencic@gmail.com">miha.valencic@gmail.com</a>><br>
To: linux clustering <<a href="mailto:linux-cluster@redhat.com">linux-cluster@redhat.com</a>><br>
Subject: Re: [Linux-cluster] Troubleshooting service relocation<br>
Message-ID: <BANLkTi=eT93Bv3qeO0+t+EzZP=<a href="mailto:6yDYaV1Q@mail.gmail.com">6yDYaV1Q@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<br>
<br>
Michael, I've configured the logging on RM and am now waiting for it to<br>
switch nodes. Hopefully, I can see a reason why it is relocating.<br>
<br>
Thanks,<br>
 Miha.<br>
<br>
On Sat, Jun 18, 2011 at 11:24 AM, Michael Pye <<a href="mailto:michael@ulimit.org">michael@ulimit.org</a>> wrote:<br>
<br>
> On 17/06/2011 09:13, Miha Valencic wrote:<br>
> > How can I turn on logging or what else can I check?<br>
><br>
> Take a look at this knowledgebase article:<br>
> <a href="https://access.redhat.com/kb/docs/DOC-53500" target="_blank">https://access.redhat.com/kb/docs/DOC-53500</a><br>
><br>
><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="https://www.redhat.com/archives/linux-cluster/attachments/20110621/19a643fd/attachment.html" target="_blank">https://www.redhat.com/archives/linux-cluster/attachments/20110621/19a643fd/attachment.html</a>><br>

<br>
------------------------------<br>
<br>
Message: 5<br>
Date: Tue, 21 Jun 2011 09:57:38 -0400<br>
From: "Nicolas Ross" <<a href="mailto:rossnick-lists@cybercat.ca">rossnick-lists@cybercat.ca</a>><br>
To: "linux clustering" <<a href="mailto:linux-cluster@redhat.com">linux-cluster@redhat.com</a>><br>
Subject: [Linux-cluster] GFS2 fatal: filesystem consistency error<br>
Message-ID: <AD364AF1E9D94C50B96231FB0320B1DE@versa><br>
Content-Type: text/plain; format=flowed; charset="iso-8859-1";<br>
        reply-type=original<br>
<br>
8 node cluster, fiber channel hbas and disks access trough a qlogic fabric.<br>
<br>
I've got hit 3 times with this error on different nodes :<br>
<br>
GFS2: fsid=CyberCluster:GizServer.1: fatal: filesystem consistency error<br>
GFS2: fsid=CyberCluster:GizServer.1: inode = 9582 6698267<br>
GFS2: fsid=CyberCluster:GizServer.1: function = gfs2_dinode_dealloc, file =<br>
fs/gfs2/inode.c, line = 352<br>
GFS2: fsid=CyberCluster:GizServer.1: about to withdraw this file system<br>
GFS2: fsid=CyberCluster:GizServer.1: telling LM to unmount<br>
GFS2: fsid=CyberCluster:GizServer.1: withdrawn<br>
Pid: 2659, comm: delete_workqueu Tainted: G W ---------------- T<br>
2.6.32-131.2.1.el6.x86_64 #1<br>
Call Trace:<br>
[<ffffffffa044ffd2>] ? gfs2_lm_withdraw+0x102/0x130 [gfs2]<br>
[<ffffffffa0425209>] ? trunc_dealloc+0xa9/0x130 [gfs2]<br>
[<ffffffffa04501dd>] ? gfs2_consist_inode_i+0x5d/0x60 [gfs2]<br>
[<ffffffffa0435584>] ? gfs2_dinode_dealloc+0x64/0x210 [gfs2]<br>
[<ffffffffa044e1da>] ? gfs2_delete_inode+0x1ba/0x280 [gfs2]<br>
[<ffffffffa044e0ad>] ? gfs2_delete_inode+0x8d/0x280 [gfs2]<br>
[<ffffffffa044e020>] ? gfs2_delete_inode+0x0/0x280 [gfs2]<br>
[<ffffffff8118cfbe>] ? generic_delete_inode+0xde/0x1d0<br>
[<ffffffffa0432940>] ? delete_work_func+0x0/0x80 [gfs2]<br>
[<ffffffff8118d115>] ? generic_drop_inode+0x65/0x80<br>
[<ffffffffa044cc4e>] ? gfs2_drop_inode+0x2e/0x30 [gfs2]<br>
[<ffffffff8118bf82>] ? iput+0x62/0x70<br>
[<ffffffffa0432994>] ? delete_work_func+0x54/0x80 [gfs2]<br>
[<ffffffff810887d0>] ? worker_thread+0x170/0x2a0<br>
[<ffffffff8108e100>] ? autoremove_wake_function+0x0/0x40<br>
[<ffffffff81088660>] ? worker_thread+0x0/0x2a0<br>
[<ffffffff8108dd96>] ? kthread+0x96/0xa0<br>
[<ffffffff8100c1ca>] ? child_rip+0xa/0x20<br>
[<ffffffff8108dd00>] ? kthread+0x0/0xa0<br>
[<ffffffff8100c1c0>] ? child_rip+0x0/0x20<br>
no_formal_ino = 9582<br>
no_addr = 6698267<br>
i_disksize = 6838<br>
blocks = 0<br>
i_goal = 6698304<br>
i_diskflags = 0x00000000<br>
i_height = 1<br>
i_depth = 0<br>
i_entries = 0<br>
i_eattr = 0<br>
GFS2: fsid=CyberCluster:GizServer.1: gfs2_delete_inode: -5<br>
gdlm_unlock 5,66351b err=-22<br>
<br>
<br>
Only, with different inodes each time.<br>
<br>
After that event, services running on that filesystem are marked failed and<br>
not moved over another node. Any access to that fs yields I/O error. Server<br>
needed to be rebooted to properly work again.<br>
<br>
I did ran a fsck last night on that filesystem, and it did find some errors,<br>
but nothing serious. Lots (realy lots) of those :<br>
<br>
Ondisk and fsck bitmaps differ at block 5771602 (0x581152)<br>
Ondisk status is 1 (Data) but FSCK thinks it should be 0 (Free)<br>
Metadata type is 0 (free)<br>
Fix bitmap for block 5771602 (0x581152) ? (y/n)<br>
<br>
And after completing the fsck, I started back some services, and I got the<br>
same error on another filesystem that is practily empty and used for small<br>
utilities used troughout the cluster...<br>
<br>
What should I do to find the source of this problem ?<br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 6<br>
Date: Tue, 21 Jun 2011 10:42:40 -0400 (EDT)<br>
From: Bob Peterson <<a href="mailto:rpeterso@redhat.com">rpeterso@redhat.com</a>><br>
To: linux clustering <<a href="mailto:linux-cluster@redhat.com">linux-cluster@redhat.com</a>><br>
Subject: Re: [Linux-cluster] GFS2 fatal: filesystem consistency error<br>
Message-ID:<br>
        <<a href="mailto:1036238479.689034.1308667360488.JavaMail.root@zmail06.collab.prod.int.phx2.redhat.com">1036238479.689034.1308667360488.JavaMail.root@zmail06.collab.prod.int.phx2.redhat.com</a>><br>
<br>
Content-Type: text/plain; charset=utf-8<br>
<br>
----- Original Message -----<br>
| 8 node cluster, fiber channel hbas and disks access trough a qlogic<br>
| fabric.<br>
|<br>
| I've got hit 3 times with this error on different nodes :<br>
|<br>
| GFS2: fsid=CyberCluster:GizServer.1: fatal: filesystem consistency<br>
| error<br>
| GFS2: fsid=CyberCluster:GizServer.1: inode = 9582 6698267<br>
| GFS2: fsid=CyberCluster:GizServer.1: function = gfs2_dinode_dealloc,<br>
| file =<br>
| fs/gfs2/inode.c, line = 352<br>
| GFS2: fsid=CyberCluster:GizServer.1: about to withdraw this file<br>
| system<br>
| GFS2: fsid=CyberCluster:GizServer.1: telling LM to unmount<br>
| GFS2: fsid=CyberCluster:GizServer.1: withdrawn<br>
| Pid: 2659, comm: delete_workqueu Tainted: G W ---------------- T<br>
| 2.6.32-131.2.1.el6.x86_64 #1<br>
| Call Trace:<br>
| [<ffffffffa044ffd2>] ? gfs2_lm_withdraw+0x102/0x130 [gfs2]<br>
| [<ffffffffa0425209>] ? trunc_dealloc+0xa9/0x130 [gfs2]<br>
| [<ffffffffa04501dd>] ? gfs2_consist_inode_i+0x5d/0x60 [gfs2]<br>
| [<ffffffffa0435584>] ? gfs2_dinode_dealloc+0x64/0x210 [gfs2]<br>
| [<ffffffffa044e1da>] ? gfs2_delete_inode+0x1ba/0x280 [gfs2]<br>
| [<ffffffffa044e0ad>] ? gfs2_delete_inode+0x8d/0x280 [gfs2]<br>
| [<ffffffffa044e020>] ? gfs2_delete_inode+0x0/0x280 [gfs2]<br>
| [<ffffffff8118cfbe>] ? generic_delete_inode+0xde/0x1d0<br>
| [<ffffffffa0432940>] ? delete_work_func+0x0/0x80 [gfs2]<br>
| [<ffffffff8118d115>] ? generic_drop_inode+0x65/0x80<br>
| [<ffffffffa044cc4e>] ? gfs2_drop_inode+0x2e/0x30 [gfs2]<br>
| [<ffffffff8118bf82>] ? iput+0x62/0x70<br>
| [<ffffffffa0432994>] ? delete_work_func+0x54/0x80 [gfs2]<br>
| [<ffffffff810887d0>] ? worker_thread+0x170/0x2a0<br>
| [<ffffffff8108e100>] ? autoremove_wake_function+0x0/0x40<br>
| [<ffffffff81088660>] ? worker_thread+0x0/0x2a0<br>
| [<ffffffff8108dd96>] ? kthread+0x96/0xa0<br>
| [<ffffffff8100c1ca>] ? child_rip+0xa/0x20<br>
| [<ffffffff8108dd00>] ? kthread+0x0/0xa0<br>
| [<ffffffff8100c1c0>] ? child_rip+0x0/0x20<br>
| no_formal_ino = 9582<br>
| no_addr = 6698267<br>
| i_disksize = 6838<br>
| blocks = 0<br>
| i_goal = 6698304<br>
| i_diskflags = 0x00000000<br>
| i_height = 1<br>
| i_depth = 0<br>
| i_entries = 0<br>
| i_eattr = 0<br>
| GFS2: fsid=CyberCluster:GizServer.1: gfs2_delete_inode: -5<br>
| gdlm_unlock 5,66351b err=-22<br>
|<br>
|<br>
| Only, with different inodes each time.<br>
|<br>
| After that event, services running on that filesystem are marked<br>
| failed and<br>
| not moved over another node. Any access to that fs yields I/O error.<br>
| Server<br>
| needed to be rebooted to properly work again.<br>
|<br>
| I did ran a fsck last night on that filesystem, and it did find some<br>
| errors,<br>
| but nothing serious. Lots (realy lots) of those :<br>
|<br>
| Ondisk and fsck bitmaps differ at block 5771602 (0x581152)<br>
| Ondisk status is 1 (Data) but FSCK thinks it should be 0 (Free)<br>
| Metadata type is 0 (free)<br>
| Fix bitmap for block 5771602 (0x581152) ? (y/n)<br>
|<br>
| And after completing the fsck, I started back some services, and I got<br>
| the<br>
| same error on another filesystem that is practily empty and used for<br>
| small<br>
| utilities used troughout the cluster...<br>
|<br>
| What should I do to find the source of this problem ?<br>
<br>
Hi,<br>
<br>
I believe this is a GFS2 bug we've already solved.<br>
Please contact Red Hat Support.<br>
<br>
Regards,<br>
<br>
Bob Peterson<br>
Red Hat File Systems<br>
<br>
<br>
<br>
------------------------------<br>
<font color="#888888"><br>
--<br>
Linux-cluster mailing list<br>
<a href="mailto:Linux-cluster@redhat.com">Linux-cluster@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/linux-cluster" target="_blank">https://www.redhat.com/mailman/listinfo/linux-cluster</a><br>
<br>
End of Linux-cluster Digest, Vol 86, Issue 19<br>
*********************************************<br>
</font></blockquote><br></div><br><br clear="all"><br>-- <br>Thanks,<br>Balaji S<br>