<div dir="ltr">Hi all,<div><br></div><div>We are using LVM thin in EC2 and recently bumped into an error that seems to indicate metadata corruption. I was hoping someone on the list could clarify what likely happened and point to what we could do to avoid this in the future (any recent patches or other work).</div><div><br></div><div>The error is the following:<br><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947135] device-mapper: thin: dm_thin_insert_block() failed</div><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947153] Buffer I/O error on device dm-315, logical block 2430188</div><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947164] Buffer I/O error on device dm-315, logical block 2430189</div><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947169] Buffer I/O error on device dm-315, logical block 2430190</div><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947174] Buffer I/O error on device dm-315, logical block 2430191</div><div>Sep 27 20:09:37 magtest-ferenc-307-820-3 kernel: [2076275.947182] EXT4-fs warning (device dm-315): ext4_end_bio:317: I/O error writing to inode 1305621 (offset 2429468672 size 16384 starting block 2430188)</div></div><div><br></div><div>The failure in dm_thin_insert_block() repeats 10 times and is followed by the following message:<br>Sep 27 20:09:41 magtest-ferenc-307-820-3 kernel: [2076279.600905] device-mapper: thin: dm_thin_get_highest_mapped_block returned -61<br></div><div><br></div><div>The device mapper error is repeated until the VM was taken offline and the EBS volumes snapshotted. At this point, running thin_check, produces the following:<br><div>examining superblock</div><div>examining devices tree</div><div>  missing devices: [159, 277]</div><div>    bad checksum in btree node</div><div>examining mapping tree</div><div>  missing all mappings for devices: [229, 229]</div><div>    bad checksum in btree nodeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node typeunknown node type</div><div>  thin device 230 is missing mappings [57251, -]</div><div>    invalid key</div></div><div><br></div><div>The missing mappings error is repeated for many devices.</div><div><br></div><div>At this point, would going through the steps of thin_dump/thin_repair remedy this?</div><div><br></div><div>Is there any additional information I can get from the system to understand what happened? I wonder if there was an issue with the underlying EBS storage, but have no way of confirming that at the moment.</div><div><br></div><div>Lastly, this is Ubuntu 12.04 LTS. I did pull in the thin provisioning tools version 0.3.1, but the kernel is 3.8.0 (3.8.0-32-generic) and LVM2 package is:<br><div>  LVM version:     2.02.98(2) (2012-10-15)</div><div>  Library version: 1.02.77 (2012-10-15)</div></div><div><br></div><div>Are there known patches that we may be missing that would remedy some of these issues?</div><div><br></div><div>Thank you,</div><div>Timur</div></div>