<div dir="ltr">Hello,<div><br></div><div style>I am currently investigating an issue with dlm_controld.</div><div style><br></div><div style>After we did some performance improvements the cpu load of dlm_controld becomes nearly 100% on all 3 nodes and locking goes down from 45.000/s to 3/s ...</div>

<div style><br></div><div style>I have a feeling this has something to do with plock_rate_limit which we disabled in cluster.conf by</div><div style><br></div><div style><div>        <dlm plock_ownership="1" plock_rate_limit="0"/></div>

<div>        <gfs_controld plock_rate_limit="0" /></div><div><br></div><div style>We are still on RHEL 6.2 and I'm not sure if there are major improvements in dlm_controld for RHEL 6.3 (looking at the Github repo of dlm there seem to be quite some improvements in general, e.g. fencing).</div>

<div style><br></div><div style>Would anybody have a suggestion what we could test?</div><div style><br></div><div style>All in all, here are some specs about the systems:</div><div style><br></div><div style>- 3 nodes running RHEL 6.2</div>

<div style>- 128GB Ram</div><div style>- 64 Cores</div><div style>- FCoE SAN</div><div style>- 3 NIC: 1x SAN, 1x LAN, 1x Cluster LAN</div><div style>- mainly running SAS and related jobs<br></div><div style><div>- fencing enabled with fence_ipmilan</div>

<div><br></div><div style>Other performance related settings:</div><div style>- tuned-adm profile enterprise-storage</div><div style>- echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled</div><div style>- blockdev --setra 1024 (for each FC block device)</div>

<div style>- vm.dirty_background_ratio = 0<br></div><div>- vm.vfs_cache_pressure = 0</div><div>- vm.swappiness = 45</div><div>- vm.min_free_kbytes = 1976531</div><div><div>- echo 16384 > /sys/kernel/config/dlm/cluster/lkbtbl_size (set before GFS2 mount)</div>

<div>- echo 16384 > /sys/kernel/config/dlm/cluster/rsbtbl_size (set before GFS2 mount)</div><div>- echo 16384 > /sys/kernel/config/dlm/cluster/dirtbl_size (set before GFS2 mount)</div></div><div><br></div><div style>

With these settings we get quite good performance at the beginning but dlm_controld gets stuck after half an hour or so.</div><div style><br></div><div style>I thought about setting plock_rate_limit=500 or something like this. Do you think this would be a better setting instead of using unlimited?</div>

<div style><br></div><div style><br></div><div style>Cheers,</div><div style>Julian</div><div style><br></div></div></div></div>