<div dir="ltr"><div class="gmail_default" style=""><div class="gmail_default" style=""><font face="verdana, sans-serif">Hi all,</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">Did any ipa/sssd developer had a chance to take a look at this issue? </font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">Updating to the latest version available for CentOS 7 didn't fix it:</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-debuginfo-4.2.0-15.0.1.el7_2.6.1.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-python-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-server-dns-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">sssd-ipa-1.13.0-40.el7_2.9.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">python-libipa_hbac-1.13.0-40.el7_2.9.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-admintools-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-server-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">libipa_hbac-1.13.0-40.el7_2.9.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-server-trust-ad-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">ipa-client-4.2.0-15.0.1.el7.centos.17.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">389-ds-base-libs-1.3.4.0-32.el7_2.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">389-ds-base-1.3.4.0-32.el7_2.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">389-ds-base-debuginfo-1.3.4.0-30.el7_2.x86_64</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">Please let me know if you need more information or how I can help to get it fixed.</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif"><br></font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">Thanks so much,</font></div><div class="gmail_default" style=""><font face="verdana, sans-serif">Guillermo</font></div></div><div class="gmail_extra"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div style="color:rgb(0,0,0);font-family:Times;font-size:medium"><div style="color:rgb(146,145,146);font-size:0.8em"><div style="color:rgb(64,30,108);font-weight:600"><div style="color:rgb(0,0,0);font-size:medium;font-weight:normal;font-family:HelveticaNeue-Light,'Helvetica Neue Light','Helvetica Neue',Helvetica,Arial,'Lucida Grande',sans-serif"><div style="color:rgb(146,145,146);font-size:0.8em"><div style="color:rgb(64,30,108);font-weight:600"><br style="color:rgb(65,64,66);font-family:Lato,sans-serif;font-size:12px;font-weight:normal;line-height:12px"></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
<br><div class="gmail_quote">On Mon, Jun 13, 2016 at 6:30 PM, Rich Megginson <span dir="ltr"><<a href="mailto:rmeggins@redhat.com" target="_blank">rmeggins@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On 06/13/2016 01:13 PM, Guillermo Fuentes wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Rich,<br>
<br>
After I started running the stack traces, the problem hasn't happen as<br>
frequently as it use to but today I was able to get the stack traces.<br>
As they aren't similar I'll send them over to you in a separate email.<br>
<br>
This is what I did to start the stack traces (CentOS 7):<br>
# yum install -y --enablerepo=base-debuginfo 389-ds-base-debuginfo<br>
ipa-debuginfo slapi-nis-debuginfo nspr-debuginfo<br>
# yum install -y gdb<br>
# systemctl stop ipa.service ; sleep 10; systemctl start ipa.service<br>
# mkdir -p /var/log/stacktraces<br>
<br>
Setup crontab to run the following every minute:<br>
gdb -ex 'set confirm off' -ex 'set pagination off' -ex 'thread apply<br>
all bt full' -ex 'quit' /usr/sbin/ns-slapd `pidof ns-slapd` ><br>
/var/log/stacktraces/stacktrace.`date +%s`.txt 2>&1<br>
</blockquote>
<br></span>
It looks similar to <a href="https://fedorahosted.org/389/ticket/48341" rel="noreferrer" target="_blank">https://fedorahosted.org/389/ticket/48341</a> but you already have that fix.<br>
<br>
One of the problems is that ids_sasl_check_bind acquires the connection lock and holds it for a very long time, which causes the main loop to block on that connection, which is similar to the above problem, and also similar to <a href="https://fedorahosted.org/389/ticket/48882" rel="noreferrer" target="_blank">https://fedorahosted.org/389/ticket/48882</a>.  Basically, anything which holds the connection c_mutex lock too long can hang the server.  In your case, this stack trace:<br>
<br>
poll sss_cli_make_request_nochecks sss_cli_check_socket sss_pac_make_request sssdpac_verify krb5int_authdata_verify rd_req_decoded_opt krb5_rd_req_decoded kg_accept_krb5 krb5_gss_accept_sec_context_ext krb5_gss_accept_sec_context gss_accept_sec_context gssapi_server_mech_step sasl_server_step sasl_server_start ids_sasl_check_bind do_bind connection_dispatch_operation _pt_root start_thread clone<br>
<br>
I'm not sure if this particular situation is known/fixed.  Perhaps there is a way to make the poll() called by sss_cli_make_request_nochecks() have a smaller timeout?<br>
<br>
Does this look familiar to any ipa/sssd developer?<div class="HOEnZb"><div class="h5"><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Thank you so much for your help,<br>
<br>
Guillermo<br>
<br>
<br>
<br>
<br>
<br>
<br>
On Wed, Jun 1, 2016 at 6:52 PM, Guillermo Fuentes<br>
<<a href="mailto:guillermo.fuentes@modernizingmedicine.com" target="_blank">guillermo.fuentes@modernizingmedicine.com</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I'm now taking stack traces every minute and waiting for it to hang<br>
again to check it. It happens usually under load but it's<br>
unpredictable. Must likely tomorrow.<br>
GUILLERMO FUENTES<br>
SR. SYSTEMS ADMINISTRATOR<br>
<br>
<a href="tel:561-880-2998%20x1337" value="+15618802998" target="_blank">561-880-2998 x1337</a><br>
<br>
<a href="mailto:guillermo.fuentes@modmed.com" target="_blank">guillermo.fuentes@modmed.com</a><br>
<br>
<br>
<br>
<br>
<br>
<br>
On Wed, Jun 1, 2016 at 2:03 PM, Rich Megginson <<a href="mailto:rmeggins@redhat.com" target="_blank">rmeggins@redhat.com</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On 06/01/2016 10:37 AM, Guillermo Fuentes wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi all,<br>
<br>
We are experiencing a similar issue like the one discussed in the<br>
following thread but we are running FreeIPA 4.2 on CentOS 7.2:<br>
<a href="https://www.redhat.com/archives/freeipa-users/2015-February/msg00205.html" rel="noreferrer" target="_blank">https://www.redhat.com/archives/freeipa-users/2015-February/msg00205.html</a><br>
</blockquote>
<br>
Are your stack traces similar?<br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
LDAP service stops responding to queries (hangs). LDAP connections on<br>
the server climb sometimes up to 10 times the normal amount and load<br>
goes to 0. Then, the connections start to drop until they get to a<br>
normal level and the LDAP service starts to respond to queries again.<br>
This happens in between 3-5 minutes:<br>
<br>
Time,LDAP conn, Opened files(ns-slapd), File<br>
Desc(ns-slapd),Threads(ns-slapd),Load1,Load5,Load15<br>
8:54:03,101,353,216,142,0.43,0.20,0.16<br>
8:55:02,108,359,221,142,0.19,0.18,0.15<br>
8:56:03,110,361,224,142,0.07,0.15,0.14<br>
8:57:14,117,383,246,142,0.15,0.16,0.15<br>
8:58:04,276,371,234,142,0.05,0.13,0.14<br>
8:59:05,469,371,234,142,0.02,0.11,0.13<br>
9:00:08,719,371,234,142,0.01,0.09,0.12<br>
9:01:18,1060,371,234,142,0.00,0.07,0.12<br>
9:02:10,742,371,233,142,0.10,0.09,0.12<br>
9:03:06,365,372,235,142,0.13,0.10,0.13<br>
9:04:04,262,379,242,142,0.87,0.29,0.19<br>
9:05:02,129,371,233,142,0.51,0.31,0.20<br>
9:06:03,126,377,240,142,0.42,0.33,0.22<br>
9:07:03,125,377,238,142,0.17,0.27,0.21<br>
<br>
Nothing is logged in the errors log file of the server having the<br>
problem (ipa1 as an example).<br>
In the replicas this is logged:<br>
8:59:05 -0400] NSMMReplicationPlugin - agmt="cn=<a href="http://meToipa1.example.com" rel="noreferrer" target="_blank">meToipa1.example.com</a>"<br>
(ipa1:389): Unable to receive the response for a startReplication<br>
extended operation to consumer (Timed out). Will retry later.<br>
9:01:05 -0400] NSMMReplicationPlugin - agmt="cn=<a href="http://meToipa1.example.com" rel="noreferrer" target="_blank">meToipa1.example.com</a>"<br>
(ipa1:389): Unable to receive the response for a startReplication<br>
extended operation to consumer (Timed out). Will retry later.<br>
<br>
Nothing is logged in the access log file until after ns-slapd starts<br>
responding again:<br>
...<br>
8:57:00 -0400] conn=12384 fd=234 slot=234 connection from 172.20.0.1<br>
to 172.20.2.45<br>
8:57:00 -0400] conn=12385 fd=235 slot=235 connection from 172.20.0.1<br>
to 172.20.2.45<br>
8:57:00 -0400] conn=12386 fd=236 slot=236 connection from 172.20.0.1<br>
to 172.20.2.45<br>
8:57:00 -0400] conn=12387 fd=237 slot=237 connection from 172.20.0.1<br>
to 172.20.2.45<br>
8:57:00 -0400] conn=10384 op=1227 EXT oid="2.16.840.1.113730.3.5.12"<br>
name="replication-multimaster-extop"<br>
8:57:00 -0400] conn=12324 op=8 RESULT err=0 tag=101 nentries=1 etime=0<br>
8:57:00 -0400] conn=8838 op=2545 EXT oid="2.16.840.1.113730.3.5.12"<br>
name="replication-multimaster-extop"<br>
8:57:00 -0400] conn=8838 op=2545 RESULT err=0 tag=120 nentries=0 etime=0<br>
8:57:00 -0400] conn=10384 op=1227 RESULT err=0 tag=120 nentries=0 etime=0<br>
8:57:00 -0400] conn=12382 op=-1 fd=170 closed - B1<br>
8:57:00 -0400] conn=12383 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
8:57:00 -0400] conn=12384 op=-1 fd=234 closed - B1<br>
8:57:00 -0400] conn=12385 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
8:57:00 -0400] conn=12383 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
8:57:00 -0400] conn=12386 op=-1 fd=236 closed - B1<br>
8:57:00 -0400] conn=12385 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
8:57:00 -0400] conn=12387 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
8:57:00 -0400] conn=12387 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
8:57:00 -0400] conn=12385 op=1 BIND dn="" method=sasl version=3<br>
mech=GSSAPI<br>
8:57:00 -0400] conn=12387 op=1 BIND dn="" method=sasl version=3<br>
mech=GSSAPI<br>
8:57:00 -0400] conn=12385 op=1 RESULT err=14 tag=97 nentries=0<br>
etime=0, SASL bind in progress<br>
8:57:00 -0400] conn=12383 op=1 BIND dn="" method=sasl version=3<br>
mech=GSSAPI<br>
8:57:00 -0400] conn=10384 op=1228 EXT oid="2.16.840.1.113730.3.5.5"<br>
name="Netscape Replication End Session"<br>
8:57:00 -0400] conn=10384 op=1228 RESULT err=0 tag=120 nentries=0 etime=0<br>
8:57:00 -0400] conn=12383 op=1 RESULT err=14 tag=97 nentries=0<br>
etime=0, SASL bind in progress<br>
9:02:00 -0400] conn=12388 fd=170 slot=170 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12389 fd=234 slot=234 SSL connection from<br>
172.20.0.24 to 172.20.2.45<br>
9:02:00 -0400] conn=12390 fd=236 slot=236 connection from local to<br>
/var/run/slapd-EXAMPLE-COM.socket<br>
9:02:00 -0400] conn=12391 fd=238 slot=238 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12392 fd=239 slot=239 SSL connection from<br>
172.20.0.24 to 172.20.2.45<br>
9:02:00 -0400] conn=12393 fd=240 slot=240 connection from local to<br>
/var/run/slapd-EXAMPLE-COM.socket<br>
9:02:00 -0400] conn=12394 fd=241 slot=241 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12395 fd=242 slot=242 SSL connection from<br>
172.20.0.24 to 172.20.2.45<br>
9:02:00 -0400] conn=12396 fd=243 slot=243 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12397 fd=244 slot=244 SSL connection from<br>
172.20.0.24 to 172.20.2.45<br>
9:02:00 -0400] conn=12398 fd=245 slot=245 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12400 fd=247 slot=247 connection from 172.20.0.1<br>
to 172.20.2.45<br>
9:02:00 -0400] conn=12401 fd=248 slot=248 connection from 172.20.0.1<br>
to 172.20.2.45<br>
...<br>
9:02:00 -0400] conn=12390 op=0 BIND dn="" method=sasl version=3<br>
mech=GSSAPI<br>
9:02:00 -0400] conn=12388 op=-1 fd=170 closed - B1<br>
9:02:00 -0400] conn=12393 op=0 BIND dn="" method=sasl version=3<br>
mech=GSSAPI<br>
9:02:00 -0400] conn=12391 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
9:02:00 -0400] conn=12394 op=-1 fd=241 closed - B1<br>
9:02:00 -0400] conn=12391 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
9:02:00 -0400] conn=12396 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
9:02:00 -0400] conn=12396 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
9:02:00 -0400] conn=12398 op=-1 fd=245 closed - B1<br>
9:02:00 -0400] conn=12400 op=0 SRCH base="" scope=0<br>
filter="(objectClass=*)" attrs="supportedSASLMechanisms<br>
defaultnamingcontext namingContexts schemanamingcontext saslrealm"<br>
9:02:00 -0400] conn=12400 op=0 RESULT err=0 tag=101 nentries=1 etime=0<br>
9:02:00 -0400] conn=12401 op=-1 fd=248 closed - B1<br>
9:02:00 -0400] conn=12391 op=1 ABANDON targetop=NOTFOUND msgid=1<br>
9:02:00 -0400] conn=12396 op=1 ABANDON targetop=NOTFOUND msgid=1<br>
9:02:00 -0400] conn=12400 op=1 ABANDON targetop=NOTFOUND msgid=1<br>
9:02:00 -0400] conn=12391 op=2 UNBIND<br>
9:02:00 -0400] conn=12396 op=2 UNBIND<br>
9:02:00 -0400] conn=12391 op=2 fd=238 closed - U1<br>
9:02:00 -0400] conn=12396 op=2 fd=243 closed - U1<br>
9:02:00 -0400] conn=12400 op=2 UNBIND<br>
9:02:00 -0400] conn=12400 op=2 fd=247 closed - U1<br>
...<br>
<br>
<br>
Environment:<br>
# cat /etc/redhat-release<br>
CentOS Linux release 7.2.1511 (Core)<br>
<br>
# rpm -qa ipa*<br>
ipa-server-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
ipa-python-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
ipa-admintools-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
ipa-server-trust-ad-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
ipa-client-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
ipa-server-dns-4.2.0-15.0.1.el7.centos.6.1.x86_64<br>
<br>
# rpm -qa 389*<br>
389-ds-base-libs-1.3.4.0-30.el7_2.x86_64<br>
389-ds-base-1.3.4.0-30.el7_2.x86_64<br>
<br>
We have 4 FreeIPA servers with replication working fine between them.<br>
ipa1 is handling LDAP authentication for +400 clients and has been<br>
tunned as recommended per<br>
<br>
<a href="https://access.redhat.com/documentation/en-US/Red_Hat_Directory_Server/8.2/html/Performance_Tuning_Guide/system-tuning.html" rel="noreferrer" target="_blank">https://access.redhat.com/documentation/en-US/Red_Hat_Directory_Server/8.2/html/Performance_Tuning_Guide/system-tuning.html</a><br>
<br>
Is this a known issue?<br>
Any idea what can be causing ns-slapd to hang?<br>
<br>
Thanks in advance!<br>
<br>
Guillermo<br>
<br>
</blockquote>
--<br>
Manage your subscription for the Freeipa-users mailing list:<br>
<a href="https://www.redhat.com/mailman/listinfo/freeipa-users" rel="noreferrer" target="_blank">https://www.redhat.com/mailman/listinfo/freeipa-users</a><br>
Go to <a href="http://freeipa.org" rel="noreferrer" target="_blank">http://freeipa.org</a> for more info on the project<br>
</blockquote></blockquote></blockquote>
<br>
<br>
</div></div></blockquote></div><br></div></div>