<div dir="ltr">I found a similar issue yesterday while training someone else on Spacewalk.  I noticed some provisioning/patching issues with our systems, and found that a spacewalk-repo-sync job had been stuck since October 1st.  From a technical perspective, I have trouble understanding how a process could be stuck for so long.  On running strace against the process, there was no movement other than a MUTEX call that sat there.  Running lsof against it showed some outbound connections to EC2 addresses in AWS (the CentOS official repos) that seem to have been been stuck for over 2 months.  Again, I can't comprehend why a connection would be stuck that long, as basic TCP settings and other default network concepts would probably drop a connection that was in that state for so long.<div><br></div><div>We don't generally see that in applications and it seems that others are also seeing the issue, so I can only venture to guess it is something that can be addressed at the application level.  At the very least, it would be good to have some mechanism to report when channel synchronization failed, was hung, or timed out.  In my opinion it is better to fail quickly, time out, and notify than to hang indefinitely and let someone stumble across it two months later, and my position is that should be done at the app layer.</div><div><br></div><div>For what it's worth, there may have been other issues at play as well, including database or taskomatic.  However, in initial troubleshooting we found that restarting Taskomatic, the external Postgres database instance (the database, not the server completely), and killing the process out right did not seem to fix the issue.</div></div><br><div class="gmail_quote"><div dir="ltr">On Wed, Dec 12, 2018 at 11:19 AM Dimitri Yioulos <<a href="mailto:dyioulos@netatlantic.com">dyioulos@netatlantic.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">







<div lang="EN-US" link="#0563C1" vlink="#954F72">
<div class="m_3338996001737478255WordSection1">
<p class="MsoNormal"><span style="color:#1f497d">Thanks for the reply, Dennis.<span> 
</span>From what I can gather, <span class="m_3338996001737478255SpellE">taskomatic</span> seems to be working OK.<span> 
</span>The <span class="m_3338996001737478255SpellE">epel</span> repo syncs (for <span class="m_3338996001737478255SpellE">
rhel</span> 6 and <span class="m_3338996001737478255SpellE">rhel</span> 7) are the only ones that are creating this issue.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<div>
<div style="border:none;border-top:solid #e1e1e1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span>From:</span></b><span> <a href="mailto:spacewalk-list-bounces@redhat.com" target="_blank">spacewalk-list-bounces@redhat.com</a> <<a href="mailto:spacewalk-list-bounces@redhat.com" target="_blank">spacewalk-list-bounces@redhat.com</a>>
<b>On Behalf Of </b>Dennis Pittman<br>
<b>Sent:</b> Wednesday, December 12, 2018 10:09 AM</span></p></div></div></div></div><div lang="EN-US" link="#0563C1" vlink="#954F72"><div class="m_3338996001737478255WordSection1"><div><div style="border:none;border-top:solid #e1e1e1 1.0pt;padding:3.0pt 0in 0in 0in"><p class="MsoNormal"><span><br>
<b>To:</b> <a href="mailto:spacewalk-list@redhat.com" target="_blank">spacewalk-list@redhat.com</a><br>
<b>Subject:</b> Re: [Spacewalk-list] Subtask repo-sync failed<u></u><u></u></span></p></div></div></div></div><div lang="EN-US" link="#0563C1" vlink="#954F72"><div class="m_3338996001737478255WordSection1">
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">What is error code 137?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Ans:  Exit Code Number 128+n “Fatal error signal “n” could be generated by “kill -9 $PPID of script” returns comment “script   $? returns 137 (128 + 9)” 
<u></u><u></u></p>
<p class="MsoNormal">So that would more than likely be a red herring.  You need to check the state of taskomatic as it tend to be the primary source of problems of this nature.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">“2018-12-06 08:08:55,736 [DefaultQuartzScheduler_Worker-5] ERROR com.redhat.rhn.taskomatic.task.RepoSyncTask  - Stack trace:org.quartz.JobExecutionException: Command '[/usr/bin/spacewalk-repo-sync, --channel, epel7-x86_64, --type, yum]'
 exited with error code 137”<u></u><u></u></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<div>
<p class="MsoNormal"><b><span style="font-family:"Bradley Hand ITC";color:#1f497d">Dennis J. Pittman
<u></u><u></u></span></b></p>
<p class="MsoNormal"><b><span style="font-family:"Bradley Hand ITC";color:#1f497d">(e)     
<a href="mailto:djpittma@outlook.com" target="_blank">djpittma@outlook.com</a><u></u><u></u></span></b></p>
<p class="MsoNormal"><b><span style="font-family:"Bradley Hand ITC";color:#1f497d">(m)    <a href="tel:(919)%20426-8907" value="+19194268907" target="_blank">919-426-8907</a><u></u><u></u></span></b></p>
<p class="MsoNormal"><b><span style="font-family:"Bradley Hand ITC";color:#1f497d">(a)     310 Acorn Hollow Pl., Durham, NC 27703<u></u><u></u></span></b></p>
</div>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<div>
<div style="border:none;border-top:solid #e1e1e1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b>From:</b> <a href="mailto:spacewalk-list-bounces@redhat.com" target="_blank">
spacewalk-list-bounces@redhat.com</a> [<a href="mailto:spacewalk-list-bounces@redhat.com" target="_blank">mailto:spacewalk-list-bounces@redhat.com</a>]
<b>On Behalf Of </b>Dimitri Yioulos<br>
<b>Sent:</b> Wednesday, December 12, 2018 9:57 AM<br>
<b>To:</b> <a href="mailto:spacewalk-list@redhat.com" target="_blank">spacewalk-list@redhat.com</a><br>
<b>Subject:</b> Re: [Spacewalk-list] Subtask repo-sync failed<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><span style="color:#1f497d">Anybody on this?  It’s making me crazy.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d">Thanks.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d">Dimitri<u></u><u></u></span></p>
<p class="MsoNormal"><span style="color:#1f497d"><u></u> <u></u></span></p>
<div>
<div style="border:none;border-top:solid #e1e1e1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b>From:</b> Dimitri Yioulos <br>
<b>Sent:</b> Thursday, December 06, 2018 9:17 AM<br>
<b>To:</b> <a href="mailto:spacewalk-list@redhat.com" target="_blank">spacewalk-list@redhat.com</a><br>
<b>Subject:</b> Subtask repo-sync failed<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Hi, all.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">For a while now, scheduled repo syncs of with the epel 6 and 7 repositories have produced emails from our Spacewalk 2.8 saying the following:<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Taskomatic bunch repo-sync-bunch was scheduled to run within the repo-sync-1-130 schedule.<u></u><u></u></p>
<p class="MsoNormal">Subtask repo-sync failed.<u></u><u></u></p>
<p class="MsoNormal">For more information check /var/log/rhn/tasko/org1/repo-sync-bunch/repo-sync_10814174_err.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I’ve looked at the error log identified above, the output of which is:<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">2018-12-06 08:08:55,660 [DefaultQuartzScheduler_Worker-5] ERROR com.redhat.rhn.taskomatic.task.RepoSyncTask  - Executing a task threw an exception: org.quartz.JobExecutionException<u></u><u></u></p>
<p class="MsoNormal">2018-12-06 08:08:55,667 [DefaultQuartzScheduler_Worker-5] ERROR com.redhat.rhn.taskomatic.task.RepoSyncTask  - Message: Command '[/usr/bin/spacewalk-repo-sync, --channel, epel7-x86_64, --type, yum]' exited with error code 137<u></u><u></u></p>
<p class="MsoNormal">2018-12-06 08:08:55,670 [DefaultQuartzScheduler_Worker-5] ERROR com.redhat.rhn.taskomatic.task.RepoSyncTask  - Cause: null<u></u><u></u></p>
<p class="MsoNormal">2018-12-06 08:08:55,736 [DefaultQuartzScheduler_Worker-5] ERROR com.redhat.rhn.taskomatic.task.RepoSyncTask  - Stack trace:org.quartz.JobExecutionException: Command '[/usr/bin/spacewalk-repo-sync, --channel, epel7-x86_64, --type, yum]'
 exited with error code 137<u></u><u></u></p>
<p class="MsoNormal">        at com.redhat.rhn.taskomatic.task.RhnJavaJob.executeExtCmd(RhnJavaJob.java:103)<u></u><u></u></p>
<p class="MsoNormal">        at com.redhat.rhn.taskomatic.task.RepoSyncTask.execute(RepoSyncTask.java:70)<u></u><u></u></p>
<p class="MsoNormal">        at com.redhat.rhn.taskomatic.task.RhnJavaJob.execute(RhnJavaJob.java:88)<u></u><u></u></p>
<p class="MsoNormal">        at com.redhat.rhn.taskomatic.TaskoJob.execute(TaskoJob.java:186)<u></u><u></u></p>
<p class="MsoNormal">        at org.quartz.core.JobRunShell.run(JobRunShell.java:216)<u></u><u></u></p>
<p class="MsoNormal">        at org.quartz.simpl.SimpleThreadPool$WorkerThread.run(SimpleThreadPool.java:549)<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">What is error code 137?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<pre><span style="font-size:12.0pt;font-family:"Calibri",sans-serif">Previously, I tried <span style="color:black">removing the schedule with the spacewalk-api (e.g. client.taskomatic.org.unscheduleBunch(key, 'repo-sync-1-130'), and creating it anew.  I’ve made sure that spacewalk-backend-2.8.60-1 is installed.  I’ve searched for any other ideas, but found none.  Help would be greatly appreciated.<u></u><u></u></span></span></pre>
<pre><span style="font-size:12.0pt;font-family:"Calibri",sans-serif;color:black"><u></u> <u></u></span></pre>
<pre><span style="font-size:12.0pt;font-family:"Calibri",sans-serif;color:black">With thanks,<u></u><u></u></span></pre>
<pre><span style="font-size:12.0pt;font-family:"Calibri",sans-serif;color:black"><u></u> <u></u></span></pre>
<pre><span style="font-size:12.0pt;font-family:"Calibri",sans-serif;color:black">Dimitri<u></u><u></u></span></pre>
<p class="MsoNormal"><u></u> <u></u></p>
</div></div>

_______________________________________________<br>
Spacewalk-list mailing list<br>
<a href="mailto:Spacewalk-list@redhat.com" target="_blank">Spacewalk-list@redhat.com</a><br>
<a href="https://www.redhat.com/mailman/listinfo/spacewalk-list" rel="noreferrer" target="_blank">https://www.redhat.com/mailman/listinfo/spacewalk-list</a></blockquote></div>