<div dir="ltr"><div>Recently at triage we discussed tasking system improvements. I have mostly good news to share regarding the resolution of those.</div><div><br></div><div>Through postmortem analysis of the system we identified one specific improvement and that got merged today. See the issue description for full details on the failure scenario and the PR that fixed it: <a href="https://pulp.plan.io/issues/7907">https://pulp.plan.io/issues/7907</a></div><div><br></div><div>We also identified an opportunity for Pulp to avoid these types of problems with less human intervention, and I wrote up that additional "health check and recovery" bugfix here: <a href="https://pulp.plan.io/issues/7912">https://pulp.plan.io/issues/7912</a></div><div><br></div><div>@dalley I'm hoping maybe you could consider implementing 7912 if there are no objections or improvements from others.</div><div><br></div><div>The not so great news is we also identified a variety of race conditions stemming from spreading our correctness across two data systems without transactional support "across" them, i.e. postgresql and redis. While ^ specific fixes are great, I believe we will need to work longer term to eliminate both redis and the resource-manager from the architecture to fully close the door on these issues. I will write up a motivation for that separately.</div><div><br></div><div>Any feedback, ideas, or concerns are welcome.</div><div><br></div><div>Cheers,</div><div>Brian</div><div><br></div></div>