<div dir="ltr"><div><div><div><div><div><div><div><div>Currently Pulp is able to import RPM with filelist up to ~14-15 MB which probably cover most repositories but not all of them.<br><br></div><div>Historically, for each RPM unit several potentially large data snippets are stored in db:<br> - XML snippets for RPM metadata<br></div><div> - parsed filelist<br></div><div> - parsed changelog<br><br></div><div>XML snippets are compressed and so they require much less space than a huge parsed filelist or a changelog.<br></div>Here is the issue [0] to track the effort of eliminating this limitation or at least increasing the size of filelist that Pulp can handle for each RPM.<br><br></div><div>The question is what is the best way to handle the issue, keeping in mind that any substantial change or re-design introduces more risks and efforts to Pulp 2 line and at the same time this won't be an issue in Pulp 3.<br></div><div><br></div>So far the options are:<br></div> 1. Eliminate issue completely (e.g. by using GridFS)<br></div> 2. Increase current limit for filelist by removing parsed version of it from db<br></div> 3. Do not solve it in Pulp2, wait for Pulp3 which won't have this issue at all<br></div> 4. Any other idea/option<br><br></div>As an additional info:<br></div> - some thoughts and options [1]  which were considered several months ago<br><div><div><div><div><div><div><div><div><div><div><div> - by removing parsed filelist (and changelog?) from db we will give a room for a really large RPM metadata. Pulp will be able to import any RPM with uncompressed metadata up to ~200MB (~14-15MB currently). Just for comparison, this is ~1.5 times bigger than the filelists.xml and other.xml together of the whole EPEL7 repo.<br></div><div> - removing data from db ^ will affect at least search endpoints like this [2] where all the data for unit is returned in response.<br></div><div><br><div><div><div><div><div>[0] <a href="https://pulp.plan.io/issues/2747">https://pulp.plan.io/issues/2747</a><br>[1] <a href="https://etherpad.net/p/mongodb_DocumentTooLarge">https://etherpad.net/p/mongodb_DocumentTooLarge</a><br>[2] <a href="http://docs.pulpproject.org/dev-guide/integration/rest-api/repo/content.html#advanced-unit-search">http://docs.pulpproject.org/dev-guide/integration/rest-api/repo/content.html#advanced-unit-search</a><br></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>