<div dir="ltr">I’ve been running as much monitoring as possible these last few crashes, thankfully the SSH sessions lock up too, so I can see the last stats. <div><br></div><div>top: looks totally normal when it crashes, maybe 60% CPU util, swap/cache/sys all look normal. </div><div>context switches: seem mostly normal- total of maybe ~4k voluntary, ~300 non-voluntary.</div><div>disk usage: crazy up and down constantly… I use ZFS for the VMs which I’m not entirely ruling out yet… but I think if anything it may contribute to power fluctuations via the disks (4 magnetic total). The entire VM host is on its own regular ext4 drive tho, so hoping that helps rule out ZFS kernel/software issues. </div><div>interrupts: normal</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr">On Wed, May 18, 2016 at 9:24 AM Brett Peckinpaugh <<a href="mailto:bp10@erylflynn.com">bp10@erylflynn.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>Are you monitoring processor utilization? 2 systems like you describe could tax a host. Maybe it is cpu starvation? <br><br><div class="gmail_quote"></div></div><div><div class="gmail_quote">On May 18, 2016 7:47:11 AM PDT, Colin Godsey <<a href="mailto:crgodsey@gmail.com" target="_blank">crgodsey@gmail.com</a>> wrote:</div></div><div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div dir="ltr">I’ve been running a dual gaming VM rig (2x dedicated GPU) for a little bit now, and everything works perfectly except when both VMs are under load, after an hour or so I get a hard crash and/or reboot. It will either reboot itself, or will hang so bad the physical ‘reset’ button on the box doesnt work. <div><br></div><div>There is 0 evidence in the linux logs about the crash, I literally just see one of a few standard cron jobs as the syslog, then the next line is the kernel boot/start-up. Only real evidence I get is that- rarely I can hear windows crash first. Or windows will crash and Ill get maybe another second or 2 of ’top’ before the whole system goes down. I find it extremely odd that there’s some sort of (albeit fast) degradation, but absolutely nothing interesting in the logs.</div><div><br></div><div>So, I’m pretty sure it’s something hardware related- either PSU or my mobo is crap and is underpowered somewhere. During load, there are
about 5 drives, 2 GTX GPUs, and GBe (~200mbps) all under constant load, so it seems likely it could be something chipset related. </div><div><br></div><div><b>So my question is really: is there ANY kind of kernel/vfio software level issue that could cause this crash? Or does this just sound like hardware?</b> I’ve tried several different power configurations at this point, I just want to be as sure as possible it’s hardware before i start replacing more things =\</div><div><br></div><div>This is an up to date Ubuntu Xenial, not really running anything special. I’ve gotten away with running my VMs almost as pure as possible, no funny workarounds or anything. OVMF, Windows 10, hyper-v flags. Skylake i7 @ z170M.</div></div>
<p style="margin-top:2.5em;margin-bottom:1em;border-bottom:1px solid #000"></p></blockquote></div></div><div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><pre><hr><br>vfio-users mailing list<br><a href="mailto:vfio-users@redhat.com" target="_blank">vfio-users@redhat.com</a><br><a href="https://www.redhat.com/mailman/listinfo/vfio-users" target="_blank">https://www.redhat.com/mailman/listinfo/vfio-users</a><br></pre></blockquote></div></div></blockquote></div>