<div dir="ltr"><div dir="ltr">On Mon, Mar 8, 2021 at 12:25 AM Richard W.M. Jones <<a href="mailto:rjones@redhat.com">rjones@redhat.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Sat, Mar 06, 2021 at 11:21:22PM +0200, Nir Soffer wrote:<br>
> Handling extents is complicated, in particular when using async block<br>
> status. But I could not get this working using sync block status; It<br>
> seems that libnbd eats the events on the source, and then we hang<br>
> forever waiting for inflight reads.<br>
<br>
Is this a bug in libnbd?<br></blockquote><div><br></div><div>Maybe, I can try to post a simple reproducer later. Even if this is not a bug</div><div>it would be nice to show how sync calls can be mixed with async call with</div><div>libev (or another event loop).</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
Also is libev going to be faster than poll(2) [as used by nbdcopy] for<br>
copying?  I would imagine that it should make hardly any difference<br>
since we're only using a couple of file descriptors with poll(2) in<br>
nbdcopy, and it's my understanding that poll(2) is only pessimal when<br>
you have to poll large numbers of FDs.<br></blockquote><div><br></div><div>I think that poll or select should be faster for 2 file descriptors, but the</div><div>difference is negligible in this context.</div><div><br></div><div>The advantage in using an event loop is an easier way to extend the application,</div><div>for example I'm using async block status, this will be much harder to do in nbdcopy.</div><div><br></div><div>Another advantage is adding more features like handling signals, timeouts,</div><div>child processes, or other other network protocols (e.g. nbd <-> http).</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
Anyway patch series is fine, ACK.<br>
<br>
Rich.<br>
<br>
> Since getting extents is asynchronous, and starting new request depends<br>
> on being able to get the next extent, requests have now a new a waiting<br>
> state. When a request is started when extents are not available, it is<br>
> marked as waiting. When extents request is completed, we start all<br>
> waiting requests.<br>
> <br>
> Here is example log showing whats going on while copying fedora 32<br>
> image:<br>
> <br>
> The first request detect that we don't have extents yet, so it starts<br>
> aync block status request.<br>
> <br>
> copy-libev: r0: start extents offset=0 count=134217728<br>
> copy-libev: r0: received 14 extents for base:allocation<br>
> copy-libev: r0: extents completed time=0.001098<br>
> <br>
> When extent request completes, we start al waiting requests. The first<br>
> request (r0) looked into the first extent (e0) and consumed all of it:<br>
> <br>
> copy-libev: r0: start request offset=0<br>
> copy-libev: e0: offset=0 len=65536 zero=0<br>
> copy-libev: r0: extent offset=0 len=65536 zero=0<br>
> copy-libev: r0: start read offset=0 len=65536<br>
> <br>
> The second request (r15) is looking into the second extent (e1) and<br>
> consume all of it, starting a zero request:<br>
> <br>
> copy-libev: r15: start request offset=65536<br>
> copy-libev: e1: offset=65536 len=983040 zero=1<br>
> copy-libev: r15: extent offset=65536 len=983040 zero=1<br>
> copy-libev: r15: start zero offset=65536 len=983040<br>
> <br>
> ...<br>
> <br>
> Request (r12) looked into the fifth extent (e4), but since this extent<br>
> was large (10747904), it consume only 1m from it:<br>
> <br>
> copy-libev: r12: start request offset=2097152<br>
> copy-libev: e4: offset=2097152 len=10747904 zero=0<br>
> copy-libev: r12: extent offset=2097152 len=1048576 zero=0<br>
> copy-libev: r12: start read offset=2097152 len=1048576<br>
> <br>
> The next request consumed the next 1m from the same extent (e4):<br>
> <br>
> copy-libev: r11: start request offset=3145728<br>
> copy-libev: e4: offset=3145728 len=9699328 zero=0<br>
> copy-libev: r11: extent offset=3145728 len=1048576 zero=0<br>
> copy-libev: r11: start read offset=3145728 len=1048576<br>
> copy-libev: r10: start request offset=4194304<br>
> <br>
> ..<br>
> <br>
> The last part of extent e4 was consumed, and we switched to extent e5:<br>
> <br>
> copy-libev: r2: start request offset=12582912<br>
> copy-libev: e4: offset=12582912 len=262144 zero=0<br>
> copy-libev: r2: extent offset=12582912 len=262144 zero=0<br>
> copy-libev: r2: start read offset=12582912 len=262144<br>
> copy-libev: r1: start request offset=12845056<br>
> copy-libev: e5: offset=12845056 len=131072 zero=1<br>
> copy-libev: r1: extent offset=12845056 len=131072 zero=1<br>
> copy-libev: r1: start zero offset=12845056 len=131072<br>
> <br>
> ...<br>
> <br>
> Request (r11) consumed the last extent (e13), starting a zero request.<br>
> This free the extents array:<br>
> <br>
> copy-libev: r11: start request offset=133955584<br>
> copy-libev: e13: offset=133955584 len=262144 zero=1<br>
> copy-libev: r11: extent offset=133955584 len=262144 zero=1<br>
> copy-libev: r11: consumed all extents offset=134217728<br>
> copy-libev: r11: start zero offset=133955584 len=262144<br>
> <br>
> ...<br>
> <br>
> Request (r12) started when extents array as cleared, so it started new<br>
> block status request:<br>
> <br>
> copy-libev: r12: start extents offset=134217728 count=134217728<br>
> ...<br>
> copy-libev: r12: received 3 extents for base:allocation<br>
> copy-libev: r12: extents completed time=0.003027<br>
> <br>
> ...<br>
> <br>
> The rest of the flow is same as before. When all requests are done,<br>
> we shutdown the event loop and flush:<br>
> <br>
> copy-libev: r4: request completed offset=6438256640 len=1048576 time=0.000132<br>
> copy-libev: r1: read completed offset=6442385408 len=65536<br>
> copy-libev: r1: start write offset=6442385408 len=65536<br>
> copy-libev: r14: request completed offset=6439305216 len=1048576 time=0.000126<br>
> copy-libev: r8: request completed offset=6440353792 len=1048576 time=0.000151<br>
> copy-libev: r2: request completed offset=6441402368 len=983040 time=0.000143<br>
> copy-libev: r1: request completed offset=6442385408 len=65536 time=0.000142<br>
> copy-libev: flush<br>
> <br>
> Signed-off-by: Nir Soffer <<a href="mailto:nsoffer@redhat.com" target="_blank">nsoffer@redhat.com</a>><br>
> ---<br>
>  examples/copy-libev.c | 232 ++++++++++++++++++++++++++++++++++++++++--<br>
>  1 file changed, 224 insertions(+), 8 deletions(-)<br>
> <br>
> diff --git a/examples/copy-libev.c b/examples/copy-libev.c<br>
> index 84d5c03..3030955 100644<br>
> --- a/examples/copy-libev.c<br>
> +++ b/examples/copy-libev.c<br>
> @@ -41,6 +41,7 @@<br>
>   */<br>
>  #define MAX_REQUESTS 16<br>
>  #define REQUEST_SIZE (1024 * 1024)<br>
> +#define EXTENTS_SIZE (128 * 1024 * 1024)<br>
>  <br>
>  #define MIN(a,b) (a) < (b) ? (a) : (b)<br>
>  <br>
> @@ -62,14 +63,18 @@ struct connection {<br>
>      ev_io watcher;<br>
>      struct nbd_handle *nbd;<br>
>      bool can_zero;<br>
> +    bool can_extents;<br>
>  };<br>
>  <br>
>  struct request {<br>
> +    ev_timer watcher;       /* For starting on next loop iteration. */<br>
>      int64_t offset;<br>
>      size_t length;<br>
> +    bool zero;<br>
>      unsigned char *data;<br>
>      size_t index;<br>
>      ev_tstamp started;<br>
> +    bool waiting;           /* Waiting for extents completion. */<br>
>  };<br>
>  <br>
>  static struct ev_loop *loop;<br>
> @@ -77,11 +82,29 @@ static ev_prepare prepare;<br>
>  static struct connection src;<br>
>  static struct connection dst;<br>
>  static struct request requests[MAX_REQUESTS];<br>
> +<br>
> +/* List of extents received from source server. Using the same format returned<br>
> + * by libnbd, array of uint32_t pairs. The first item is the length of the<br>
> + * extent, and the second is the extent flags.<br>
> + *<br>
> + * The number of extents is extents_len / 2. extents_pos is the index of the<br>
> + * current extent.<br>
> + *<br>
> + * extents_in_progress flag is set when we start asynchronous block status<br>
> + * request.<br>
> + */<br>
> +static uint32_t *extents;<br>
> +static size_t extents_len;<br>
> +static size_t extents_pos;<br>
> +static bool extents_in_progress;<br>
> +<br>
>  static int64_t size;<br>
>  static int64_t offset;<br>
>  static int64_t written;<br>
>  static bool debug;<br>
>  <br>
> +static inline void start_request_soon (struct request *r);<br>
> +static void start_request_cb (struct ev_loop *loop, ev_timer *w, int revents);<br>
>  static void start_request(struct request *r);<br>
>  static void start_read(struct request *r);<br>
>  static void start_write(struct request *r);<br>
> @@ -133,23 +156,206 @@ get_events(struct connection *c)<br>
>          default:<br>
>              return 0;<br>
>      }<br>
> +}<br>
> +<br>
> +static int<br>
> +extent_callback (void *user_data, const char *metacontext, uint64_t offset,<br>
> +                 uint32_t *entries, size_t nr_entries, int *error)<br>
> +{<br>
> +    struct request *r = user_data;<br>
> +<br>
> +    if (strcmp (metacontext, LIBNBD_CONTEXT_BASE_ALLOCATION) != 0) {<br>
> +        DEBUG ("Unexpected meta context: %s", metacontext);<br>
> +        return 1;<br>
> +    }<br>
> +<br>
> +    extents = malloc (nr_entries * sizeof *extents);<br>
> +    if (extents == NULL)<br>
> +        FAIL ("Cannot allocated extents: %s", strerror (errno));<br>
> +<br>
> +    memcpy (extents, entries, nr_entries * sizeof *extents);<br>
> +    extents_len = nr_entries;<br>
> +<br>
> +    DEBUG ("r%d: received %d extents for %s",<br>
> +           r->index, nr_entries / 2, metacontext);<br>
> +<br>
> +    return 1;<br>
> +}<br>
> +<br>
> +static int<br>
> +extents_completed (void *user_data, int *error)<br>
> +{<br>
> +    struct request *r = (struct request *)user_data;<br>
> +    int i;<br>
> +<br>
> +    DEBUG ("r%d: extents completed time=%.6f",<br>
> +           r->index, ev_now (loop) - r->started);<br>
> +<br>
> +    extents_in_progress = false;<br>
> +<br>
> +    if (extents == NULL) {<br>
> +        DEBUG ("r%d: received no extents, disabling extents", r->index);<br>
> +        src.can_extents = false;<br>
> +    }<br>
>  <br>
> +    /* Start requests waiting for extents completion on the next loop<br>
> +     * iteration, to avoid deadlock if we need to start a read.<br>
> +     */<br>
> +    for (i = 0; i < MAX_REQUESTS; i++) {<br>
> +        struct request *r = &requests[i];<br>
> +        if (r->waiting) {<br>
> +            r->waiting = false;<br>
> +            start_request_soon (r);<br>
> +       }<br>
> +    }<br>
>  <br>
> +    return 1;<br>
> +}<br>
> +<br>
> +static bool<br>
> +start_extents (struct request *r)<br>
> +{<br>
> +    size_t count = MIN (EXTENTS_SIZE, size - offset);<br>
> +    int64_t cookie;<br>
> +<br>
> +    if (extents_in_progress) {<br>
> +        r->waiting = true;<br>
> +        return true;<br>
> +    }<br>
> +<br>
> +    DEBUG ("r%d: start extents offset=%ld count=%ld", r->index, offset, count);<br>
> +<br>
> +    cookie = nbd_aio_block_status (<br>
> +        src.nbd, count, offset,<br>
> +        (nbd_extent_callback) { .callback=extent_callback,<br>
> +                                .user_data=r },<br>
> +        (nbd_completion_callback) { .callback=extents_completed,<br>
> +                                    .user_data=r },<br>
> +        0);<br>
> +    if (cookie == -1) {<br>
> +        DEBUG ("Cannot get extents: %s", nbd_get_error ());<br>
> +        src.can_extents = false;<br>
> +        return false;<br>
> +    }<br>
> +<br>
> +    r->waiting = true;<br>
> +    extents_in_progress = true;<br>
> +<br>
> +    return true;<br>
> +}<br>
> +<br>
> +/* Return next extent to process. */<br>
> +static void<br>
> +next_extent (struct request *r)<br>
> +{<br>
> +    uint32_t limit = MIN (REQUEST_SIZE, size - offset);<br>
> +    uint32_t length = 0;<br>
> +    bool is_zero;<br>
> +<br>
> +    assert (extents);<br>
> +<br>
> +    is_zero = extents[extents_pos + 1] & LIBNBD_STATE_ZERO;<br>
> +<br>
> +    while (length < limit) {<br>
> +        DEBUG ("e%d: offset=%ld len=%ld zero=%d",<br>
> +               extents_pos / 2, offset, extents[extents_pos], is_zero);<br>
> +<br>
> +        /* If this extent is too large, steal some data from it to<br>
> +         * complete the request.<br>
> +         */<br>
> +        if (length + extents[extents_pos] > limit) {<br>
> +            uint32_t stolen = limit - length;<br>
> +<br>
> +            extents[extents_pos] -= stolen;<br>
> +            length += stolen;<br>
> +            break;<br>
> +        }<br>
> +<br>
> +        /* Consume the entire extent and start looking at the next one. */<br>
> +        length += extents[extents_pos];<br>
> +        extents[extents_pos] = 0;<br>
> +<br>
> +        if (extents_pos + 2 == extents_len)<br>
> +            break;<br>
> +<br>
> +        extents_pos += 2;<br>
> +<br>
> +        /* If next extent is different, we are done. */<br>
> +        if ((extents[extents_pos + 1] & LIBNBD_STATE_ZERO) != is_zero)<br>
> +            break;<br>
> +    }<br>
> +<br>
> +    assert (length > 0 && length <= limit);<br>
> +<br>
> +    r->offset = offset;<br>
> +    r->length = length;<br>
> +    r->zero = is_zero;<br>
> +<br>
> +    DEBUG ("r%d: extent offset=%ld len=%ld zero=%d",<br>
> +           r->index, r->offset, r->length, r->zero);<br>
> +<br>
> +    offset += length;<br>
> +<br>
> +    if (extents_pos + 2 == extents_len && extents[extents_pos] == 0) {<br>
> +        /* Processed all extents, clear extents. */<br>
> +        DEBUG ("r%d: consumed all extents offset=%ld", r->index, offset);<br>
> +        free (extents);<br>
> +        extents = NULL;<br>
> +        extents_pos = 0;<br>
> +        extents_len = 0;<br>
> +    }<br>
> +}<br>
> +<br>
> +static inline void<br>
> +start_request_soon (struct request *r)<br>
> +{<br>
> +    ev_timer_init (&r->watcher, start_request_cb, 0, 0);<br>
> +    ev_timer_start (loop, &r->watcher);<br>
> +}<br>
> +<br>
> +static void<br>
> +start_request_cb (struct ev_loop *loop, ev_timer *w, int revents)<br>
> +{<br>
> +    struct request *r = (struct request *)w;<br>
> +    start_request (r);<br>
>  }<br>
>  <br>
>  /* Start async copy or zero request. */<br>
>  static void<br>
>  start_request(struct request *r)<br>
>  {<br>
> -    assert (offset < size);<br>
> +    /* Cancel the request if we are done. */<br>
> +    if (offset == size)<br>
> +        return;<br>
>  <br>
>      r->started = ev_now (loop);<br>
> -    r->length = MIN (REQUEST_SIZE, size - offset);<br>
> -    r->offset = offset;<br>
>  <br>
> -    start_read (r);<br>
> -<br>
> -    offset += r->length;<br>
> +    /* If needed, get more extents from server. */<br>
> +    if (src.can_extents && extents == NULL && start_extents (r))<br>
> +        return;<br>
> +<br>
> +    DEBUG ("r%d: start request offset=%ld", r->index, offset);<br>
> +<br>
> +    if (src.can_extents) {<br>
> +        /* Handle the next extent. */<br>
> +        next_extent (r);<br>
> +        if (r->zero) {<br>
> +            if (dst.can_zero) {<br>
> +                start_zero (r);<br>
> +            } else {<br>
> +                memset (r->data, 0, r->length);<br>
> +                start_write (r);<br>
> +            }<br>
> +        } else {<br>
> +            start_read (r);<br>
> +        }<br>
> +    } else {<br>
> +        /* Extents not available. */<br>
> +        r->length = MIN (REQUEST_SIZE, size - offset);<br>
> +        r->offset = offset;<br>
> +        start_read (r);<br>
> +        offset += r->length;<br>
> +    }<br>
>  }<br>
>  <br>
>  static void<br>
> @@ -240,9 +446,11 @@ request_completed (void *user_data, int *error)<br>
>          ev_break (loop, EVBREAK_ALL);<br>
>      }<br>
>  <br>
> -    /* If we have data to read, start a new read. */<br>
> +    /* If we have more work, start a new request on the next loop<br>
> +     * iteration, to avoid deadlock if we need to start a zero or write.<br>
> +     */<br>
>      if (offset < size)<br>
> -        start_request(r);<br>
> +        start_request_soon(r);<br>
>  <br>
>      return 1;<br>
>  }<br>
> @@ -304,11 +512,19 @@ main (int argc, char *argv[])<br>
>  <br>
>      debug = getenv ("COPY_LIBEV_DEBUG") != NULL;<br>
>  <br>
> +    /* Configure soruce to report extents. */<br>
> +<br>
> +    if (nbd_add_meta_context (src.nbd, LIBNBD_CONTEXT_BASE_ALLOCATION))<br>
> +        FAIL ("Cannot add base:allocation: %s", nbd_get_error ());<br>
> +<br>
>      /* Connecting is fast, so use the syncronous API. */<br>
>  <br>
>      if (nbd_connect_uri (src.nbd, argv[1]))<br>
>          FAIL ("Cannot connect to source: %s", nbd_get_error ());<br>
>  <br>
> +    src.can_extents = nbd_can_meta_context (<br>
> +        src.nbd, LIBNBD_CONTEXT_BASE_ALLOCATION) > 0;<br>
> +<br>
>      if (nbd_connect_uri (dst.nbd, argv[2]))<br>
>          FAIL ("Cannot connect to destination: %s", nbd_get_error ());<br>
>  <br>
> -- <br>
> 2.26.2<br>
<br>
-- <br>
Richard Jones, Virtualization Group, Red Hat <a href="http://people.redhat.com/~rjones" rel="noreferrer" target="_blank">http://people.redhat.com/~rjones</a><br>
Read my programming and virtualization blog: <a href="http://rwmj.wordpress.com" rel="noreferrer" target="_blank">http://rwmj.wordpress.com</a><br>
virt-builder quickly builds VMs from scratch<br>
<a href="http://libguestfs.org/virt-builder.1.html" rel="noreferrer" target="_blank">http://libguestfs.org/virt-builder.1.html</a><br>
<br>
</blockquote></div></div>