Unreliable iterator based incremental parsing

https://github.com/rajatomar788/pywebcopy/blob/9f35b4b6a4da2125e70d8f7a21100de1f09012f4/pywebcopy/parsers.py#L104

Here if it breaks between a `href`, nothing will be further parsed.

See example:

Wrong:

```python
    from lxml import etree

    parser = etree.HTMLPullParser()
    for data in (b'<root><a href="2011-03-13_',  b'135411/">2011-03-13_135411/</a></root>',):
        parser.feed(data)
        for _, elem in parser.read_events():
            print(elem.tag) # nothing
    parser.close()
```

Expected:

```python
    from lxml import etree

    parser = etree.HTMLPullParser()
    for data in (b'<root><a href="2011-03-13_135411/">2011-03-13_135411/</a></root>',):
        parser.feed(data)
        for _, elem in parser.read_events():
            print(elem.tag) # a root
    parser.close()
```

It may be better just to feed all at once.

```python
        parser.feed(source.fp.data)
        for event, element in parser.read_events():
            for child in links(element):
                if child is None:
                    continue
                yield child
```



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Unreliable iterator based incremental parsing #123

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Unreliable iterator based incremental parsing #123

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions