Вот вам список, выбираем оттуда:
- Пользуюсь:
- urllib
- requests
- urllib3
- httplib2
- socket
- scrapy
- lxml
- cssselect
- html5lib
- feedparser
- xlwt/xlrd
- Python-Markdown
- Splinter
- selenium
- threading
- multiprocessing
- celery
- Twisted
- Tornado
- urllib.parse
- html2text
- OpenCV
- Пользовался:
- grab
- pycurl
- mechanize
- pyspider (щупал только)
- pyquery (по аналогии с phpquery)
- BeautifulSoup
- xhtml2pdf
- fuzzywuzzy
- phonenumbers
- ReportLab
- PyYAML
- NLTK (пытался изучать)
- asyncio
- gevent
lorien/awesome-web-scraping
awesome-web-scraping - List of libraries, tools and APIs for web scraping and data processing.
github.com