Crawlee,用于 Python 的网页抓取和浏览器自动化库,用于构建可靠的爬虫。涵盖了端到端的抓取和爬取,并帮助您快速构建可靠的爬取工具
• 提取 AI、LLM、RAG 或 GPT 需要的数据;
• 支持下载 HTML、PDF、JPG、PNG 和其他文件;
• 适用于BeautifulSoup、Playwright和原始HTTP;
• 有头模式和无头模式;
• 具有代理旋转功能;
项目:github.com/apify/crawlee-python/
主页:crawlee.dev/python/