Apify Crawlee Python
Python으로 작성된 웹 크롤링 및 브라우저 자동화 라이브러리. AI, LLM, RAG, GPT용 데이터 추출에 최적화되어 있다.
핵심 개요
| 항목 | 값 |
|---|---|
| Stars | 8,824 |
| Forks | 710 |
| 언어 | Python (76.2%), MDX (17.6%), JavaScript (3.9%) |
| 라이선스 | Apache License 2.0 |
| Latest Release | v1.6.2 (2026-04-08) |
| 생성일 | 2024-01-10 |
주요 기능
- 다중 크롤러 지원: BeautifulSoup, Parsel, Playwright 기반 크롤러
- 파일 다운로드: HTML, PDF, JPG, PNG 등 다양한 형식 지원
- 브라우저 자동화: Headful/Headless 모드 모두 지원
- Proxy Rotation: 빌트인 프록시 로테이션
- Bot 방지 우회: 기본 설정만으로도 현대적인 봇 탐지 우회
- 지속적 스토리지: 머신 리더블 포맷으로 데이터 저장
지원 크롤러 유형
BeautifulSoupCrawler
HTTP 라이브러리로 웹페이지 다운로드 후 BeautifulSoup로 파싱. 브라우저 미사용으로 성능 우수. JavaScript 렌더링이 필요한 경우 PlaywrightCrawler 사용.
PlaywrightCrawler
JavaScript-heavy 사이트 처리. headful/headless 모드 지원.
ParselCrawler
Parsel 라이브러리를 사용한 유연한 데이터 추출.
설치
# 전체 기능 설치
python -m pip install 'crawlee[all]'
# Playwright 의존성 설치
playwright install
# 확인
python -c 'import crawlee; print(crawlee.__version__)'관련 도구
- 2026-04-20-insane-search - 다단계 웹 검색 fallback 도구
- 2026-04-25-obscura - Rust 기반 헤드리스 브라우저
- 2026-03-28-dev-browser - Claude Code용 브라우저 자동화 스킬
- moc-dev-tools — Dev Tools MOC