Apify Crawlee Python

Python으로 작성된 웹 크롤링 및 브라우저 자동화 라이브러리. AI, LLM, RAG, GPT용 데이터 추출에 최적화되어 있다.

핵심 개요

항목
Stars8,824
Forks710
언어Python (76.2%), MDX (17.6%), JavaScript (3.9%)
라이선스Apache License 2.0
Latest Releasev1.6.2 (2026-04-08)
생성일2024-01-10

주요 기능

  • 다중 크롤러 지원: BeautifulSoup, Parsel, Playwright 기반 크롤러
  • 파일 다운로드: HTML, PDF, JPG, PNG 등 다양한 형식 지원
  • 브라우저 자동화: Headful/Headless 모드 모두 지원
  • Proxy Rotation: 빌트인 프록시 로테이션
  • Bot 방지 우회: 기본 설정만으로도 현대적인 봇 탐지 우회
  • 지속적 스토리지: 머신 리더블 포맷으로 데이터 저장

지원 크롤러 유형

BeautifulSoupCrawler

HTTP 라이브러리로 웹페이지 다운로드 후 BeautifulSoup로 파싱. 브라우저 미사용으로 성능 우수. JavaScript 렌더링이 필요한 경우 PlaywrightCrawler 사용.

PlaywrightCrawler

JavaScript-heavy 사이트 처리. headful/headless 모드 지원.

ParselCrawler

Parsel 라이브러리를 사용한 유연한 데이터 추출.

설치

# 전체 기능 설치
python -m pip install 'crawlee[all]'
 
# Playwright 의존성 설치
playwright install
 
# 확인
python -c 'import crawlee; print(crawlee.__version__)'

관련 도구

출처