insane-search은 일반적인 웹 스크래핑 도구가 실패하는 사이트에서도 데이터를 추출할 수 있는 Claude Code 플러그인입니다. 403, WAF, CAPTCHA, 빈 SPA, 로그인 월 등 모든 장벽을 뚫는 5단계 탐색 프로세스를 갖추고 있습니다. API 키나 설정이 필요 없으며, 누락된 의존성을 자동으로 설치합니다.
Quick Start
- 마켓플레이스 추가
/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git
- 플러그인 설치
/plugin install insane-search
-
Claude Code 재시작
-
일반 대화 시작
- “r/LocalLLaMA에서 트렌딩 보여줘”
- “@openclaw가 X에 최근 올린 글 보여줘”
- “X에서 insane-search 관련 게시물 검색해줘”
- “이 유튜브 영상 요약해줘”
- “Coupang에서 10만원 미만 키보드 검색해줘”
- “네이버 블로그 글 읽어줘”
- “네이버에서 클로드코드 관련 뉴스 찾아줘”
- “LinkedIn에서 Claude Code 플러그인 관련 글 찾아줘”
Why insane-search?
- “blocked”라는 개념 없음 — 모든 사이트에 전체 탐색 체인 적용. Coupang? Coupang falls. LinkedIn? 전체 기사 본문 추출. Yozm? Chrome UA와 완료
- 정체 스푸핑 내장 — 2단계에서 TLS 지문만 바꾸지 않고 완전한 브라우저 아이덴티티 구축: 홈페이지 쿠키 워밍, 참조자 체인, 로캘 매치 헤더. fmkorea (HTTP 430)와 LinkedIn (로그인 월)도これで突破
- 의도 라우팅 — “이 URL 가져오기”와 “X에서 이 키워드 검색하기”는 다른 문제. insane-search는 키워드를 먼저 WebSearch나 Naver Search로 처리해 URL을 얻은 후 콘텐츠를 가져옵니다. 두 단계 파이프라인, 자동
- 무기 자체 설치 —
curl_cffiTLS 지문 바이패스용이 없으면 설치.feedparser? 설치.yt-dlp? 설치. 눈치 채지도 못함 - 5단계 탐색, 단 1단계 아님 — WebFetch → Jina → curl UA/URL 변형 → TLS 스푸핑 + 아이덴티티 스푸핑 → 실제 브라우저. 이전 단계가 벽에 부딪힐 때만 다음 단계로 진행
- 숨은 API 발견 — 3단계에서는 페이지만 렌더링하지 않고 브라우저 네트워크 트래픽을 감시해 사이트가 실제로 사용하는 내부 JSON API를 잡아내서 반환
- 마찰 없는 설정 — API 키, OAuth, 개발자 포털 필요 없음. 공개 엔드포인트와 자동 설치 가능한 라이브러리만으로 실행
How it works
Claude Code가 URL을 가져와야 할 때, insane-search은 이전 단계가 실패하거나 특정 차단 신호를 감지했을 때만 실행되는 4단계 적응형 스케줄러를 실행합니다.
Phase 0: 특수 엔드포인트 인덱스
↓ 인덱스에 없거나 실패 시
Phase 1: 경량 프로브 (병렬)
• WebFetch + Jina Reader
• Chrome / 모바일 / Googlebot UAs로 curl
• URL 변형: m.{domain}, .json, /rss, /feed
• 사이드차: AMP 캐시, archive.today, Wayback (저신뢰)
↓ 403/429/WAF 헤더/챌린지 본문 감지 시
Phase 2: TLS 스푸핑 + 아이덴티티 스푸핑
• curl_cffi로 safari → chrome → firefox 순환
• 아이덴티티 스푸핑: 홈페이지 쿠키 워밍 → 참조자 체인 → 로캘 헤더
• 행동적 챌린지 감지 (Akamai _abck) → Phase 3로 스킵
• 누락되면 자동 설치: pip install curl_cffi
↓ TLS 바이패스 실패 또는 JS 챌린지 감지 시
Phase 3: 완전 브라우저
• Playwright MCP (browser_navigate → snapshot → evaluate)
• 또한 네트워크 요청을 통해 숨은 API 발견
↓ 로그인/페이월 감지 시
종료: "인증 필요" — 아무리 단계를 늘려도 해결 불가
핵심 원리: 어떤 방법을 사전 배제하지 마세요. 의존성이 누락되었다고 방법을 건너뛰지 마세요 — 설치하고 시도하세요. 사이트가 “접근 불가로 알려져 있다”고 건너뛰지 마세요 — 사이트는 변하고, 그 방법이 지금 통할 수 있습니다.
모든 HTML 응답은 또한 OGP 태그와 JSON-LD 구조화 데이터를 스캔해서 — incluso部分响应也能得到标题、摘要、价格或个人资料信息。
What’s in the index
일반 체인으로 자체적으로 발견할 수 없는 특수 엔드포인트만 포함됩니다. 그 외 — 네이버 블로그, Coupang, LinkedIn, Medium, 한국 뉴스 사이트, Substack, 대부분의 포럼 — 은 명시적 항목 없이 적응형 스케줄러가 처리합니다.
플랫폼별 API
| 플랫폼 | 방법 | 참조 |
|---|---|---|
| X/Twitter | 시드니케이션 (타임라인) + oEmbed (단일 트윗) + WebSearch 키워드 검색 | twitter.md |
URL + .json + 모바일 UA | json-api.md | |
| Bluesky | AT Protocol (public.api.bsky.app/xrpc/...) | public-api.md |
| Mastodon | 퍼블릭 API per 인스턴스 | public-api.md |
| Hacker News | Firebase API + Algolia Search (hn.algolia.com/api/v1/search) | json-api.md |
Contributing
Contributions are welcome. See the repository for guidelines.
License
MIT