insane-search은 일반적인 웹 스크래핑 도구가 실패하는 사이트에서도 데이터를 추출할 수 있는 Claude Code 플러그인입니다. 403, WAF, CAPTCHA, 빈 SPA, 로그인 월 등 모든 장벽을 뚫는 5단계 탐색 프로세스를 갖추고 있습니다. API 키나 설정이 필요 없으며, 누락된 의존성을 자동으로 설치합니다.

Quick Start

  1. 마켓플레이스 추가
/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git
  1. 플러그인 설치
/plugin install insane-search
  1. Claude Code 재시작

  2. 일반 대화 시작

  • “r/LocalLLaMA에서 트렌딩 보여줘”
  • “@openclaw가 X에 최근 올린 글 보여줘”
  • “X에서 insane-search 관련 게시물 검색해줘”
  • “이 유튜브 영상 요약해줘”
  • “Coupang에서 10만원 미만 키보드 검색해줘”
  • “네이버 블로그 글 읽어줘”
  • “네이버에서 클로드코드 관련 뉴스 찾아줘”
  • “LinkedIn에서 Claude Code 플러그인 관련 글 찾아줘”
  • “blocked”라는 개념 없음 — 모든 사이트에 전체 탐색 체인 적용. Coupang? Coupang falls. LinkedIn? 전체 기사 본문 추출. Yozm? Chrome UA와 완료
  • 정체 스푸핑 내장 — 2단계에서 TLS 지문만 바꾸지 않고 완전한 브라우저 아이덴티티 구축: 홈페이지 쿠키 워밍, 참조자 체인, 로캘 매치 헤더. fmkorea (HTTP 430)와 LinkedIn (로그인 월)도これで突破
  • 의도 라우팅 — “이 URL 가져오기”와 “X에서 이 키워드 검색하기”는 다른 문제. insane-search는 키워드를 먼저 WebSearch나 Naver Search로 처리해 URL을 얻은 후 콘텐츠를 가져옵니다. 두 단계 파이프라인, 자동
  • 무기 자체 설치curl_cffi TLS 지문 바이패스용이 없으면 설치. feedparser? 설치. yt-dlp? 설치. 눈치 채지도 못함
  • 5단계 탐색, 단 1단계 아님 — WebFetch → Jina → curl UA/URL 변형 → TLS 스푸핑 + 아이덴티티 스푸핑 → 실제 브라우저. 이전 단계가 벽에 부딪힐 때만 다음 단계로 진행
  • 숨은 API 발견 — 3단계에서는 페이지만 렌더링하지 않고 브라우저 네트워크 트래픽을 감시해 사이트가 실제로 사용하는 내부 JSON API를 잡아내서 반환
  • 마찰 없는 설정 — API 키, OAuth, 개발자 포털 필요 없음. 공개 엔드포인트와 자동 설치 가능한 라이브러리만으로 실행

How it works

Claude Code가 URL을 가져와야 할 때, insane-search은 이전 단계가 실패하거나 특정 차단 신호를 감지했을 때만 실행되는 4단계 적응형 스케줄러를 실행합니다.

Phase 0: 특수 엔드포인트 인덱스
  ↓ 인덱스에 없거나 실패 시
Phase 1: 경량 프로브 (병렬)
  • WebFetch + Jina Reader
  • Chrome / 모바일 / Googlebot UAs로 curl
  • URL 변형: m.{domain}, .json, /rss, /feed
  • 사이드차: AMP 캐시, archive.today, Wayback (저신뢰)
  ↓ 403/429/WAF 헤더/챌린지 본문 감지 시
Phase 2: TLS 스푸핑 + 아이덴티티 스푸핑
  • curl_cffi로 safari → chrome → firefox 순환
  • 아이덴티티 스푸핑: 홈페이지 쿠키 워밍 → 참조자 체인 → 로캘 헤더
  • 행동적 챌린지 감지 (Akamai _abck) → Phase 3로 스킵
  • 누락되면 자동 설치: pip install curl_cffi
  ↓ TLS 바이패스 실패 또는 JS 챌린지 감지 시
Phase 3: 완전 브라우저
  • Playwright MCP (browser_navigate → snapshot → evaluate)
  • 또한 네트워크 요청을 통해 숨은 API 발견
  ↓ 로그인/페이월 감지 시
종료: "인증 필요" — 아무리 단계를 늘려도 해결 불가

핵심 원리: 어떤 방법을 사전 배제하지 마세요. 의존성이 누락되었다고 방법을 건너뛰지 마세요 — 설치하고 시도하세요. 사이트가 “접근 불가로 알려져 있다”고 건너뛰지 마세요 — 사이트는 변하고, 그 방법이 지금 통할 수 있습니다.

모든 HTML 응답은 또한 OGP 태그와 JSON-LD 구조화 데이터를 스캔해서 — incluso部分响应也能得到标题、摘要、价格或个人资料信息。

What’s in the index

일반 체인으로 자체적으로 발견할 수 없는 특수 엔드포인트만 포함됩니다. 그 외 — 네이버 블로그, Coupang, LinkedIn, Medium, 한국 뉴스 사이트, Substack, 대부분의 포럼 — 은 명시적 항목 없이 적응형 스케줄러가 처리합니다.

플랫폼별 API

플랫폼방법참조
X/Twitter시드니케이션 (타임라인) + oEmbed (단일 트윗) + WebSearch 키워드 검색twitter.md
RedditURL + .json + 모바일 UAjson-api.md
BlueskyAT Protocol (public.api.bsky.app/xrpc/...)public-api.md
Mastodon퍼블릭 API per 인스턴스public-api.md
Hacker NewsFirebase API + Algolia Search (hn.algolia.com/api/v1/search)json-api.md

Contributing

Contributions are welcome. See the repository for guidelines.

License

MIT