웹 아카이브 API
Bright Data의 방대한 캐시된 컬렉션에 접근하여 수십억 개의 도메인에서 비용 효율적인 HTML 탐색을 제공합니다. 매주 1PB 이상이 추가되는 최신 데이터 인사이트로 앞서 나가십시오. 이전과는 비교할 수 없는 원활하고 효율적인 데이터 검색을 경험하십시오.
- 필터링 가능한 메타데이터를 통해 새로운 소스를 발견하세요
- 모달리티, 언어 또는 도메인별로 정확하게 타겟팅하십시오.
- 지속적 또는 일회성 요구에 맞춰 맞춤형 데이터셋을 선별합니다.
- 선택적 주석 및 라벨링 서비스 제공 가능
신뢰받는 기업 20,000+ 전 세계 고객
대규모 웹 데이터 접근
Bright Data의 Archive API는 고급 필터링 및 전달 옵션을 갖춘 실시간으로 지속적으로 업데이트되는 데이터를 제공합니다.
데이터 수집
공개 웹 데이터를 실시간으로 지속적으로 수집하여 "지금"과 같은 최신 결과를 제공합니다.
데이터 볼륨
17.5PB의 데이터를 8개월 동안 수집하여 1180억 페이지를 커버했으며, 주당 약 1PB 및 20억 개의 고유 URL이 추가됩니다.
필터링 및 전달
범위 및 관련성
아카이브 API 플레이그라운드
아카이브 API로 웹의 한 조각을 가져오세요
수십억 개의 HTML 페이지로 구성된 페타바이트 규모의 웹 아카이브에서 데이터를 추출합니다. 동영상 및 이미지 URL, 100개 이상의 언어로 된 텍스트, 또는 과거 검색 결과 페이지(SERP)를 발견할 수 있습니다.
구조화되고 깔끔하게
일관된 스키마로 사전 처리된 데이터로, AI 모델 훈련 및 추론에 최적화되었습니다.
코드 예시
AI 워크플로우와의 손쉬운 통합을 위한 즉시 사용 가능한 Python, Node.js, cURL, PHP, Go, Java 및 Ruby 스니펫.
문서화
ChatGPT, Claude 및 기타 대규모 언어 모델(LLM) 통합을 위한 포괄적인 가이드 및 노트.
# 아카이브 검색을 시작하려면 다음 /search 엔드포인트를 사용하십시오.
Endpoint: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization: Bearer $API_KEY"
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
-H 'Content-Type: application/json'
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
# 특정 쿼리의 상태를 확인하려면. 엔드포인트: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization: Bearer $API_KEY"
# 모든 현재 검색 상태 확인. 엔드포인트: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Bearer $API_KEY"
아카이브 API 사용 사례
수십억 개의 도메인에서 원활한 데이터 검색
동영상, 이미지, 오디오 등 다양한 콘텐츠의 URL을 쉽게 발견하고 검색하세요.

엔터프라이즈급 인프라
Bright Data 플랫폼은 전 세계 20,000+개 이상의 기업에 서비스를 제공하며, 99.99% 가동률과 195개국을 커버하는 400M+개의 실제 사용자 IP 접근을 통해 안정성을 보장합니다.

고급 데이터 탐색, 수집 및 처리
프록시 및 차단 해제 인프라 유지 관리 없이 최대의 제어권과 유연성을 확보하세요. CAPTCHA와 차단을 우회하면서 모든 지리적 위치에서 데이터를 손쉽게 수집할 수 있습니다.

사용자 워크플로우에 맞춤화
맞춤형 보고서, 대시보드 및 분석을 포함한 구조화되고 검증된 데이터를 과거 크롤링 기록 및 여러 웹사이트에 걸쳐 제공하며, 맞춤형 전달 및 통합 옵션을 활용하세요.
업계 선도적인 규정 준수
당사의 개인정보 처리 방침은 EU 데이터 보호 규제 프레임워크, GDPR, CCPA를 포함한 데이터 보호 법률을 준수하며, 개인정보 권리 행사 요청 등을 존중합니다.
웹 데이터 수집을 시작하세요. 손쉽게.
아카이브 API FAQ
아카이브 API란 무엇인가요?
Archive API는 Bright Data가 제공하는 대규모의 지속적으로 확장되는 캐시 저장소로, 공개 웹 데이터를 대규모로 수집 및 전달하도록 설계되었습니다.
전체 웹 페이지와 메타데이터를 제공하여 AI 훈련, 머신러닝, 대규모 데이터 분석에 이상적입니다.
기존 웹 크롤링과 달리 Archive API는 관련성, 최신성, 사용성을 우선시하여 매일 수집되는 인터넷의 핵심 부분에 대한 접근을 제공합니다.
Bright Data의 Archive API에는 얼마나 많은 데이터가 제공되나요?
Bright Data의 Archive API는 출시 후 첫 8개월 동안만 4천만 개 도메인의 280억 개 고유 URL을 포함해 총 17.5PB의 데이터를 수집했습니다.
매주 약 1PB의 신규 데이터와 약 20억 개의 고유 URL을 지속적으로 추가하며, Archive는 AI 및 데이터 기반 애플리케이션에 최적화된 최대 규모의 최신 웹 데이터 저장소로 자리매김하고 있습니다.
아카이브 데이터는 얼마나 빨리 접근할 수 있나요?
당사 아카이브 API를 통해 즉시 데이터 접근이 가능합니다. 이 API를 사용하면 아카이브의 데이터 스냅샷을 원활하고 효율적으로 검색, 조회 및 필터링할 수 있습니다.
지난 3일 이내 데이터: 스냅샷 크기에 따라 수 분에서 최대 몇 시간 이내에 제공됩니다.
3일 이상 경과 데이터: 스냅샷 크기에 따라 처리 및 제공에 몇 시간에서 최대 3일이 소요됩니다.
데이터는 어떻게 전달받을 수 있나요?
아카이브는 기존 워크플로에 원활하게 통합될 수 있도록 두 가지 전달 옵션을 제공합니다:
Amazon S3 버킷: 데이터 스냅샷을 S3 버킷에 직접 전달받으세요.
웹훅: 웹훅을 통해 가져와 시스템에 실시간으로 통합하세요.
필요한 데이터만 추출하도록 아카이브 데이터를 필터링할 수 있나요?
물론입니다! 아카이브 API는 데이터를 검색하기 전에 카테고리, 도메인, 날짜, 언어, 국가별로 필터링할 수 있어 필요한 정보만 얻을 수 있습니다.