웹 아카이브 API

Bright Data의 방대한 캐시된 컬렉션에 접근하여 수십억 개의 도메인에서 비용 효율적인 HTML 탐색을 제공합니다. 매주 1PB 이상이 추가되는 최신 데이터 인사이트로 앞서 나가십시오. 이전과는 비교할 수 없는 원활하고 효율적인 데이터 검색을 경험하십시오.

전문가와 상담하세요
archive api
  • 필터링 가능한 메타데이터를 통해 새로운 소스를 발견하세요
  • 모달리티, 언어 또는 도메인별로 정확하게 타겟팅하십시오.
  • 지속적 또는 일회성 요구에 맞춰 맞춤형 데이터셋을 선별합니다.
  • 선택적 주석 및 라벨링 서비스 제공 가능

대규모 웹 데이터 접근

Bright Data의 Archive API는 고급 필터링 및 전달 옵션을 갖춘 실시간으로 지속적으로 업데이트되는 데이터를 제공합니다.

data collection

데이터 수집

공개 웹 데이터를 실시간으로 지속적으로 수집하여 "지금"과 같은 최신 결과를 제공합니다.

data volume

데이터 볼륨

17.5PB의 데이터를 8개월 동안 수집하여 1180억 페이지를 커버했으며, 주당 약 1PB 및 20억 개의 고유 URL이 추가됩니다.

delivery

필터링 및 전달

완전한 검색 및 전달 플랫폼 - 카테고리, 도메인, 언어, 날짜 등으로 필터링 가능. Amazon S3 또는 웹훅을 통해 전달됩니다.
coverage

범위 및 관련성

Archive API는 실제 스크래핑 비즈니스 요구에 기반한 고가치, 관련성 높은 웹사이트 데이터에 중점을 둡니다.

아카이브 API 플레이그라운드

데모 웹 아카이브 검색
예제 도메인으로 우리의 웹 아카이브 API가 작동하는 방식을 확인하세요.
데모 도메인
example.com
시간 범위
최대 연령: 1일
결과 보관
귀하의 아카이브 결과가 여기에 표시됩니다.
"Show Demo Archive Data"를 클릭하여 예제 출력을 보거나 검색 필터를 구성하기
            
          
코드 예제
                
              

SERP API 통합할 준비가 되셨습니까?

강력한 SERP API로 시작하세요. Google, Bing 등에서 실시간 검색 결과에 접근하세요.

아카이브 API로 웹의 한 조각을 가져오세요

수십억 개의 HTML 페이지로 구성된 페타바이트 규모의 웹 아카이브에서 데이터를 추출합니다. 동영상 및 이미지 URL, 100개 이상의 언어로 된 텍스트, 또는 과거 검색 결과 페이지(SERP)를 발견할 수 있습니다.

structured

구조화되고 깔끔하게

일관된 스키마로 사전 처리된 데이터로, AI 모델 훈련 및 추론에 최적화되었습니다.

code examples

코드 예시

AI 워크플로우와의 손쉬운 통합을 위한 즉시 사용 가능한 Python, Node.js, cURL, PHP, Go, Java 및 Ruby 스니펫.

documentation

문서화

ChatGPT, Claude 및 기타 대규모 언어 모델(LLM) 통합을 위한 포괄적인 가이드 및 노트.

                              # 아카이브 검색을 시작하려면 다음 /search 엔드포인트를 사용하십시오.
Endpoint: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search
  -H "Authorization: Bearer $API_KEY"
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}' 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
                              
                            
                              # 특정 쿼리의 상태를 확인하려면. 엔드포인트: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"
                              
                            
                              # 모든 현재 검색 상태 확인. 엔드포인트: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches
  -H "Authorization: Bearer $API_KEY"
                              
                            

아카이브 API 사용 사례

수십억 개의 과거 웹 스냅샷을 통해 콘텐츠 변경 사항을 추적하고 트렌드를 분석하세요. 4천만 개 도메인의 17.5PB 캐시 데이터를 재크롤링 없이 활용하여 종단 연구, 경쟁사 분석, 시장 인텔리전스를 수행할 수 있습니다.
전문가와 상담하세요
deep research
수백만 도메인의 사전 스크래핑 및 JS 렌더링된 콘텐츠로 포괄적인 검색 인덱스를 즉시 구축하세요. 카테고리, 언어, 날짜별로 필터링하여 집중된 인덱스를 생성하면서 인프라 비용을 절감하세요.
전문가와 상담하세요
17.5PB 규모의 깨끗한 웹 데이터로 AI 모델을 훈련하세요. 다양한 출처에서 신선하고 고품질의 콘텐츠를 확보하세요. 매주 1PB가 추가되며, 머신러닝 애플리케이션에 최적화된 형식으로 제공됩니다.
전문가와 상담하세요
data_enrichment_for_ai_models

수십억 개의 도메인에서 원활한 데이터 검색

동영상, 이미지, 오디오 등 다양한 콘텐츠의 URL을 쉽게 발견하고 검색하세요.

FLEXIBLE

엔터프라이즈급 인프라

Bright Data 플랫폼은 전 세계 20,000+개 이상의 기업에 서비스를 제공하며, 99.99% 가동률과 195개국을 커버하는 400M+개의 실제 사용자 IP 접근을 통해 안정성을 보장합니다.

확장 가능

고급 데이터 탐색, 수집 및 처리

프록시 및 차단 해제 인프라 유지 관리 없이 최대의 제어권과 유연성을 확보하세요. CAPTCHA와 차단을 우회하면서 모든 지리적 위치에서 데이터를 손쉽게 수집할 수 있습니다.

STABLE

사용자 워크플로우에 맞춤화

맞춤형 보고서, 대시보드 및 분석을 포함한 구조화되고 검증된 데이터를 과거 크롤링 기록 및 여러 웹사이트에 걸쳐 제공하며, 맞춤형 전달 및 통합 옵션을 활용하세요.

compliance
준수

업계 선도적인 규정 준수

당사의 개인정보 처리 방침은 EU 데이터 보호 규제 프레임워크, GDPR, CCPA를 포함한 데이터 보호 법률을 준수하며, 개인정보 권리 행사 요청 등을 존중합니다.

웹 데이터 수집을 시작하세요. 손쉽게.

아카이브 API FAQ

Archive API는 Bright Data가 제공하는 대규모의 지속적으로 확장되는 캐시 저장소로, 공개 웹 데이터를 대규모로 수집 및 전달하도록 설계되었습니다.

전체 웹 페이지와 메타데이터를 제공하여 AI 훈련, 머신러닝, 대규모 데이터 분석에 이상적입니다.

기존 웹 크롤링과 달리 Archive API는 관련성, 최신성, 사용성을 우선시하여 매일 수집되는 인터넷의 핵심 부분에 대한 접근을 제공합니다.

Bright Data의 Archive API는 출시 후 첫 8개월 동안만 4천만 개 도메인의 280억 개 고유 URL을 포함해 총 17.5PB의 데이터를 수집했습니다.

매주 약 1PB의 신규 데이터와 약 20억 개의 고유 URL을 지속적으로 추가하며, Archive는 AI 및 데이터 기반 애플리케이션에 최적화된 최대 규모의 최신 웹 데이터 저장소로 자리매김하고 있습니다.

당사 아카이브 API를 통해 즉시 데이터 접근이 가능합니다. 이 API를 사용하면 아카이브의 데이터 스냅샷을 원활하고 효율적으로 검색, 조회 및 필터링할 수 있습니다.

지난 3일 이내 데이터: 스냅샷 크기에 따라 수 분에서 최대 몇 시간 이내에 제공됩니다.

3일 이상 경과 데이터: 스냅샷 크기에 따라 처리 및 제공에 몇 시간에서 최대 3일이 소요됩니다.

아카이브는 기존 워크플로에 원활하게 통합될 수 있도록 두 가지 전달 옵션을 제공합니다:

Amazon S3 버킷: 데이터 스냅샷을 S3 버킷에 직접 전달받으세요.

웹훅: 웹훅을 통해 가져와 시스템에 실시간으로 통합하세요.

물론입니다! 아카이브 API는 데이터를 검색하기 전에 카테고리, 도메인, 날짜, 언어, 국가별로 필터링할 수 있어 필요한 정보만 얻을 수 있습니다.