Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

DATA FIREHOSE (LAST 24 HRS)
$0.2/ 1K HTMLs
데이터 전문가와 상담하기
포함 사항:
  • Fresh data - up to 24 hours
  • ~1 hour delivery (depending on snapshot size)
  • 고급 필터링이 가능한 API 액세스 (도메인, 카테고리, 날짜, 언어, 국가, 경로)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
  • 24/7 지원
  • 대규모 데이터 필요 시 할인
Best for: Continuously refreshed data pipelines
Common use case:
  • AI search & analytics pipelines requiring up-to-date content
  • Aggregated Web Unlocker and SERP cache - updated hourly
  • Continuous web monitoring and indexing
Archived data (Over 24 hrs)
$1/ 1K HTMLs
데이터 전문가와 상담하기
포함 사항:
  • Historical data - Over 24 hours
  • Minimum 2 days delivery (depending on snapshot size)
  • 고급 필터링이 가능한 API 액세스 (도메인, 카테고리, 날짜, 언어, 국가, 경로)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
  • 24/7 지원
  • 대규모 데이터 필요 시 할인
Best for: Historical data at scale
Common use case:
  • AI model training data backfilling at scale
  • Reproducible historical snapshots for research & indexing
  • Auditing or analyzing past web content across domains
* 대용량 데이터, 장기 약정 또는 여러 스크레이퍼 프로젝트에 대한 볼륨 할인이 제공됩니다
다음 결제 방법을 받습니다:

Customer favorite features

  • 페타바이트 규모의 저장소
  • 전체 HTML 페이지 및 메타데이터
  • 고급 필터링 및 검색
  • 일일 ~2.5 PB 추가
  • 텍스트, 이미지, 동영상 및 오디오
  • 유연한 전송 옵션
  • 일일 5T+ 텍스트 토큰 추가
  • API 우선 접근
  • AI 준비 데이터
  • 일일 25억+ 이미지/동영상 URL 추가
  • 유지보수 불필요
  • 99.99% 가동 시간 + 24/7 지원
STREAMLINED

AWS Marketplace를 통한 결제

AWS 약정 충족을 위해 구매를 활용하고 한 곳에서 간소화된 조달 및 청구를 즐기세요. 파트너에 대한 AWS의 강력한 검증 및 규정 준수 확인의 혜택을 누리세요.

COMPLIANT

업계 선도적인 규정 준수

당사의 개인정보 보호 관행은 EU 데이터 보호 규제 프레임워크, GDPR 및 CCPA를 포함한 데이터 보호법을 준수하며, 개인정보 권리 행사 요청 등을 존중합니다.

무엇이 필요한지 잘 모르시나요?

Archive API FAQ

데이터 파이어호스는 수집되는 실시간 웹 데이터의 지속적인 스트림(일일 약 10억 건 수집)을 제공하며, 활성 모니터링, 가격 추적 및 지속적인 AI 훈련 파이프라인에 이상적입니다. 웹 아카이브는 6,240억 개 이상의 캐시된 웹 페이지(90PB+)로 구성된 방대한 역사적 저장소에 대한 접근을 제공하여 심층 연구, 백테스팅 및 종단적 분석에 완벽합니다. 많은 기업 팀이 두 가지를 모두 사용합니다: 최신 신호를 위한 파이어호스와 역사적 맥락을 위한 아카이브.

데이터 파이어호스를 통해 즉시 데이터에 접근을 시작할 수 있습니다. API를 통해 데이터 스냅샷을 원활하고 효율적으로 검색, 검색 및 필터링할 수 있습니다.

  • 최근 1일 이내 데이터: 몇 분에서 최대 몇 시간 내에 전송됩니다(스냅샷 크기에 따라 다름)
  • 1일 이상 된 데이터: 처리 및 전송에 몇 시간에서 최대 3일이 소요됩니다(스냅샷 크기에 따라 다름)

아카이브는 기존 워크플로우에 원활하게 통합할 수 있도록 두 가지 전송 옵션을 제공합니다:

  • Amazon S3 버킷: 데이터 스냅샷을 S3 버킷으로 직접 전송받습니다.
  • 웹훅: 시스템에 실시간 통합을 위해 웹훅을 통해 검색합니다.

물론입니다! 데이터 파이어호스와 아카이브 API 모두 데이터를 검색하기 전에 카테고리, 도메인, 날짜, 언어 및 국가별로 필터링할 수 있어 필요한 데이터만 받을 수 있습니다.

아니요, 표준 전송 방법은 비용에 포함되어 있습니다. 데이터 파이어호스와 웹 아카이브 모두 Amazon S3 버킷으로 직접 전송하거나 기존 시스템에 원활하게 통합하기 위해 웹훅을 통해 검색할 수 있습니다. 데이터 파이어호스는 즉각적인 지속적 스트리밍도 지원합니다.

아니요, 사용자 정의 필터링은 유료 부가 기능이 아닌 핵심 기능입니다. 카테고리, 도메인, 날짜, 언어 및 국가별로 엄격한 필터링을 권장합니다. 스트림 또는 아카이브 검색 범위를 철저히 설정하면 전송되는 불필요한 레코드의 총량을 줄여 전체 데이터 비용을 최적화할 수 있습니다.

대규모 웹 데이터를 다룰 때 최신성, 관련성접근성이 핵심입니다. Common Crawl이 웹의 광범위한 역사적 스냅샷을 제공하는 반면, Bright Data의 아카이브 API는 고급 필터링 및 전송 옵션을 갖춘 실시간으로 지속적으로 업데이트되는 데이터를 제공합니다. 비교 내용은 다음과 같습니다:

기능 Bright Data 아카이브 Common Crawl
데이터 수집 실시간으로 공개 웹 데이터를 지속적으로 캡처하여 "현재"에 가까운 결과를 제공합니다. 주기적 웹 크롤링(실시간 아님), 월간 또는 격월로 업데이트됩니다. 데이터가 오래될 수 있습니다
데이터 볼륨 8개월 동안 17.5 PB 수집, 1,180억 페이지 커버(4,000만 도메인의 280억 고유 URL). 주당 ~2.5 PB 및 수십억 개의 고유 URL 추가. 18년에 걸쳐 2,500억 페이지 수집.
웹사이트 커버리지 및 관련성 실제 스크래핑 비즈니스 요구에 기반한 고가치의 관련 웹사이트 데이터에 집중합니다. 오래되거나 품질이 낮은 페이지를 포함하여 무차별적으로 크롤링합니다.
데이터 유형 전체 웹 페이지(JS 렌더링) 98.6% HTML 및 텍스트
필터링 및 전송 카테고리, 도메인, 언어, 날짜 등으로 필터링하는 완전한 검색 및 전송 플랫폼. Amazon S3 또는 웹훅을 통해 전송됩니다. 내장 필터링 또는 전송 기능 없음. 방대한 원시 WARC 파일을 수동으로 처리해야 합니다.