Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
신뢰받는 기업 20,000+ 전 세계 고객
Customer favorite features
- 페타바이트 규모의 저장소
- 전체 HTML 페이지 및 메타데이터
- 고급 필터링 및 검색
- 일일 ~2.5 PB 추가
- 텍스트, 이미지, 동영상 및 오디오
- 유연한 전송 옵션
- 일일 5T+ 텍스트 토큰 추가
- API 우선 접근
- AI 준비 데이터
- 일일 25억+ 이미지/동영상 URL 추가
- 유지보수 불필요
- 99.99% 가동 시간 + 24/7 지원
AWS Marketplace를 통한 결제
AWS 약정 충족을 위해 구매를 활용하고 한 곳에서 간소화된 조달 및 청구를 즐기세요. 파트너에 대한 AWS의 강력한 검증 및 규정 준수 확인의 혜택을 누리세요.
업계 선도적인 규정 준수
당사의 개인정보 보호 관행은 EU 데이터 보호 규제 프레임워크, GDPR 및 CCPA를 포함한 데이터 보호법을 준수하며, 개인정보 권리 행사 요청 등을 존중합니다.
무엇이 필요한지 잘 모르시나요?
Archive API FAQ
데이터 파이어호스와 웹 아카이브의 차이점은 무엇인가요?
데이터 파이어호스는 수집되는 실시간 웹 데이터의 지속적인 스트림(일일 약 10억 건 수집)을 제공하며, 활성 모니터링, 가격 추적 및 지속적인 AI 훈련 파이프라인에 이상적입니다. 웹 아카이브는 6,240억 개 이상의 캐시된 웹 페이지(90PB+)로 구성된 방대한 역사적 저장소에 대한 접근을 제공하여 심층 연구, 백테스팅 및 종단적 분석에 완벽합니다. 많은 기업 팀이 두 가지를 모두 사용합니다: 최신 신호를 위한 파이어호스와 역사적 맥락을 위한 아카이브.
데이터에 얼마나 빨리 접근할 수 있나요?
데이터 파이어호스를 통해 즉시 데이터에 접근을 시작할 수 있습니다. API를 통해 데이터 스냅샷을 원활하고 효율적으로 검색, 검색 및 필터링할 수 있습니다.
- 최근 1일 이내 데이터: 몇 분에서 최대 몇 시간 내에 전송됩니다(스냅샷 크기에 따라 다름)
- 1일 이상 된 데이터: 처리 및 전송에 몇 시간에서 최대 3일이 소요됩니다(스냅샷 크기에 따라 다름)
데이터는 어떻게 전송받을 수 있나요?
아카이브는 기존 워크플로우에 원활하게 통합할 수 있도록 두 가지 전송 옵션을 제공합니다:
- Amazon S3 버킷: 데이터 스냅샷을 S3 버킷으로 직접 전송받습니다.
- 웹훅: 시스템에 실시간 통합을 위해 웹훅을 통해 검색합니다.
아카이브 데이터를 필요한 것만 필터링할 수 있나요?
물론입니다! 데이터 파이어호스와 아카이브 API 모두 데이터를 검색하기 전에 카테고리, 도메인, 날짜, 언어 및 국가별로 필터링할 수 있어 필요한 데이터만 받을 수 있습니다.
전송 방법에 따라 추가 요금이 있나요?
아니요, 표준 전송 방법은 비용에 포함되어 있습니다. 데이터 파이어호스와 웹 아카이브 모두 Amazon S3 버킷으로 직접 전송하거나 기존 시스템에 원활하게 통합하기 위해 웹훅을 통해 검색할 수 있습니다. 데이터 파이어호스는 즉각적인 지속적 스트리밍도 지원합니다.
사용자 정의 필터를 데이터에 적용하면 추가 비용이 발생하나요?
아니요, 사용자 정의 필터링은 유료 부가 기능이 아닌 핵심 기능입니다. 카테고리, 도메인, 날짜, 언어 및 국가별로 엄격한 필터링을 권장합니다. 스트림 또는 아카이브 검색 범위를 철저히 설정하면 전송되는 불필요한 레코드의 총량을 줄여 전체 데이터 비용을 최적화할 수 있습니다.
Bright Data의 아카이브는 Common Crawl과 어떻게 다른가요?
대규모 웹 데이터를 다룰 때 최신성, 관련성 및 접근성이 핵심입니다. Common Crawl이 웹의 광범위한 역사적 스냅샷을 제공하는 반면, Bright Data의 아카이브 API는 고급 필터링 및 전송 옵션을 갖춘 실시간으로 지속적으로 업데이트되는 데이터를 제공합니다. 비교 내용은 다음과 같습니다:
| 기능 | Bright Data 아카이브 | Common Crawl |
| 데이터 수집 | 실시간으로 공개 웹 데이터를 지속적으로 캡처하여 "현재"에 가까운 결과를 제공합니다. | 주기적 웹 크롤링(실시간 아님), 월간 또는 격월로 업데이트됩니다. 데이터가 오래될 수 있습니다 |
| 데이터 볼륨 | 8개월 동안 17.5 PB 수집, 1,180억 페이지 커버(4,000만 도메인의 280억 고유 URL). 주당 ~2.5 PB 및 수십억 개의 고유 URL 추가. | 18년에 걸쳐 2,500억 페이지 수집. |
| 웹사이트 커버리지 및 관련성 | 실제 스크래핑 비즈니스 요구에 기반한 고가치의 관련 웹사이트 데이터에 집중합니다. | 오래되거나 품질이 낮은 페이지를 포함하여 무차별적으로 크롤링합니다. |
| 데이터 유형 | 전체 웹 페이지(JS 렌더링) | 98.6% HTML 및 텍스트 |
| 필터링 및 전송 | 카테고리, 도메인, 언어, 날짜 등으로 필터링하는 완전한 검색 및 전송 플랫폼. Amazon S3 또는 웹훅을 통해 전송됩니다. | 내장 필터링 또는 전송 기능 없음. 방대한 원시 WARC 파일을 수동으로 처리해야 합니다. |