Question 1

데이터 파이어호스와 웹 아카이브의 차이점은 무엇인가요?

Accepted Answer

데이터 파이어호스는 수집되는 실시간 웹 데이터의 지속적인 스트림(일일 약 10억 건 수집)을 제공하며, 활성 모니터링, 가격 추적 및 지속적인 AI 훈련 파이프라인에 이상적입니다. 웹 아카이브는 6,240억 개 이상의 캐시된 웹 페이지(90PB+)로 구성된 방대한 역사적 저장소에 대한 접근을 제공하여 심층 연구, 백테스팅 및 종단적 분석에 완벽합니다. 많은 기업 팀이 두 가지를 모두 사용합니다: 최신 신호를 위한 파이어호스와 역사적 맥락을 위한 아카이브.

Question 2

데이터에 얼마나 빨리 접근할 수 있나요?

Accepted Answer

데이터 파이어호스를 통해 즉시 데이터에 접근을 시작할 수 있습니다. API를 통해 데이터 스냅샷을 원활하고 효율적으로 검색, 검색 및 필터링할 수 있습니다.

최근 1일 이내 데이터: 몇 분에서 최대 몇 시간 내에 전송됩니다(스냅샷 크기에 따라 다름)
 	1일 이상 된 데이터: 처리 및 전송에 몇 시간에서 최대 3일이 소요됩니다(스냅샷 크기에 따라 다름)

Question 3

데이터는 어떻게 전송받을 수 있나요?

Accepted Answer

아카이브는 기존 워크플로우에 원활하게 통합할 수 있도록 두 가지 전송 옵션을 제공합니다:

Amazon S3 버킷: 데이터 스냅샷을 S3 버킷으로 직접 전송받습니다.
 	웹훅: 시스템에 실시간 통합을 위해 웹훅을 통해 검색합니다.

Question 4

아카이브 데이터를 필요한 것만 필터링할 수 있나요?

Accepted Answer

물론입니다! 데이터 파이어호스와 아카이브 API 모두 데이터를 검색하기 전에 카테고리, 도메인, 날짜, 언어 및 국가별로 필터링할 수 있어 필요한 데이터만 받을 수 있습니다.

Question 5

전송 방법에 따라 추가 요금이 있나요?

Accepted Answer

아니요, 표준 전송 방법은 비용에 포함되어 있습니다. 데이터 파이어호스와 웹 아카이브 모두 Amazon S3 버킷으로 직접 전송하거나 기존 시스템에 원활하게 통합하기 위해 웹훅을 통해 검색할 수 있습니다. 데이터 파이어호스는 즉각적인 지속적 스트리밍도 지원합니다.

Question 6

사용자 정의 필터를 데이터에 적용하면 추가 비용이 발생하나요?

Accepted Answer

아니요, 사용자 정의 필터링은 유료 부가 기능이 아닌 핵심 기능입니다. 카테고리, 도메인, 날짜, 언어 및 국가별로 엄격한 필터링을 권장합니다. 스트림 또는 아카이브 검색 범위를 철저히 설정하면 전송되는 불필요한 레코드의 총량을 줄여 전체 데이터 비용을 최적화할 수 있습니다.

Question 7

Bright Data의 아카이브는 Common Crawl과 어떻게 다른가요?

Accepted Answer

대규모 웹 데이터를 다룰 때 최신성, 관련성 및 접근성이 핵심입니다. Common Crawl이 웹의 광범위한 역사적 스냅샷을 제공하는 반면, Bright Data의 아카이브 API는 고급 필터링 및 전송 옵션을 갖춘 실시간으로 지속적으로 업데이트되는 데이터를 제공합니다. 비교 내용은 다음과 같습니다:

기능
Bright Data 아카이브
Common Crawl

데이터 수집
실시간으로 공개 웹 데이터를 지속적으로 캡처하여 "현재"에 가까운 결과를 제공합니다.
주기적 웹 크롤링(실시간 아님), 월간 또는 격월로 업데이트됩니다. 데이터가 오래될 수 있습니다

데이터 볼륨
8개월 동안 17.5 PB 수집, 1,180억 페이지 커버(4,000만 도메인의 280억 고유 URL). 주당 ~2.5 PB 및 수십억 개의 고유 URL 추가.
18년에 걸쳐 2,500억 페이지 수집.

웹사이트 커버리지 및 관련성
실제 스크래핑 비즈니스 요구에 기반한 고가치의 관련 웹사이트 데이터에 집중합니다.
오래되거나 품질이 낮은 페이지를 포함하여 무차별적으로 크롤링합니다.

데이터 유형
전체 웹 페이지(JS 렌더링)
98.6% HTML 및 텍스트

필터링 및 전송
카테고리, 도메인, 언어, 날짜 등으로 필터링하는 완전한 검색 및 전송 플랫폼. Amazon S3 또는 웹훅을 통해 전송됩니다.
내장 필터링 또는 전송 기능 없음. 방대한 원시 WARC 파일을 수동으로 처리해야 합니다.

Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

신뢰받는 기업 20,000+ 전 세계 고객

Customer favorite features

AWS Marketplace를 통한 결제

업계 선도적인 규정 준수

무엇이 필요한지 잘 모르시나요?

Archive API FAQ