Bright Data Brightbot Crawler
Brightbot이란 무엇인가요?
Brightbot은 Bright Data의 데이터 수집 크롤러입니다. 모든 Bright Data 제품 및 서비스의 주요 데이터 수집 파이프라인 역할을 목적으로 합니다. 24시간 동안 동일한 데이터의 반복적 다운로드를 방지하는 내장 캐시 계층을 갖추고 있으며, 특별한 비즈니스 사유로 예외가 필요한 경우를 제외합니다. 이용 가능한 웹사이트 자원의 공정한 사용을 보장하고 남용을 방지하기 위해 광범위한 기술적 조치를 사용합니다. Brightbot 활동은 자체 고유 사용자 에이전트와 소스 IP 서브넷을 활용하여 완전히 투명하게 진행됩니다. 따라서 트래픽과 활동은 사용자 트래픽과 완전히 분리될 수 있으며, Bright Data의 웹마스터 콘솔과 collectors.txt를 통해 추적 및 제어까지 가능합니다.
Brightbot 트래픽은 어떻게 식별할 수 있나요?
Brightbot은 다음 두 매개변수로 쉽게 식별할 수 있습니다:
- User-Agent: "Brightbot 1.0"
- 소스 IP 서브넷 82.97.199.0/24
두 가지를 모두 사용하면 정확한 식별이 보장됩니다.
웹사이트가 Brightbot을 화이트리스트에 추가해야 하는 이유는 무엇인가요?
- 사용 분석 및 추천 엔진 데이터에서 수집 트래픽을 필터링하십시오.
- 99.99%의 악용 방지 - 웹사이트에서 Brightbot을 화이트리스트에 등록하면, Bright Data는 트래픽에 대한 100% 통제권을 확보하기 위해 일부 고객을 잃을 위험을 감수하고도 모든 고객이 Brightbot을 통해서만 작업하도록 강제할 준비가 되어 있습니다.
- 재시도 및 중복 리소스 요청을 줄입니다.
- 트래픽을 분리하고 이를 처리하는 리소스를 제한합니다.
- 다른 사람들이 귀하의 웹사이트에서 무엇을 보고 있는지 투명하게 파악할 수 있습니다 - 통계 및 대시보드가 제공됩니다.
- 공개 데이터가 아닌 로그인 뒤의 페이지로 이동할 내용(있는 경우)에 대해 훨씬 더 정보에 입각한 결정을 내릴 수 있습니다.
웹마스터 콘솔이란 무엇인가요?
웹마스터 콘솔은 Bright Data가 웹사이트 소유자와 소통하는 방식입니다. 웹사이트 소유자는 콘솔 내에서 도메인 소유권을 등록하고 해당 도메인을 대상으로 한 수집 트래픽에 대한 투명성과 통제권을 확보할 수 있습니다.
인증 방법은 생성된 토큰을 도메인 DNS 항목에 추가하는 간단한 방식입니다.

각 도메인의 통계 페이지에서 소유자는 Bright Data가 측정한 도메인 상태 통계와 트래픽 통계를 확인할 수 있습니다.

알림
콘솔에서 웹마스터는 특정 유형의 정보(예: PII 데이터 스캔, 특정 웹사이트 엔드포인트 접근 등)에 접근할 때 추적 및 알림을 받을 수 있는 경고 규칙을 추가할 수 있습니다.


collectors.txt란 무엇인가요?
collectors.txt 파일은 Bright Data의 웹 마스터 콘솔에서 제공하는 구성 가능한 리소스로, 웹 마스터가 자사 웹사이트에서 윤리적이고 효율적인 데이터 수집을 위한 가이드라인을 정의할 수 있게 합니다. 주요 목적은 Bright Data의 웹 크롤러인 Brightbot에 특정 접근 규칙과 제한 사항을 전달함으로써 투명성과 통제력을 강화하는 것입니다. 웹마스터는 collectors.txt를 통해 개인 식별 정보(PII)가 포함된 엔드포인트를 지정하고, 광고 링크나 리뷰 같은 상호작용 요소 접근을 차단하며, 유기적 트래픽 부하를 보고하고, 데이터의 저작권 상태를 업데이트하며, 자원 과부하 방지를 위한 피크 트래픽 시간대를 정의할 수 있습니다. 이 파일은 데이터 수집이 개인정보 보호법 및 자원 제약과 부합하도록 보장하여 웹사이트와의 책임 있는 상호작용을 촉진합니다. 설정 완료 후 Bright Data는 collectors.txt 파일을 검토하며, Brightbot은 운영 과정에서 승인된 가이드라인을 적용합니다.
보호 기술
Bright Data는 수년간 네트워크의 고의적 또는 우발적 남용을 식별, 방지 및 완화하기 위해 다양한 기능과 기술 계층을 추가해 왔습니다. KYC와 같은 규정 준수 도구는 규정 준수 섹션에서 자세히 설명됩니다. 여기서는 이러한 목적을 위해 배포된 자동화 기술에 초점을 맞춥니다.
상태 모니터(DDoS 보호)
Bright Data 제품이 타겟팅하는 모든 도메인에 대해 시스템은 상태 모니터를 개시합니다. 헬스 모니터는 지리적 위치와 시간대를 가로질러 도메인 응답성을 24시간 연중무휴로 추적합니다. 각 헬스 모니터는 또한 모니터링 중인 도메인을 대상으로 하는 Bright Data의 집계 트래픽 피드를 실시간으로 수신합니다. 모니터가 Bright Data 트래픽과 도메인 응답성 저하 사이의 상관관계를 발견하면, 도메인에 부정적 영향을 미치지 않았던 마지막 트래픽 속도에 상응하는 속도 제한을 적용합니다. 이 속도 제한은 캐시되며 제거되지 않습니다.
아래는 해당 사례의 예시입니다 - 영향이 식별되고 2분 이내에 속도 제한이 적용되었습니다. 빨간색 마커는 이후 Bright Data에 의해 차단된 트래픽과 웹사이트 RTT가 정상으로 회복된 시점을 나타냅니다.

도메인 분류
Bright Data는 모든 제품에서 고객이 타겟팅하는 모든 도메인을 분류합니다. 매일 30만 개 이상의 신규 도메인이 분류됩니다. 일부 분류(예: 악성코드, 피싱)는 영구적으로 블랙리스트에 등록되며, 일부 카테고리(예: 정부 기관, 비정부기구)는 기본적으로 차단되지만 규정 준수 부서의 특별 검토 및 승인을 통해 타겟팅이 허용됩니다.

인증 및 쿠키 차단
기본적으로 Bright Data는 로그인 뒤의 모든 데이터를 비공개로 간주합니다. 따라서 모든 가시적 트래픽에서 Bright Data는 인증 쿠키 사용을 차단하며, 브라우저 사용 시에는 비밀번호 입력 기능도 차단합니다.
데이터 소유자가 고객의 접근을 명시적으로 동의한 극히 드문 경우에 한해, compliancDCe에 요청을 제출하여 특별 허가를 획득할 수 있습니다.
사용 사례 추적
KYC 준수 과정에서 고객이 주거용 프록시 네트워크 접근을 요청할 때 신고한 대상 도메인과 업종을 기록합니다.
승인 후 Bright Data는 고객의 사용 내역을 추적하며, 신고된 사용 사례에서 벗어날 경우 컴플라이언스 팀에 플래그가 생성되어 고객과 함께 조사합니다.
준수 및 윤리
- 허용되는 사용 정책 -
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Bright Data KYC(고객 확인) 절차 -
https://brightdata.com/trustcenter/kyc - 사용량 모니터링 -
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - 도메인 분류 -
https://brightdata.com/trustcenter/ethical-network-use-classification - 악용 방지 및 처리 -
https://brightdata.com/trustcenter/abuse - WWW 보호 -
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - 웹 모니터링 -
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - 정보 보안 -
https://brightdata.com/trustcenter/data-security-overview-protection-measures