이 글에서는 다음을 다룹니다:
[1] 고객 확인(KYC) 절차 수행
- 모든 잠재적 네트워크 사용자는 선임 직원 및/또는 컴플라이언스 담당자에 의해 수행되는 엄격한 심사 절차를 거쳐야 합니다.
- 잠재 고객이 기업인 경우 다음 항목을 검토해야 합니다: (i) 실체 확인을 위한 법인 등록증, (ii) 회사 웹사이트, (iii) 회사 이메일 도메인, (iv) 기업 소셜 미디어 프로필.
- 잠재적인 프리랜서 고객의 경우, 영상 인터뷰와 신분증의 물리적 증명이 필수 요건이어야 합니다. 데이터 수집 네트워크는 또한 실제 주소가 합법적인지, IP 주소와 신용카드 청구지 주소가 일치하는지 확인해야 합니다.
[2] 실행 가능한 API 엔드포인트 차단
[2] 악용 가능 API 엔드포인트 차단
윤리적인 데이터 수집 네트워크는 다음과 같이 오용 및 남용될 가능성이 있는 API 엔드포인트를 차단해야 합니다:
가짜 계정 생성 (소셜 미디어, 리뷰 사이트, 금융 기관 등)
광고 사기 (예: 클릭 사기)
허위 리뷰 (가짜 제품 평점, 서비스 리뷰, 대량 투표 포함)
[3] 글로벌 네트워크 사용량 감독
서비스 거부 공격(DDoS) 수준에 근접하지 않도록 글로벌 네트워크 사용량을 모니터링해야 합니다. 트래픽 속도가 상승하기 시작하면 자동으로 제한됩니다.
트래픽 모니터링은 특정 고객의 특정 대상 도메인에 대한 트래픽뿐만 아니라, 해당 대상 도메인에 대한 모든 제품의 모든 고객의 통합 트래픽을 대상으로 하여 의도치 않은 DDoS 상황이 발생하지 않도록 합니다.

이미지 출처: Bright Data
또한 네트워크 권한이 부여된 후에는 계정 관리자가 고객 이벤트 로그를 세밀하게 모니터링해야 합니다. 해당 고객의 KYC 사용 사례와 실제 계정 활동 간 불일치가 발견될 경우, 해당 계정은 영구적으로 해지되어야 합니다.
예를 들어, 웹사이트 테스트를 수행한다고 주장하지만 실제로는 광고 사기를 실행하기 위해 네트워크를 이용하려는 고객이 있을 수 있습니다. 모니터링을 통해 컴플라이언스 팀은 이러한 네트워크 남용을 식별하고 즉시 차단할 수 있습니다.
[4] 사이트별 트래픽 제한 규칙 – 해를 끼치지 말 것
데이터 수집 네트워크는 자사 활동이 사이트의 정상적인 서비스 품질을 방해하지 않도록 보장해야 합니다. 수집 작업이 사이트 자원의 10%를 차지하더라도 DDoS 수준에 미치지 않더라도 성능과 운영 통계 수집에 영향을 미쳐 웹사이트 제품 팀이 사용자 행동에 대해 잘못된 결론을 내리게 할 수 있습니다.
따라서 데이터 수집 네트워크는 대상 사이트를 분석하고 해당 사이트의 표준 운영 트래픽 수준에 따라 도메인별 한도를 설정해야 합니다. 이는 서비스 계층에 피해를 주지 않으면서 사이트 사용 통계를 유지하는 데 도움이 됩니다.
[5] 비공개 도메인 블랙리스트 지정
윤리적인 데이터 제공자는 악용 활동의 표적이 될 수 있는 공개된 오픈소스 정보가 포함되지 않은 도메인을 블랙리스트에 등록해야 합니다. 여기에는 다음이 포함될 수 있습니다:
결제 서버 공격 – 가짜 또는 도난된 자격 증명을 이용한 불법 구매부터 해킹 및 DDoS 공격까지 모든 것이 포함될 수 있습니다.
API 서버 교란– 웹 서버, 애플리케이션 또는 둘 모두에 대한 직접적인 공격일 수 있습니다.
[6] 피어 동의
합법적인 데이터 수집 네트워크는 상세한 이용 약관에 대한 적극적인 동의가 이루어진 후에만 피어 기기를 통해 트래픽을 라우팅합니다. 기본적으로 사용자는 동의하지 않은 상태입니다. 이는 공정한 거래 교환이어야 하며, 즉 데이터 수집 네트워크는 피어 기기를 통해 트래픽을 라우팅할 수 있고, 반대로 피어는 해당 자원에 대해 보상을 받아야 합니다. 여기에는 무료 업그레이드된 구독, 광고 없는 앱 버전 또는 사용자 경험에 긍정적인 영향을 미치는 기타 혜택이 포함될 수 있습니다.
[7] 유휴 자원
윤리적 데이터 수집 네트워크는 사용자 경험에 거의 또는 전혀 영향을 미치지 않도록 엄격한 조건 하에서만 피어 자원(즉, 트래픽 라우팅)을 사용하는 것을 원칙으로 합니다. 이러한 조건은 최소한 사용자 기기가 다음 상태를 유지하도록 보장해야 합니다:
- 트래픽이 라우팅될 때 유휴 상태(사용 중이 아님)여야 함
- 3G/LTE 데이터를 극히 제한적으로 사용하며 WiFi에 연결된 상태여야 함
- 충분한 배터리 전력을 보유해야 함
피어당 중간 대역폭은 지리적 위치에 따라 달라져야 합니다. 실제 글로벌 권장 평균은 피어당 하루 8MB여야 합니다. 즉, 아마존 제품 페이지 한 개의 절반 크기입니다.
이미지 출처: Bright Data[8] 네트워크 제한 설정
윤리적 데이터 수집 플랫폼은 개별 피어 기기를 통한 트래픽을 모니터링하고 제한하여 사용자의 자체 사용량에 비해 무시할 수 있는 수준의 기기 리소스만 소비합니다. 예를 들어, 평균적인 사용자가 하루 동안 여러 웹사이트를 방문하고 음악을 듣고 짧은 동영상을 몇 개 시청하는 경우, 이에 비해 윤리적 데이터 수집 플랫폼의 사용량은 일반 브라우저에서 아마존 제품 페이지 하나를 로드하는 것과 동등합니다.
[9] 옵트인/옵트아웃
데이터 수집 네트워크는 민주적인 P2P 네트워크를 기반으로 해야 합니다. 이 네트워크를 구성하는 개인은 언제든지 자유롭게 참여(opt-in)하거나 탈퇴(opt-out)할 수 있어야 합니다. 이는 분산화된 자유로운 데이터 및 정보 흐름을 보장하기 위해 반드시 지켜져야 하는 인터넷 투명성의 기본 원칙입니다.
[10] GDPR 준수 (보안, 저장, 개인 식별 정보)
윤리적 데이터 수집 네트워크는 다음을 포함하되 이에 국한되지 않는 GDPR 규칙을 준수해야 합니다:
- 사용자의 완전한 동의를 얻은 경우에만 IP를 PII로 수집 – 사용자의 프라이버시를 보호하며 기타 개인 정보나 행동 통계는 수집하지 않습니다. 사용자에 관한 어떠한 데이터도 절대 수집하지 않습니다.
- 수집된 데이터의 보안 및 저장과 관련하여 GDPR 웹 스크레이퍼 IDE 및 GDPR 데이터 처리자로서 GDPR 및 CCPA 규정을 완전히 준수합니다.
결론적으로
Bright Data는 10가지 윤리적 데이터 수집 원칙을 모두 준수합니다. 데이터 수집 플랫폼 선택 시 다음을 보장하기 위해 신중한 검토가 권장됩니다:
- 정보의 장기적 가치
- 데이터 및 파생 분석, 제품, 서비스의 법적 타당성
- 네트워크, 시스템 및 소프트웨어의 안전성
그리고 무엇보다도 가장 중요한 요소는 투명성입니다. 투명성을 보여주고 신뢰성을 입증해야 합니다. 따라서 지침으로서, 빈번한 변화에 개방적이고, 지침을 자주 점검하고 테스트하는 자세를 가져야 합니다. 이는 빠르게 진화하는 분야이며, 올바르게 수행하는 것은 쉽지 않습니다.