웹 스크래핑에 관한 8가지 가장 큰 오해

이 글에서는 다음을 다룹니다:

오해 #1: 웹 스크래핑은 불법 행위이다
오해 #2: 스크래핑은 개발자만 하는 것이다
오해 #3: 스크래핑은 해킹이다
오해 #4: 스크래핑은 쉽다
오해 #5: 수집된 데이터는 ‘바로 사용 가능’하다
오해 #6: 데이터 스크래핑은 완전히 자동화된 과정이다
오해 #7: 데이터 스크래핑 작업은 확장하기 쉽다
오해 #8: 웹 스크래핑은 대량의 유용한 데이터를 생성한다

오해 #1: 웹 스크래핑은 불법 행위이다

많은 사람들이 웹 스크래핑이 불법이라는 오해를 가지고 있습니다. 사실은 비밀번호로 보호된 정보나 개인 식별 정보(PII)를 수집하지 않는 한 완전히 합법적입니다. 또 다른 주의할 점은 대상 웹사이트의 서비스 약관(ToS)을 확인하고, 특정 웹사이트에서 정보를 수집할 때 규칙, 규정 및 조항을 준수하는 것입니다. 익명화된 오픈 소스 웹 데이터를 대상으로 하고, CCPA 및 GDPR을 준수하는 데이터 수집 네트워크만 활용하는 기업은 절대 문제가 발생하지 않습니다.

미국 연방 차원에서는 수집 정보가 공개된 내용이고 스크래핑 과정에서 대상 사이트에 피해가 발생하지 않는 한 웹 스크래핑을 금지하는 법률이 존재하지 않습니다. 유럽연합(EU)과 영국에서는 디지털 서비스법(Digital Services Act)에 따라 스크래핑을 지적 재산권 관점에서 바라봅니다. 이 법은 ‘공개적으로 이용 가능한 콘텐츠의 복제’는 불법이 아니라고 명시하고 있어, 수집된 데이터가 공개적으로 이용 가능한 한 법적으로 문제가 없습니다.

오해 #2: 스크래핑은 개발자만 하는 것

이는 가장 흔한 오해 중 하나입니다. 기술적 배경이 없는 많은 전문가들은 이를 조사해 보지도 않은 채 데이터 수집을 통제할 수 없다고 포기하는 경우가 많습니다. 많은 스크래핑 기법이 주로 개발자 유형이 보유한 기술적 능력을 요구하는 것은 사실입니다. 그러나 현재 코딩이 필요 없는 새로운 도구들도 존재하며, 이러한 솔루션은 일반 비즈니스 담당자도 사용할 수 있는 사전 구축된 데이터 스크래퍼를 제공함으로써 스크래핑 프로세스를 자동화하는 데 도움을 줍니다. 또한 아마존(Amazon)이나 부킹닷컴(Booking)과 같은 인기 사이트를 위한 웹 스크래핑 템플릿도 포함되어 있습니다.

오해 #3: 스크래핑은 해킹이다

이는 사실이 아닙니다. 해킹은 일반적으로 사설 네트워크나 컴퓨터 시스템을 악용하는 불법 행위를 의미합니다. 이러한 통제권 장악의 목적은 개인 정보 도용이나 개인적 이익을 위한 시스템 조작과 같은 불법 활동을 수행하는 데 있습니다.

반면 웹 스크래핑은 대상 웹사이트에서 공개적으로 접근 가능한 정보를 수집하는 행위입니다. 이 정보는 일반적으로 기업이 해당 분야에서 경쟁력을 강화하는 데 활용됩니다. 이는 소비자에게 더 나은 서비스와 공정한 시장 가격을 제공하는 결과를 가져옵니다.

오해 #4: 스크래핑은 쉽다

많은 사람들이 ‘스크래핑은 식은 죽 먹기’라고 잘못 믿습니다. ‘문제는 뭐지?’라고 묻습니다. ‘목표 웹사이트에 들어가서 원하는 정보를 가져오기만 하면 되잖아.’ 개념적으로는 맞는 말처럼 보이지만 , 실제로 스크래핑은 매우 기술적이고 수동적이며 자원이 많이 소모되는 작업입니다. 파이썬, 자바, 셀레니움, PHP, 팬텀JS 중 어떤 것을 선택하든, 해당 언어로 스크립트를 작성할 줄 아는 기술 팀을 상시 운영해야 합니다.

대부분의 경우 대상 사이트는 복잡한 아키텍처와 차단 메커니즘을 갖추고 있으며, 이는 지속적으로 변화합니다. 이러한 장애물을 극복한 후에도 데이터 세트는 일반적으로 알고리즘이 가치 있는 통찰력을 분석할 수 있도록 정리, 합성 및 구조화되어야 합니다. 결론적으로 스크래핑은 결코 쉬운 일이 아닙니다.

오해 #5: 수집된 데이터는 ‘즉시 사용 가능’하다

대개 그렇지 않습니다. 대상 정보를 수집할 때 고려해야 할 측면이 많습니다. 예를 들어, 정보를 어떤 형식으로 캡처할 수 있는지, 그리고 시스템이 어떤 형식의 데이터를 처리할 수 있는지입니다. 수집한 모든 데이터가 JSON 형식인데 시스템이 CSV 파일만 처리할 수 있다면 문제가 됩니다. 형식 외에도 데이터를 실제로 사용하기 전에 구조화, 통합, 정제해야 하는 문제도 있습니다. 예를 들어 손상되거나 중복된 파일을 제거하는 작업이 포함될 수 있습니다. 데이터가 형식화되고 정리되며 구조화된 후에야 비로소 분석 및 사용 준비가 완료됩니다.

오해 #6: 데이터 스크래핑은 완전 자동화 프로세스다

많은 사람들이 버튼 클릭만으로 웹사이트를 크롤링하고 정보를 가져오는 봇이 존재한다고 믿습니다. 이는 사실이 아닙니다. 대부분의 웹 스크래핑은 수동으로 이루어지며, 기술 팀이 프로세스를 감독하고 문제를 해결해야 합니다. 다만 웹 스크래핑 도구를 사용하거나, 데이터 스크래핑 과정의 복잡성에 관여할 필요 없이 미리 수집된 데이터셋을 구매하는 방식으로 이 과정을 자동화할 수 있는 방법도 존재합니다.

오해 #7: 데이터 스크래핑 작업은 쉽게 확장할 수 있다

이는 완전히 잘못된 생각입니다. 사내 데이터 수집 소프트웨어와 하드웨어를 유지 관리하고 운영을 관리할 기술 팀을 보유한 경우를 가정해 보십시오. 운영을 의미 있게 확장하려면 새 서버를 추가하고, 새 팀원을 채용하며, 대상 사이트용 새 스크레이퍼를 구축해야 합니다. 서버 유지 관리 비용만 해도 월 평균 1,500달러(약 200만 원)까지 소요될 수 있다는 점을 고려하십시오. 기업 규모가 클수록 비용 배수는 더욱 높아집니다.

반면, 데이터 서비스(Data as a Service) 제공업체를 활용할 경우 제3자 인프라와 팀에 의존하므로 운영 확장성이 매우 용이합니다. 수천 개의 지속적으로 변화하는 웹 도메인에 대한 실시간 지도도 제공됩니다.

오해 #8: 웹 스크래핑은 대량의 유용한 데이터를 생성한다

이는 일반적으로 사실이 아닙니다. 수동 데이터 수집을 수행하는 기업들은 종종 부정확하거나 판독 불가능한 정보를 제공받습니다. 따라서 품질 검증을 수행하고 실제 피어(peer) 기기를 통해 트래픽을 라우팅하는 도구와 시스템을 사용하는 것이 중요합니다. 이는 대상 사이트가 요청자를 실제 사용자로 식별하고 해당 지역(GEO)에 대한 정확한 데이터 세트를 ‘추출하도록 유도’합니다. 품질 검증을 수행하는 데이터 수집 네트워크를 사용하면 소량의 데이터 샘플을 먼저 가져와 검증한 후, 전체 수집 작업을 실행할 수 있습니다. 이는 시간과 자원을 모두 절약하는 방법입니다.