데이터 디스커버리란 무엇인가? 프로세스와 방법 설명

데이터 발견은 다양한 출처에서 데이터를 수집하고, 이를 준비 및 분석하여 가치 있는 통찰력을 추출하는 과정입니다. 데이터 발견의 궁극적인 목표는 데이터를 더 깊이 이해하고 이를 활용하여 더 나은 의사 결정을 내리는 것입니다. 데이터 발견 과정에서 추출된 통찰력은 사기 탐지, 사업 계획 수립, 이탈 예측, 위험 평가, 리드 생성 등에 기업에 도움을 줄 수 있습니다.

이 글에서는 데이터 탐색이 무엇인지, 왜 중요한지, 그리고 데이터 탐색 프로세스의 가장 일반적인 단계가 무엇인지 알아보겠습니다.

데이터 발견이란 무엇이며 왜 중요한가

추정에 따르면, 매일 생성되는 데이터 양은2026년에 181제타바이트에 달할 것으로 예상됩니다. 이렇게 방대한 양의 데이터는 매우 유용할 수 있지만, 실행 가능한 통찰력을 추출할 수 있는 방법이 필요합니다. 바로 여기서 데이터 발견이 중요한 역할을 합니다. 다양한 출처의 데이터를 결합하고 분석함으로써 기업은 의사 결정과 비즈니스 전략을 개선할 수 있습니다.

데이터 발견 프로세스

데이터 발견 과정에는 일반적으로 다음과 같은 단계가 포함됩니다: 목표 정의, 데이터 수집, 데이터 준비, 데이터 시각화, 데이터 분석, 해석 및 실행.

Data discovery process diagram, courtesy of Alen Kalac

데이터 발견은 매우 반복적인 과정이라는 점을 유의해야 합니다. 최종 결과를 개선할 수 있다고 판단되면 과정의 어느 단계에서든 이전 단계로 되돌아갈 수 있습니다.

1. 목표 정의

때로는 간과되기도 하지만, 목표 설정은 데이터 발견 프로세스의 첫 번째 단계여야 합니다. 목표는 필요한 데이터를 결정하는 요소입니다. 달성하고자 하는 바를 알게 되면, 어떤 데이터를 수집해야 하는지, 어떻게 준비하고 분석해야 하는지, 그리고 그로부터 가치 있는 통찰력을 얻는 방법에 대해 더 명확한 아이디어를 얻을 수 있습니다.

2. 데이터 수집

목표를 정의한 후에는 사용할 데이터의 출처를 파악하고 수집해야 합니다. 이를 위한 방법은 다양합니다. 예를 들어, 대부분의 조직은 이미 유용한 데이터를 많이 보유하고 있으며, 이를 흔히 퍼스트 파티 데이터라고 부릅니다. 이 데이터는 데이터베이스, 데이터 레이크, 데이터 웨어하우스 등에 저장될 수 있습니다. 내부 데이터의 경우 데이터 소싱이 간단하며, 일반적으로 퍼스트 파티 데이터는 신뢰할 수 있습니다.

그러나 유용한 데이터 인사이트를 도출하기에는 내부 데이터만으로는 종종 부족합니다. 일반적으로 다양한 외부 출처에서도 데이터를 수집해야 합니다. 한 가지 방법은 API를 활용하는 것입니다. 많은 기업과 기관이 데이터를 공유하기 위해 API를 제공합니다. 대표적인 예로는 Google API, Instagram API, Zillow API, Reddit API, YouTube API 등이 있습니다. 일부 API는 무료이지만, 대부분은 유료입니다. 다른 데이터 수집 방법을 탐색하기 전에, 해당 출처가 API를 제공하는지 확인하는 것이 좋습니다. 이는 프로세스를 크게 간소화할 수 있기 때문입니다.

그러나 대부분의 웹 데이터는 API를 통해 접근할 수 없습니다. 이 경우웹 스크래핑을 통해 데이터를 수집할 수 있습니다. 웹 스크래핑은 웹 페이지에서 데이터를 추출하여 CSV와 같이 데이터 분석에 더 편리한 형식으로 저장하는 기술입니다.

필요한 데이터를 추출하는 맞춤형 스크립트를 작성하여 직접 웹 스크래핑을 수행할 수 있습니다. 하지만 이는 웹 스크래핑 기술이 필요하며 시간이 많이 소요될 수 있습니다. 또한 웹사이트가 적용한 스크래핑 방지 메커니즘을 처리해야 합니다. 대안으로Bright Data 웹 스크레이퍼 API와 같은 즉시 사용 가능한 스크레이퍼를 활용할 수 있습니다. 이러한 도구는 비교적 직관적이며 코딩 기술이 필요하지 않고, 스크래핑 방지 메커니즘을 효과적으로 처리하는 데 매우 유용합니다.

더 쉬운 해결책을 원한다면 구매 가능한 기성 데이터셋을 찾아볼 수 있습니다. 이러한 데이터셋은 신뢰할 수 있는 출처에서 신중하게 수집되어 분석, 정리 및 사용자 친화적인 방식으로 구조화됩니다. 예를 들어 Bright Data는 Amazon, Instagram, X(Twitter), LinkedIn, Walmart 등 인기 데이터 소스에서 제공되는 100개 이상의 즉시 사용 가능한 데이터 세트를제공합니다. 또한 자동화 플랫폼을 통해맞춤형 데이터 세트를 생성할수도 있습니다.

일반적으로 이러한 데이터 소스를 조합하여 사용하거나 언급되지 않은 소스(실시간 데이터, 공개 데이터셋, 설문조사 등)를 활용하기도 합니다. 이는 단일 데이터 소스만으로는 필요한 모든 데이터를 확보하기 어렵기 때문입니다.

3. 데이터 준비

데이터를 확보한 후 다음 단계는 분석을 위해 데이터를 준비하는 것입니다. 일반적으로 다양한 출처에서 수집된 데이터는 필요한 정확한 형식으로 제공되지 않습니다. 형식 통일,데이터 파싱, 누락값 처리, 중복 데이터 제거, 이상치 처리, 범주형 데이터 처리, 데이터 표준화 또는 정규화, 기타 식별된 문제 해결 등은 사용자의 몫입니다.

원시 데이터에는 일반적으로 누락된 데이터와 같은 결함이 존재합니다. 이 경우 일부 데이터가 누락된 사례를 단순히 제거할 수 있습니다. 그러나 더 일반적인 방법은 누락된 값을 보충하는 것입니다(특히 데이터가 많지 않은 경우).

중간값 보충, 평균값 보충과 같은 다양한 누락값 보충 방법이 있으며, 다변량 연쇄 방정식 보충(MICE)과 같은 더 정교한 방법도 있습니다. 수치형 데이터의 또 다른 잠재적 문제는 범위가 서로 다른 변수들입니다. 이 경우 데이터를 정규화(0에서 1 사이의 범위로 스케일링)하거나 표준화(평균 0, 표준편차 1로 스케일링)하는 것이 유용할 수 있습니다. 두 방법 중 선택은 데이터 분석 단계에서 사용하는 통계 기법과 데이터의 분포에 따라 달라집니다.

저품질 데이터는 저품질 결과와 통찰로 이어질 수 있습니다. 이 단계의 목표는 원시 데이터를 입력하여 분석 준비가 된 깨끗하고 고품질의 데이터를 출력하는 것입니다.

4. 데이터 시각화

데이터 정제 후에는 데이터를 탐색하는 데 도움이 되는 다양한 차트를 생성할 수 있습니다. 데이터 시각화는 테이블 형태의 데이터보다 시각화된 데이터에서 통찰력을 더 쉽게 파악할 수 있어 유용합니다. 데이터의 다양한 측면을 보여줄 수 있는 차트 유형은 무수히 많습니다. 대표적인 차트로는 막대 차트(값 비교에 적합), 선 차트(특정 기간의 추세 표시), 파이 차트(범주 구조 표시), 박스 플롯(데이터 요약 및 이상치 식별), 히스토그램(데이터 분포 검사), 히트맵(상관관계 분석) 등이 있습니다.

앞서 언급한 데이터 시각화 기법을 지원하는 도구는 다양합니다. 대표적인 예로Power BI와Tableau가 있습니다. 이 도구들은 사용자 친화적이며 대시보드 및 보고서 제작에 이상적이며 협업과 공유에도 탁월합니다.

고도로 맞춤화된 시각화가 필요하다면Matplotlib나 seaborn 같은 Python 라이브러리를 활용하는 것도 방법입니다. 이러한 라이브러리는 코딩 기술이 필요하며 Power BI나 Tableau에 비해 학습 곡선이 훨씬 가파릅니다. 하지만 특정 유형의 시각화를 사용할 수 있고 광범위한 맞춤 설정이 가능합니다:

Power BI dashboard example, courtesy of Microsoft

본질적으로 데이터 시각화는 작업 중인 데이터를 더 잘 이해하는 데 도움을 줍니다. 여기에는 데이터 내 숨겨진 패턴, 변수 간의 관계, 데이터의 이상치 등이 포함됩니다.

5. 데이터 분석

데이터 분석은 데이터 시각화와 밀접한 관련이 있습니다. 실제로 이 두 단계는 탐색적 데이터 분석(Exploratory Data Analysis)이라는 포괄적인 과정에서 종종 동시에 수행됩니다.

데이터 분석을 통해 데이터를 더 깊이 탐구하고, 기술 통계 및 요약 통계를 생성하며, 이를 종합적인 보고서로 정리할 수 있습니다. 데이터 시각화와 마찬가지로 이 단계의 목표는 추세, 패턴, 관계 및 이상 현상을 식별하는 것입니다.

데이터에서 통찰력을 추출하는 데는 다양한 기법이 있습니다. 통계 분석은 일반적으로 기술 통계(데이터 특성 요약에 유용)와 추론 통계(표본을 기반으로 예측하는 데 유용)를 통해 데이터를 분석하는 인기 있는 기법입니다. 머신 러닝(ML) 또한 널리 사용되며, 지도 학습(라벨링된 데이터를 기반으로 분류 및 회귀 분석 수행), 비지도 학습(라벨링되지 않은 데이터에 클러스터링 및 차원 축소 기법 적용), 강화 학습(환경과의 상호작용을 통해 학습)을 활용합니다.팬더스(pandas),넘파이(NumPy),사이킷런(scikit-learn)과 같은 파이썬 라이브러리를 사용해 이 모든 작업을 수행할 수 있습니다.

6. 해석과 실행

데이터 분석 후에는 식별된 모든 패턴을 요약하고 해석할 차례입니다. 데이터 분석 및 시각화 단계를 통해 데이터에서 가치 있는 통찰력을 도출해야 합니다. 이러한 통찰력은 실행 가능해야 하며 더 나은 의사 결정으로 이어져야 합니다. 비즈니스 목표와 관련된 패턴을 식별하고, 그 발생 원인을 이해하며, 우선순위를 정하고, 패턴의 진화 과정을 지속적으로 모니터링함으로써 이러한 통찰력에 도달할 수 있습니다.

이 시점에서 정의된 목표를 되돌아보고 달성 여부를 평가할 수 있습니다. 목표가 달성되지 않았다면 이전 단계 중 어느 단계로든 되돌아가 개선을 시도할 수 있습니다. 이는 더 많은 데이터를 확보하거나, 데이터를 다르게 준비하거나, 데이터를 추가로 분석하여 더 많은 통찰력을 찾는 것을 의미할 수 있습니다.

데이터 발견 방법

데이터 발견 과정은 수동 또는 자동화 방식으로 진행될 수 있습니다. 두 방법 모두 고유한 장단점이 있습니다.

수동 데이터 탐색

이름에서 알 수 있듯이, 수동 데이터 탐색은 사람이 데이터 탐색 과정을 수행함을 의미합니다. 즉, 사람이 데이터를 수집하고, 형식을 통일하며, 추가 분석을 위해 준비하고, 데이터를 시각화 및 분석합니다. 이를 성공적으로 수행하려면 수동 데이터 탐색 담당자는 데이터 분석 도구 및 기법, 다양한 통계 방법, 데이터 시각화 도구에 익숙해야 하며, 코딩과 같은 기술적 역량을 갖추고 해당 분야의 전문 지식을 보유해야 합니다.

수동 데이터 발견을 통해 인간은 기계가 놓칠 수 있는 변수 간 관계, 특정 추세, 이상 현상의 원인 등 데이터에서 가치 있는 통찰력을 추출할 수 있습니다. 데이터에 이상이 발생하면 인간은 그 원인을 조사할 수 있지만, 기계는 일반적으로 이를 보고하는 데 그칩니다. 그러나 데이터 발견 과정을 수동으로 수행하려면 복잡한 기술 세트가 필요하며 자동화된 데이터 발견보다 훨씬 느립니다.

자동화된 데이터 발견

인공지능(AI)과 머신러닝(ML)의 급속한 발전으로 데이터 탐색 과정의 상당 부분이 자동화될 수 있습니다. 자동화된 데이터 탐색의 경우, AI 소프트웨어가 앞서 논의된 여러 단계를 수행합니다.

DataRobot, Alteryx, Altair RapidMiner와 같은 AI 도구는 데이터 형식 통합, 누락된 값 처리, 이상치 및 특이치 탐지 등을 포함해 데이터를 자동으로 준비할 수 있습니다. 이러한 도구는 수동 데이터 탐색보다 빠를 뿐만 아니라 전문 지식도 훨씬 덜 요구합니다.

AI 도구는 복잡하고 비용이 많이 들며, 고품질 데이터에 크게 의존하고 유지보수가 필요한 경우가 많다는 점을 명심하십시오. 또한 AI 도구에서 나온 결과는 해석하기가 더 어려울 수 있습니다. 자동화된 데이터 발견과 수동 데이터 발견 사이에서 선택할 때는 이러한 모든 요소를 고려해야 합니다.

데이터 분류

데이터 탐색과 관련된 개념으로 데이터 분류가 있습니다. 데이터 분류를 통해 미리 정의된 기준과 규칙을 활용하여 데이터를 범주화할 수 있습니다. 이러한 기준에 따라 데이터를 분류하는 일반적인 방법으로는 데이터 유형(구조화, 비구조화, 반구조화), 민감도 수준(공개, 내부, 기밀), 데이터 사용 방식(운영, 역사적, 분석적), 데이터 출처(외부 및 내부)에 따른 구분 등이 있습니다. 이는 기업이 수집하는 방대한 양의 데이터를 추적하는 데 도움이 될 수 있습니다.

데이터 분류에는 다양한 기법이 활용될 수 있습니다. 보다 간단한 방법은 특정 키워드나 패턴을 기반으로 데이터를 분류하는 규칙 기반 분류를 사용하는 것입니다. 보다 정교한 방법으로는 신경망, 의사결정 트리, 선형 모델 등 널리 사용되는 머신러닝 알고리즘을 활용하는 것이 있습니다.

보안 및 규정 준수

데이터를 취급하는 기업에게GDPR(일반 데이터 보호 규정),CCPA(캘리포니아 소비자 개인정보 보호법),HIPAA(건강보험 이동성 및 책임법)와 같은 규정 준수 및 보안은 매우 중요합니다. 그러나 조직 내 데이터 양이 증가할수록 보안과 규정 준수를 달성하기는 더욱 어려워집니다.

데이터 디스커버리는 보안 위험과 규정 준수 격차를 식별할 수 있으므로 이를 해결하는 데 도움이 됩니다. 데이터 디스커버리를 통해 조직은 보안이 적용되지 않은 위치의 민감한 데이터를 식별하고, 이상 징후를 탐지하거나, 필요 이상으로 오래 저장된 데이터를 발견할 수 있습니다.Varonis,Collibra,BigID와 같은 일부 도구는 데이터 보안에 도움을 줄 수 있습니다.

이전 섹션에서 데이터 분류가 규정 준수에 도움이 될 수 있다고 언급했습니다. 이는 AI 분류 모델을 훈련시켜 보안 위험과 규정 미준수 데이터를 표시하도록 함으로써 달성할 수 있습니다. AI 모델은 신경망이나 그라디언트 부스팅 머신과 같은 감독형 모델일 수도 있고, 이상 탐지와 같은 비감독형 모델일 수도 있습니다. 기존 보안 프레임워크에 통합함으로써 AI는 위협 탐지, 대응 능력 및 보안 태세를 강화할 수 있습니다. AI는 또한 대량의 데이터를 분석하고 사람이 놓칠 수 있는 패턴을 식별하는 데 도움을 줄 수 있으며, 잠재적 취약점을 예측하고 비정상적인 행동을 탐지할 수 있습니다.

데이터 발견을 위한 도구

데이터 발견을 지원하는 다양한 도구가 존재합니다. 이러한 도구는 코딩 경험이 없는 개인도 데이터 발견 프로세스를 수행할 수 있게 합니다. 자동화된 데이터 준비, 분석 또는 시각화를 지원할 수 있습니다. 또한 데이터 발견 도구는 주로 웹 스크래핑 자동화를 통해 데이터 수집 과정을 크게 개선할 수 있습니다.

예를 들어,Bright Data 웹 스크레이퍼 API를사용하면 인기 웹사이트를 스크래핑할 수 있습니다. 사용이 간편하고 확장성이 뛰어나며, 즉각적인 웹 스크래퍼에 기대되는 모든 기능을 갖추고 있습니다. 미리 구축된 데이터셋을 선호한다면 Bright Data가 제공하는100개 이상의 데이터셋중 하나를 선택할 수 있습니다.

선택하는 데이터 소스는 데이터의 가용성과 사용자의 요구 및 선호도에 따라 달라집니다. 필요한 데이터가 포함된 사전 구축된 데이터셋을 찾을 수 있다면, 직접 데이터를 수집하는 것보다 해당 데이터셋을 확보하는 것이 더 빠릅니다. 데이터셋이 제공되지 않는 경우, 일반적으로 데이터 스크래핑보다 빠른 방법인 API를 통해 데이터가 제공되는지 확인할 수 있습니다. 그러나 API가 없다면, 수동으로 수행하거나 자동화된 웹 스크래퍼를 사용하여 직접 데이터를 스크래핑해야 할 가능성이 높습니다.