대체 데이터가 투자 및 금융 시장을 어떻게 변화시키고 있는가

분석 데이터 모델부터 AI 기반 투자 전략에 이르기까지, 미래 지향적 비즈니스 모델의 일환으로 대체 데이터를 활용하여 ROI를 높이는 방법을 알아보세요.
1 분 읽기
alt-data and the financial sector

대체 데이터란 무엇인가요?

이 용어는 비전통적 출처에서 얻은 금융 상품 관련 정보를 의미합니다. 투자 전문가들이 일반적으로 활용하는 전통적 출처에는 SEC 제출 서류, 재무 기록, 보도 자료, 미디어 보도 등이 포함됩니다.

때로는 애널리스트들이 자신의 통찰력을 보완하거나 뒷받침하기 위해 뉴스 감정 분석, 전문가 네트워크, 웹 크롤링 데이터 등 다른 출처의 정보를 찾으려 할 때, 이를 ‘대체 데이터’라고 부릅니다.

이러한 맥락에서 투자 관리자가 활용할 수 있는 주요 데이터 출처는 두 가지입니다:

1. 전통적 데이터 – 재무 보고서, 뉴스, 거래 보고서, SEC 제출 서류

2. 대체 데이터 – 결제, 지리적 위치, 소셜 미디어, 위성 데이터

대체 데이터는 어떻게 생성되나요?

앞서 설명한 바와 같이 대체 데이터는 다양한 출처에서 유래할 수 있습니다.

그렇다면 누가 이 데이터를 생성할까요?

대체 데이터의 주요 출처는 세 가지입니다 :

1. 개인: 일반인들은 소셜 미디어 상호작용, 업무, 그리고 Google, Bing, Yahoo 검색을 통해 매일 방대한 양의 데이터를 생성합니다. 누군가 댓글을 남기거나 전자상거래 사이트에 리뷰를 작성할 때마다 행동 패턴을 나타내는 대체 데이터를 생성하는 것입니다. 이 데이터는 ‘비정형 대체 데이터’로 간주되며 기업 의사 결정 과정에서 여러 요소 중 하나로 활용될 수 있습니다.

2. 기업: 반면 기업들은 분석이 용이하고 재무적 의사 결정 시 더 깊은 통찰력을 제공할 수 있는 구조화된 데이터를 생성하는 경향이 있습니다. 여기에는 구매, 신용카드 거래 등으로 인해 생성되는 거래 데이터가 포함됩니다. 정부 기관, 세금 등에서 나오는 데이터도 이 범주에 속합니다.

3. 사물인터넷(IoT) 생성 데이터: 센서 및 종단 장치에서 생성되므로 일반적으로 비정형 데이터입니다. 스마트 TV, POS(Point of Sale) 시스템, 주차 및 교통 센서와 같은 IoT 장치는 적절히 분석할 경우 강력한 통찰력을 제공할 수 있는 유용한 데이터를 제공합니다. 예를 들어, 사람들이 특정 거리를 얼마나 자주 지나가는지, 또는 고객이 특정 쇼핑몰을 얼마나 자주 방문하는지 등이 있습니다. 휴대폰 및 기타 위치 기반 시스템에서 생성되는 데이터도 이 범주에 포함됩니다.

다양한 유형의 대체 데이터

웹 데이터 – 웹 검색, 클릭률, 웹 인구 통계. 이는 특히 마케팅 및 전자상거래 연구에 유용합니다.

소셜 감성 데이터 – 브랜드 콘텐츠 및 포지셔닝에 대한 소비자 행동과 반응. 여기에는 댓글, 온라인 상호작용, 트윗, 게시물이 포함됩니다. 이는 현재 시장 동향과 소비자 행동 변화를 파악하는 데 방향을 제시할 수 있습니다.

지리적 위치 데이터 – 이 유형의 데이터는 기업이 특정 제품에 대한 수요가 높은 지역을 파악하는 데 도움을 줄 수 있습니다. 부동산 투자자들도 구역 규정이나 신규 인프라 건설과 같은 대체 데이터 포인트를 기반으로 프로젝트 개발에 긍정적인 전망을 가진 지역을 식별하는 데 이 유형의 데이터를 활용할 수 있습니다.

신용카드 거래 – 거래 데이터는 대출 평가를 위한 소매 매출 및 결제 습관을 추적하여 소매업체 실적 보고서를 선제적으로 파악하고 소비자의 선택적 지출 패턴을 식별할 수 있습니다.

POS(Point of Sale) 거래 – 판매량, 소비자 행동, 인기 제품, 그리고 다양한 소비자 세그먼트 간 선호 결제 방식에 대한 정보를 제공할 수 있습니다.

기상 및 위성 이미지 – 이 데이터는 주로 원시 형태(이미지)로 수집되지만, 구체적인 결론과 예측을 도출할 수 있는 알고리즘 및/또는 분석 도구에 입력될 수 있습니다. 예를 들어, 특정 지역이나 인구 집단의 경제 활동을 측정할 때 활동이 가장 활발한 시간대와 영업 중이거나 활동 중인 상점 수를 파악할 수 있습니다(코로나바이러스 확산 기간 동안 사람들이 혼잡한 상점을 피하고 감염률을 낮추는 데 특히 유용했습니다).

대체 데이터가 왜 이렇게 인기가 많을까?

투자 관리 회사들은 데이터를 활용하여 패턴을 식별하고 투자 상품에 대한 독보적인 통찰력을 얻습니다. 헤지펀드는 데이터 분석 기술과 빅데이터를 최초로 활용한 분야 중 하나였으며, 사모펀드 운용사들이 그 뒤를 이었습니다. 이러한 ‘선구적’ 기업들은 대체 데이터 분야에서도 선도적 역할을 하고 있습니다. 대체 데이터가 널리 보급되기 전에 이를 먼저 도입한 기업들이 가장 큰 혜택을 누릴 수 있는 위치에 있습니다.

대체 데이터의 매력은 무엇인가?

이용 가능한 방대한 데이터 세트는 경쟁사 대비 잠재적 우위를 제공한다. 전 세계 데이터 생성량은 2026년까지 163ZB에 달할 것으로 예상된다. 이는 인공지능(AI) 도구에 공급할 데이터가 더 많아지고, 발견할 수 있는 잠재적 패턴과 트렌드가 증가하며, 경쟁사 대비 우위를 점할 가능성이 확대됨을 의미한다.

이러한 점을 고려하여 투자 회사들은 데이터 마이닝 작업을 지원하기 위해 데이터 과학자와 분석가를 점점 더 빠르게 채용하고 있습니다. 파이낸셜 타임스에 따르면, 투자 회사 내 데이터 분석가 수는 기하급수적으로 증가하고 있습니다.

모델 기반 투자에서 대체 데이터의 역할은 무엇인가?

모델 기반 투자는 금융 분야 전반, 특히 투자에 대한 통찰력을 얻기 위해 분석적 데이터 모델을 활용하는 것을 의미합니다. 대부분의 기업이 아직 전통적 데이터 소스에서 완전히 벗어나지는 않았지만, 증가된 알파(초과수익)를 창출하기 위한 혁신적이고 새로운 아이디어를 찾으려는 투자 회사들에게 대체 데이터의 중요성은 점점 더 커지고 있습니다.

간단한 정의: 인베스토피디아에 따르면 “알파(α)는 투자 전략이 시장을 능가하거나 우위를 점하는 능력을 설명하는 용어”입니다.

또한 코로나19로 인해 온라인 활동과 디지털 시장으로의 전환이 가속화되면서 은행과 투자자들은 의사결정 자료로 대체 데이터에 주목하고 있습니다. 이러한 데이터는 거의 실시간에 가까운 정보를 제공하여 금융 기관이 위험 관리, 대출 등에 관한 시의적절한 결정을 내릴 수 있게 합니다.

퀀트 또는 모델 기반 투자 접근법을 구현하는 것은 데이터 수집과 분석이라는 두 부분으로 구성됩니다. 데이터 수집은 대체 데이터 수집을 전문으로 하는 데이터 수집웹 크롤링 도구, 데이터 플랫폼, 데이터 공급자를 활용하여 수행할 수 있습니다.

그러나 데이터 확보는 첫 단계에 불과합니다. 데이터는 분석과 해석을 거쳐야만 활용 가치가 생깁니다. 대체 데이터는 다양한 출처에서 유래하고 비정형적이기 때문에 기존 데이터보다 분석이 더 어려울 수 있습니다. 머신 러닝(ML)과 자연어 처리(NLP) 도구의 부상은 대체 데이터가 생성하는 방대한 데이터 세트를 분석하는 데 핵심적입니다. AI 도구는 인간보다 훨씬 빠른 속도로 데이터를 처리할 수 있습니다. AI 기반 모델과 데이터 공급자는 투자 업계가 정확한 의사 결정을 내리는 데 필요한 패턴과 통찰력을 찾는 데 도움을 줄 수 있습니다.

대체 데이터 활용 사례

대체 데이터는 향후 몇 년간 투자 회사와 헤지펀드가 투자를 선정하는 방식을 변화시킬 것입니다. 아이디어 생성, 투자 평가, 포트폴리오 관리에 대체 데이터를 데이터 분석 도구와 결합하면 강력한 효과를 발휘할 수 있습니다. 대체 데이터의 일반적인 활용 사례는 다음과 같습니다:

가격 변동 및 인플레이션 추적 – 기업은 수백만 개의 가격 데이터셋을 추적하여 가격 변동과 인플레이션의 영향을 파악할 수 있습니다.

소셜 미디어를 활용한 실적 예측 – 자산 운용사는 소셜 미디어 및 검색 엔진 데이터를 분석하여 특정 기간 동안 기업의 실적을 예측할 수 있습니다.

성과 추적을 위한 결제 데이터 – 헤지펀드는 신용카드 거래, 위치 데이터, 앱 사용량 등 복합 데이터를 활용해 소매 기업의 온라인 및 앱 판매 성과를 추적할 수 있습니다.

시장 움직임 예측을 위한 웹 데이터 및 소셜 미디어 댓글 – 크롤링된 웹사이트 및 소셜 미디어 데이터를 활용하여 시장 변동을 유발할 수 있는 사건을 탐지할 수 있습니다.

대체 데이터 확보 방법

대체 데이터는 직접 인터넷에서 수집하거나 제3자 공급업체로부터 구매하여 확보할 수 있습니다. 자세히 살펴보겠습니다.

옵션 1: 웹 크롤링

웹 스크래핑 도구 또는 자체 스크래핑 소프트웨어를 통해 웹사이트에서 데이터를 수집하는 것을 의미합니다. 소프트웨어는 웹 페이지를 크롤링하여 특정 키워드에 따라 관련 데이터를 다운로드합니다. 수집된 데이터는 CSV 파일 등 다양한 형식으로 저장할 수 있습니다. 데이터 스크래핑 도구의 적용 범위는 브랜드 보호부터 가격 검증까지 광범위합니다.

도구 선택의 폭은 상당히 넓습니다. 프록시 네트워크와 연동하여 실제 소비자 IP를 활용하는 DIY(직접 제작) 솔루션부터, 코딩이나 인프라 구축이 전혀 필요 없는 완전 자동화 솔루션까지 다양합니다. 필요한 작업은 다음과 같습니다:

  • 대상 데이터 세트를 정의하고
  • 원하는 형식 지정
  • 일정 설정
  • 선호하는 전달 방법 설정

팀 및/또는 시스템으로 직접 전송되는 실시간 데이터 스트림을 활용하세요.

옵션 2: 데이터 세트 구매

다양한 처리 단계의 데이터를 제공하는 대체 데이터 공급업체가 있습니다. 예를 들어 원시 데이터, ‘정제된’ 데이터 또는 반구조화된 데이터를 구매할 수 있습니다. 이는 실시간 데이터가 팀과 시스템에 공급되는 것이 중요하지 않은 ‘정적’ 데이터 세트를 필요로 하는 기업에 적합한 옵션입니다. 예를 들어 패션 하우스는 시즌마다 소셜 미디어를 크롤링하여 새로운 트렌드를 파악할 수 있지만 매일 수행할 필요는 없습니다. 반면 전자상거래 기업은 경쟁사 가격을 시간 단위로 모니터링하고 실시간으로 변경하여 경쟁사를 제치고 ‘가격 우위’를 점유하고자 할 수 있습니다. 후자의 경우 데이터 세트 구매는 덜 실용적인 선택일 수 있습니다.

다음은 무엇인가?

기업들이 대체 데이터가 경제 전반, 특히 금융 부문에 제공하는 가치를 인식함에 따라 대체 데이터 예측 모델과 대체 데이터 기반 수익 흐름의 광범위한 채택이 시작될 것입니다. 기업들이 다음을 수집하는 법을 배울 때:

  • 정확한
  • 정제된
  • 사용자 생성

대체 데이터를 수집하고, 이러한 원시 데이터 세트를 예측 알고리즘과 인공지능에 입력하여 정교함을 더할 때, 우리는 진정한 영향을 목격하게 될 것입니다.

소셜 미디어상의 소비자 심리를 파악하여 생산 및 수집 결정을 내리는 유통 체인을상상해 보십시오.

투자 회사가 거래 데이터에서 파생된 소비자 활동을 실시간으로 파악하여 증권에 투자하거나 공매도하는 모습을상상해 보십시오.

자연 현상(허리케인, 쓰나미, 홍수 등)의 지리 공간 데이터를 기반으로 위험 평가를 수행할 수 있는 보험사를상상해 보십시오.

더 이상 상상할 필요가 없습니다. 위 사례들은 타사에 이끌리기보다 업계를 선도하기로 결심한 선구적인 기업들이 대체 데이터(alt data)를 활용하는 실제 사례들입니다.