제로샷 학습: 훈련 데이터 없이 AI가 학습하는 방법

LLM이 전혀 접해본 적 없는 주제에 대해 이야기해 보세요. 스스로 해결할 수 있을까요? 이는 종종 진정한 지능의 시험으로 여겨집니다. 모델이 훈련 데이터 없이 추론과 일반화를 통해 학습할 때 이를 제로샷 학습(zero-shot learning)이라 합니다.

기존 AI 모델은 라벨링된 예시가 포함된 거대한 데이터셋이 필요했습니다. 제로샷 학습은 훈련 데이터 없이 즉석에서 학습할 것을 모델에 요구합니다. 제로샷 학습은 표준 훈련을 대체하지 않습니다. 제로샷은 사전 훈련된 모델을 한 단계 발전시키는 데 사용됩니다. AI를 전혀 본 적 없는 상황에 던져도 AI는 여전히 우수한 성능을 발휘할 수 있습니다.

제로샷 러닝의 모든 것을 함께 알아보세요.

제로샷 학습은 어디에 사용될까요?

여러분의 작업을 다른 시각에서 바라봐 줄 사람이 필요했던 적이 있나요? 바로 여기에 제로샷이 등장합니다. 제로샷 학습을 통해 AI 모델은 입력값을 받아 처리한 후, 전혀 훈련되지 않은 상태에서 의견을 제시합니다. 이는 모든 산업 분야에서 유망한 결과를 낳습니다. AI에게 알려지지 않은 것을 처리하도록 요청하고 결과를 얻는다면, 바로 제로샷 학습이 작동하는 모습입니다.

의료 분야: 희귀하거나 미확인 질환을 진단할 때, 모델은 제로샷 학습을 활용해 희귀하고 전례 없는 의학적 상태를 진단합니다. 이러한 상황에서는 데이터가 부족하거나 아예 존재하지 않습니다.
제약: 모델은 이전에 본 적 없는 데이터를 분석하여 아직 존재하지도 않는 화합물의 효능을 예측할 수 있습니다.
자연어 처리: 대규모 언어 모델(LLM)은 매일 하루 종일 사람들과 끊임없이 대화합니다. 새로운 속어가 등장하거나 개인의 문제를 이야기할 때, 모델은 제로샷 학습을 활용해 일반 인간이 할 법한 추론과 일반화를 수행합니다.
컴퓨터 비전 및 로봇공학: 현실 세계에서 마주칠 수 있는 모든 이미지로 모델을 훈련시키는 것은 사실상 불가능합니다. 모델은 새로운 이미지를 인식하고 어떻게 처리할지 판단합니다. 자율주행차는 본 적 없는 교차로에서 멈추고, 룸바는 가구를 인식해 피합니다.
엔터테인먼트 및 창작 산업: 제로샷은 모델이 독특한 게임 캐릭터를 생성하도록 합니다. DALL-E와 유사한 모델들은 그 누구도 본 적 없는 독창적인 예술 작품을 만들어냅니다.

제로샷 학습은 이미 전 세계적으로 활용되고 있습니다. AI 도입이 확대될수록 제로샷의 성장세도 지속될 것입니다.

제로샷 대 다른 패러다임

관리가 형편없고 제대로 된 교육도 없는 직장에서 일해 본 적 있나요? 그렇다면 여러분은 제로샷 학습을 경험한 것입니다. 제로샷 학습은 ‘n-샷’ 학습이라는 더 큰 패러다임의 일부입니다. 여기서 n은 라벨이 붙은 예제의 수를 의미합니다. 제로샷 학습은 사전 훈련이 전혀 없음을 의미합니다. 전통적인 머신러닝은 라벨이 붙은 입력 데이터로 구성된 거대한 데이터셋을 사용합니다.

원샷 학습: 클래스당 단 하나의 라벨링된 샘플만 있는 데이터로 모델을 훈련합니다.
소량학습(Few-shot Learning): 모델이 소량의 라벨링된 예제로 훈련됩니다.
전통적 머신러닝: 기존 학습 방식에서는 라벨링된 예시가 포함된 방대한 데이터셋으로 모델을 훈련합니다. 이는 제로샷의 반대 개념입니다.
제로샷 학습: 모델은 이전에 본 적도, 배운 적도 없는 것들을 마주합니다. 그냥 혼란스러운 상황에 던져진 채 스스로 알아내고 학습하길 기대받는 셈이죠.

제로샷 학습은 즉석에서 이루어지는 현실 세계의 학습과 유사합니다. 상사가 당신을 현장에 던져놓고 스스로 알아서 해결하기를 기대하는 것과 같습니다.

기존 제로샷 학습(ZSL)

실용적인 단일 질문에 답하기 위해 쓸모없는 정보의 샘을 찾고 계신가요? 대규모 언어 모델(LLM)이 이를 해결해 줄 수 있습니다. LLM은 기존 ZSL의 대표적인 사례입니다. 이 모델들은 여러분이나 제가 상상할 수 있는 것보다 훨씬 많은 데이터로 사전 훈련됩니다. 위키피디아 전체, 기업이 적절하다고 판단한 모든 소셜 미디어, 수천 권의 책 등등… 훨씬 더 많은 자료가 포함됩니다.

인공지능을 공식적으로 훈련시킬 때는 여러 클래스를 부여합니다. 말에 대해 훈련시키려면 말 관련 사진과 책을 제공하면 됩니다. 이렇게 하면 “말”이라는 클래스가 생성됩니다. 모델은 이 말 클래스와 관련된 정보를 처리하는 내부 규칙과 일반화를 도출해냅니다.

모델이 충분한 사전 훈련을 받으면 새로운 데이터를 받아들여 자체 클래스를 생성할 수 있습니다. 말 훈련 모델에 얼룩말 사진을 보여주면, 줄무늬가 있는 말이 얼룩말임을 추론할 수 있습니다. 비록 얼룩말에 대해 훈련받지 않았더라도, 내부적으로 새로운 ‘얼룩말’ 클래스를 생성하고 이를 처리하는 규칙을 만들기 시작할 만큼 똑똑합니다.

방대한 사전 훈련 요구사항으로 인해 ZSL은 상당히 높은 비용이 발생합니다. 모델이 얼룩말을 이해할 수는 있지만, 이를 위해 세계의 절반을 훈련시켜야 했죠! 사전 훈련으로 인해 ZSL은 효율적이지 않습니다. 다음에 ChatGPT에게 무의미한 질문을 할 때, 기계가 당신의 단순한 질문에 답하기 위해 겪어야 했던 과정을 생각해보세요.

일반화 제로샷 학습(GZSL)

GZSL은 ZSL의 개념을 차용하되 효율성을 높이기 위해 간소화합니다. GZSL에서는 혼돈을 활용해 학습 과정을 단순화합니다. 일반화된 제로샷 학습은 훈련 과정에 여러 미지수를 혼합합니다. 모델은 이러한 미지수를 바탕으로 일반화를 통해 내부 클래스와 규칙을 생성합니다.

말에 대해 모델을 사전 훈련시키는 대신, 말과 얼룩말이 함께 있는 단일 사진을 제공해 보는 건 어떨까요? 간단한 텍스트도 함께 입력할 수 있습니다: “제공하는 사진에는 여러 마리의 말과 얼룩말이 있습니다. 얼룩말은 줄무늬가 있는 말입니다.”

모델은 이 간단한 설명과 단일 이미지를 활용해 말 클래스와 얼룩말 클래스를 모두 생성할 수 있습니다.

말 클래스: 모델은 말 클래스를 생성하고 사진 속 줄무늬가 없는 말들의 데이터를 저장합니다.
얼룩말 클래스: 간략한 설명과 사진 속 줄무늬 말만 활용해 얼룩말 클래스를 생성합니다.

이를 통해 훈련 데이터의 크기를 대폭 줄일 수 있습니다. 이제 우리는 단일 이미지와 일부 텍스트로 여러 마리의 말과 얼룩말을 인식하도록 모델을 훈련시켰습니다. 평균적인 사진 크기가 약 4kb라면, 네 마리의 말로 훈련할 경우 최소 16kb의 데이터셋이 필요합니다. 혼란을 더해 모든 동물을 한 장의 사진에 포함시키면 훈련 데이터셋은 단 4kb에 불과합니다. GZSL을 통해 우리는 더 빠르고 작은 모델을 위한 더 간결하고 고품질의 데이터를 제공합니다.

제로샷 학습의 작동 원리

가상의 대규모 언어 모델(LLM)의 내부 구조를 분석해 실제 작동 방식을 살펴보겠습니다. 모델은 입력 데이터를 받아 자체적으로 새로운 규칙과 분류 체계를 생성합니다. 이 과정이 어떻게 이루어지는지 자세히 알아보겠습니다.

라벨

프리트레이닝은 학교와 비슷합니다. 모델은 정보를 처리하고 ‘생각하는’ 기본 방식을 배웁니다. 프리트레이닝이 끝나면 모델은 우리가 제공한 모든 종류의 라벨링된 클래스와 규칙을 학습합니다. 이 단계에서 우리는 모델에 클래스와 라벨을 제공합니다. 졸업할 때쯤이면 모델은 스스로 학습하는 법을 알게 됩니다. 초기처럼 계속해서 직접 가르쳐 줄 필요가 없어집니다.

우리 모델은 우리가 레이블을 제공하기를 기다리지 않습니다. 앞서 말과 얼룩말 예시를 기억하시나요? 모델은 우리의 도움 없이도 클래스를 생성하고 레이블을 지정합니다. 이는 훈련에 소요되는 귀중한 시간을 절약해주면서 모델이 어느 정도 자율성을 발휘할 수 있게 합니다.

전이 학습

모델은 추론을 수행합니다. 말이 훈련된 모델이 얼룩말을 학습할 때, 기존 말 클래스의 규칙 대부분(전부는 아니더라도)을 새로운 얼룩말 클래스로 이전합니다. 학습이 모델의 한 부분에서 다른 부분으로 전이되는 것입니다.

예를 들어, 구글에서 호텔 데이터를 추출하도록 모델을 훈련시킨다고 가정해 보세요( 여기에서 수동으로 하는 방법을 배울 수 있습니다). 그런 다음, Booking.com에서 데이터를 추출하도록 가르칩니다( 여기에서 수동으로 하는 방법을 배울 수 있습니다). Booking.com에서 데이터를 추출할 때, 모델은 구글 호텔에 대한 지식을 활용하여 Booking.com의 새로운 호텔 데이터를 추출하는 데 도움을 받을 것입니다.

추론

제로샷 학습의 핵심은 추론 능력입니다. 훈련이나 경험 없이 끔찍한 직장에 던져졌을 때 어떻게 버텼나요? 아마도 추론과 상식을 활용해 해결했을 것입니다. 우리 AI 유아에게 “보고 말하기” 데이터셋을 제공한다고 상상해 보세요. 각 클래스에 대한 규칙을 설정합니다. 예를 들어 “소는 뿡뿡 소리를 낸다!”라고 생각해보세요. 소 클래스를 만들고 “뿡뿡”이라고 말한다는 규칙을 작성할 것입니다.

AI가 성장한 후에는 이런 작업이 필요하지 않습니다. 우리 모델은 “꼬꼬”나 “깃털” 같은 잘못된 캡션이 달린 닭 사진을 봅니다. 이러한 간단한 단서를 바탕으로 사전 훈련된 모델은 이것이 닭임을 파악합니다. 그런 다음 “꼬꼬”와 “깃털” 같은 규칙을 가진 닭 클래스를 생성합니다. 추론할 때 우리 모델은 상식과 현실 감각을 활용해 실제 문제를 해결합니다(아무리 농장과 관련된 문제라도 말이죠).

사전 훈련된 파운데이션 모델

우리 모델은 사실 신생아와 매우 유사하게 시작합니다. 완전히 무력하며 스스로 아무것도 할 수 없습니다. 사전 훈련은 모델이 스스로 생각할 수 있도록 성장하는 과정입니다. 제로샷 학습을 하기 전에, 모델은 “학습하는 법을 배워야” 합니다.

모든 인간은 성장 과정에서 이를 수행합니다. 먼저 먹이를 먹는 법을 배우고, 고형식을 섭취하는 법과 앉는 법을 익힙니다. 약 1세가 되면 걷기와 말하기를 배웁니다. 걷기, 말하기, 배변 훈련 대신 AI 모델은 수학 및 언어 처리 같은 기초적인 것부터 학습을 시작합니다. 이후 데이터 처리 방식을 습득합니다.

모델이 데이터 처리 방법을 알게 되면, 우리가 찾을 수 있는 모든 데이터를 공급합니다. 그리고 더 많은 데이터를 공급합니다! 결국 모델은 자체 내부 클래스에 접근하는 방법을 학습합니다. 모델이 클래스를 읽고 쓸 수 있게 되면, 점차 일반화를 시작하며 시간이 지나면서 추론 능력으로 발전합니다. 효과적인 사전 훈련을 거친 모델은 제로샷 학습을 통해 독립적으로 학습할 수 있습니다.

제로샷 학습 방법

외부에서 보면 제로샷 학습은 마법처럼 보입니다. 하지만 모든 마술이 그렇듯, 이 역시 환상에 불과합니다. AI 모델은 매우 특정한 기술 집합에 의존합니다. 원시 데이터가 가져와져 우리가 읽거나 들을 수 있는 실제 답변으로 변환됩니다. 모자에서 토끼가 꺼지기 전에 무슨 일이 벌어지는지 살펴보겠습니다.

특성

우리 모델은 특질, 즉 속성을 통해 다양한 동물을 식별합니다. 속성은 말 그대로 간단합니다. 모델이 여러 동물이 등장하는 사진을 볼 때, 그 특질을 활용해 무엇이 무엇인지 파악합니다.

말: 울음소리, 네 다리, 발굽.
닭: 꽥꽥, 두 다리, 날개.
소: 뿡뿡, 네 다리, 발굽.

특성은 기계가 인간과 마찬가지로 합리적인 추측을 할 수 있게 합니다.

임베딩

기계는 우리와 같은 방식으로 데이터를 보지 않습니다. 대신, 행렬이라고 불리는 데이터의 숫자 목록을 보유합니다. 말, 닭, 소의 속성을 숫자로 표현한다고 가정해 봅시다.

동물	소리	다리	특징
말	히히	4	굽
닭	꼬꼬	2	날개
소	뿡뿡	4	굽

이 표의 각 행은 목록으로 표현할 수 있습니다.

말: [히히, 4, 발굽]
닭: [꼬꼬, 2, 날개]
소: [뿡, 4, 발굽]

그러나 위의 리스트는 아직 기계가 읽을 수 있는 형태가 아닙니다. 기계는 숫자를 이해하는 데 탁월합니다. 소리의 경우, “네이”, “꼬꼬”, “뿡”을 나타내기 위해 1, 2, 3을 인코딩할 것입니다. 우리가 고려해야 할 특징은 두 가지(발굽과 날개)뿐이므로, 1은 발굽을, 2는 날개를 나타냅니다.

모델이 이 정보를 인식하는 방식은 다음과 같습니다.

말: [1, 4, 1]
닭: [2, 2, 2]
소: [3, 4, 1]

데이터를 숫자로 임베딩함으로써 AI 모델은 관계를 발견하고 규칙을 도출하는 데 효율적으로 처리할 수 있습니다. 이는 모델의 일반화 및 추론 능력의 기반이 됩니다. 머신러닝에서의 임베딩에 대해 자세히 알아보세요.

생성적

생성 모델은 허공에서 새로운 클래스를 창조합니다. 생성적 기법은 모델이 임베딩된 속성들 간의 관계를 파악하여 결론을 도출하도록 합니다. 훈련 없이 얼룩말을 식별하는 모델의 사례가 바로 생성적 능력입니다. 모델은 줄무늬가 있는 말임을 확인한 후, 줄무늬 말이 얼룩말이라는 결론을 생성해 냈습니다.

호텔 데이터를 수집 중이지만 평점이 없다면, AI 모델이 제공된 정보를 바탕으로 평점을 생성할 수 있습니다. AI 모델은 상상력을 발휘해 새로운 데이터를 생성합니다. 모델은 객실에 큰 침대와 온수 욕조가 있다면 5성급이라고 판단할 수 있습니다. 이는 매우 강력하지만, 동시에 환각 현상을 초래할 수도 있습니다.

생성적 방법을 사용할 때는 주의가 필요합니다. 모델이 호텔 등급을 매길 수 있다면 훌륭합니다. 하지만 “공자가 2026년에 마지막으로 쓴 글은 무엇인가?”라고 모델에게 묻는다면, 공자는 수천 년 전에 죽었지만 AI 모델은 거의 “모르겠다”고 대답하지 않습니다. 아래와 같은 응답을 받을 가능성이 있습니다.

위 출력은 사실 유교보다 도가적 성향이 강합니다. 현대 AI는 환각 현상에 대한 방어 장치가 상당히 강력합니다. 사실 ChatGPT에게 환각을 허용하도록 설정해야 했습니다! 모델의 상상력을 실험해보고 싶다면 “완전히 제정신이 아닌 상태로”라고 지시하고 완전히 미쳐가는 모습을 지켜보세요.

대조 학습

훈련 없이 AI가 고양이와 개를 어떻게 구분할까요? 그 해답은 대조 학습에 있습니다. 아래에서 개와 고양이를 이전에 다른 동물들을 분석했던 것처럼 속성별로 분해해 보겠습니다.

개: 멍멍, 네 다리, 발
고양이: 야옹, 네 다리, 발

위 동물들은 거의 동일하지만 완전히 같지는 않습니다. 이 동물들은 대조적인 소리를 내죠. 개는 “멍” 하고, 고양이는 “야옹” 합니다. 모델은 이 데이터를 숫자로 변환합니다. 그런 다음 두 동물의 차이를 빠르게 찾아냅니다. 제로샷 학습을 통해 AI 모델은 임베딩에서 대조적인 정보를 신속하게 걸러냅니다.

프롬프트 엔지니어링

프롬프트 엔지니어링은 AI와 대화하는 기술입니다. 무엇을 말해야 할지 알면 모델이 원하는 정확한 출력을 생성하도록 할 수 있습니다. 클로드(Claude)를 이용한 웹 스크래핑에 관한 이전 글에서 저는 다음과 같은 프롬프트를 사용했습니다.

"""안녕하세요, HTML 페이지의 이 부분을 파싱하여 JSON으로 변환해 주세요.  줄바꿈, 이스케이프 문자, 공백을 제거해야 합니다:  {response.text}"""

프롬프트는 명확하며 모델은 제가 원하는 작업을 정확히 이해합니다. 페이지에서 인용문 목록을 반환합니다. 다음은 그 일부입니다.

"quotes": [
    {
      "text": "우리가 창조한 세상은 우리의 사고 과정이다. 사고를 바꾸지 않고서는 세상을 바꿀 수 없다.",
      "author": "Albert Einstein",
      "tags": ["change", "deep-thoughts", "thinking", "world"]
    },
    {
      "text": "해리, 우리의 진정한 모습을 드러내는 것은 능력보다 선택이다.",
      "author": "J.K. Rowling",
      "tags": ["abilities", "choices"]
    },

데이터 형식을 명시하지 않았다면, 모든 출력이 일반 텍스트 형식으로 제공되었을 것입니다. 일반 텍스트는 사람이 읽기에는 괜찮지만, 프로그램을 작성할 때는 JSON이 훨씬 더 다루기 쉽습니다. 모델이 원하는 결과를 제공하는 이유는 제가 정확히 원하는 것을 출력하도록 프롬프트를 작성했기 때문입니다. 프롬프트 엔지니어링은 생성된 출력이 사실적이고 적절한 형식을 갖도록 제어합니다.

제로샷 학습의 한계와 도전 과제

제로샷 학습에는 대가가 따릅니다. 앞서 언급했듯이 제로샷은 환각(hallucination)의 여지를 남깁니다. AI 모델은 “모르겠다”고 말하거나 자신이 틀렸음을 인정하는 것을 꺼립니다.

환각 현상을 방지하기 위해 우리는 사전 훈련에 크게 의존합니다. 훈련 데이터는 비용이 많이 들고 종종 불완전합니다. 직접 데이터를 수집한다면 ETL 파이프라인을 구축해야 합니다. ETL은 “추출(Extract), 전송(Transfer), 로드(Load)”를 의미합니다. 대규모로 진행할 경우 ETL은 결코 쉬운 일이 아닙니다. 테라바이트 단위의 관련 데이터를 수집해야 합니다. 다음으로 데이터를 정리하고 형식을 지정해야 합니다(전송). 마지막으로 모델에 로드합니다. AI의 함정에 대해 자세히 알아보세요.

Bright Data에서는 깨끗하게 정리된 사전 제작 데이터셋을 제공합니다. 이를 통해 사전 훈련을 한 단계 업그레이드하고, 추출·정제·포맷팅에 소요되는 시간(심지어 며칠)을 절약할 수 있습니다. 당사의 구조화된 데이터셋을 확인해 보세요.

결론

제로샷 러닝은 사전 훈련 없이도 모델이 새로운 정보를 처리할 수 있게 하여 AI에 혁신을 일으키고 있습니다. AI 도입이 확대됨에 따라 이 기술은 산업 전반에서 더욱 필수적일 것입니다.

고품질 데이터로 AI 역량을 강화할 준비가 되셨나요? Bright Data의 무료 체험을 시작하고 지금 바로 최상위 데이터셋을 활용하세요!

문의하기 무료 체험 시작하기

제로샷 학습이란 무엇인가요?