소량 학습(Few-shot learning)은 AI와 머신러닝을 혁신하고 있습니다. 소량 학습을 통해 알고리즘은 소규모 데이터셋으로 훈련됩니다. 제한된 데이터로AI 모델을 훈련해야한다면, 소량 학습이 바로 여러분이 찾던 해결책일 수 있습니다.
소량 학습은 어디에 사용되나요?
소량 학습은 현실 세계의 거의 모든 영역에서 적용되고 있습니다. 진정한 범용 LLM이 필요하든, 단순히AI 기반 스크래핑이 필요하든, 소량 학습은 적어도 어느 정도는 여러분의 모델에 활용될 것입니다.
- 여기
- 로봇 공학: 물건을 집는 법을 배울 때 자율 로봇은 방대한 데이터 세트가 필요하지 않습니다. 그들은 과정을 경험한 후 일반화를 수행합니다.
- 개인화 기술: 휴대폰 키보드와 피트니스 워치는 소량 학습을 매우 효과적으로 활용합니다.
- 제약: 신약 개발 시 과학자들은 종종 매우 제한된 데이터셋을 사용합니다. 초기 실험 단계에서 소량 데이터 학습을 활용하면 속도를 높일 수 있습니다.
- 언어 처리: 언어학자와 고고학자는 종종 사용되지 않는 사어(死語)를 다루어야 합니다. 이러한 문헌의 1차 자료는 희귀합니다. AI는 소량 학습을 활용하여 이러한 언어 해독을 도울 수 있습니다.
- 이미지 인식: 얼굴 인식에는 소량 학습이 필요합니다. 대부분의 사람들은 한 사람의 수천 장의 사진으로 AI를 훈련시키지 않습니다. 이 개념은 멸종 위기종 및 희귀종에도 동일하게 적용됩니다.
소량 학습 대 다른 패러다임
소량 학습은 n-샷 학습이라는 더 넓은 기계 학습 기법의 일부입니다. n-샷 학습에서 n은 모델이 훈련되는 클래스당 라벨링된 예시 수를 나타냅니다.
다음은 n-샷 학습의 다른 예시들입니다.
- 제로샷(Zero-Shot): 모델이 선행 지식을 활용해 본 적 없는 클래스를 추측합니다. 말과 호랑이로 훈련된 모델을 상상해 보세요. 이 모델은 얼룩말을 본 적이 없지만, 줄무늬가 있는 말이 얼룩말임을 추론할 수 있습니다.
- 원샷 학습: 모델이 클래스당 단 하나의 예시만으로 훈련됩니다. 스마트폰이 단 한 장의 사진으로 사용자의 얼굴을 학습하여 화면 잠금을 해제할 수 있게 하는 것이 원샷 학습입니다.
소량 학습은 어떻게 작동할까?
소량 학습은 제로샷 및 원샷보다 광범위하지만 여전히 매우 제한된 데이터셋에 의존합니다. 적절한 훈련 데이터를 통해 모델은 패턴과 경향을 식별하기 위한 일반화를 신속하게 수행할 수 있습니다.
제로샷 및 원샷과 유사하게, 소량 학습은 다음과 같은 원칙을 기반으로 구축됩니다.
- 기존 지식 활용: 모델은 이전 작업에서 얻은 지식과 훈련을 활용하여 새롭고 이전에 보지 못한 데이터에서 패턴을 식별합니다.
- 작업별 적응: 모델은 제한된 예시를 가진 새로운 데이터를 적절히 처리하기 위해 내부 표현(클래스)과 의사 결정 과정을 변경합니다.
- 소규모 데이터셋에서의 일반화: 신중하게 선별된 훈련 데이터를 통해 모델은 소수의 샘플만으로도 효율적으로 일반화할 수 있습니다.
소량 데이터 학습의 유형
소량 학습은 고정된 개념이 아닙니다. 이는 지속적으로 진화하는 더 큰 AI 산업의 일부입니다. 그러나 업계는 다음 몇 가지 섹션에 나열된 기술들에 대해 일반적인 합의를 이루었습니다.
전이 학습

모델이 한 작업에서 학습한 지식을 새로운 작업에 활용하는 것을 “전이 학습”이라 합니다. 사람처럼 AI도 과거 경험을 활용해 새로운 상황에 적응할 수 있습니다. 모델의 지식은 전이되어 새로운 작업을 수행할 때 관련성을 갖게 됩니다.
AI에게 콜 오브 듀티를 가르쳤다고 가정해 보십시오. 그런 다음 이 모델이 포트나이트를 플레이하도록 해야 합니다. 모델은 이미 조준, 이동, 전투 전략 사용법을 알고 있습니다. 콜 오브 듀티에서의 이전 경험은 포트나이트 플레이 시 성공 가능성을 높여줍니다.
전이 학습은 AI나 기계 학습에만 국한되지 않습니다. 인간은 매일 전이 학습을 활용합니다. 전이 학습은 농업 혁명의 주요 동력이었습니다. 선사 시대 인간은 특정 식량 작물을 재배하는 법을 배웠습니다. 이후 우리 조상들은 이 기술을 발견할 수 있는 모든 다른 식물성 식량으로 전이했습니다. 결국 그들은 동일한 원리를 가축 사육에도 적용했습니다.
데이터 증강

소량 학습을 확장하기 위해 데이터 증강을 활용할 수 있습니다. 현실 세계에서는 실제 데이터와 유사한 가상의 데이터를 생성하는 경우가 많습니다. 이는 종종 가상의 데이터에 무작위성과 노이즈를 추가하는 것을 포함합니다.
보간법과 외삽법은 데이터 증강을 이해하기 쉽게 해줍니다. 아래 그래프를 보십시오. 보시다시피 실제 데이터는 단 네 개뿐입니다. 점선은 이 점들을 이용해 패턴을 만듭니다. 이 플롯 포인트를 사용하면 X=5일 때 Y=10, X=0일 때 Y=0이라고 외삽할 수 있습니다. X=1.5일 때 Y=3이라고 보간할 수 있습니다.

제한된 데이터에서도 추세를 식별할 수 있습니다. 추세를 이해하면 원본 데이터가 제시한 규칙을 따라 무한한 추가 데이터를 생성할 수 있습니다. (Y = 2X)라는 공식은 4개의 데이터로 구성된 데이터셋을 무한한 점의 집합으로 확장합니다.
현실 세계에서는 완벽한 것이 없으며 위와 같은 예시는 흔히 존재하지 않습니다. 말을 주제로 AI를 훈련시키는 상황을 상상해 보세요. 갈색 말의 실제 사진 한 장이 있습니다. 교묘한 편집을 통해 이제 빨간 말, 검은 말, 흰 말, 그리고 얼룩말 사진들을 얻었습니다. 단 한 장의 말 사진으로 훨씬 더 큰 데이터셋을 생성한 것입니다.
데이터 증강에 대한 자세한 내용은여기에서 확인할 수 있습니다.
메타 러닝

메타 러닝은 실제 데이터보다 문제 해결에 더 초점을 맞춥니다. 메타 러닝을 통해 모델은 더 큰 문제를 작은 문제로 분해하고, 문제 유형에 따라 다른 전략을 사용하도록 학습됩니다. 초등학교 때 배운 연산 순서를 떠올려 보세요.
다음 문제를 보세요: (2+(2*3))/4=?. 이 문제를 풀려면 분해해야 합니다.
(2+(2*3))/4=?
2*3=6. 이제(2 + 6)/4로 단순화할 수 있습니다.2+6=8. 이제 문제는8/4가됩니다.8/4=2입니다. 이 작은 문제들의 연결 고리를 통해(2+(2*3))/4=2임을증명할 수 있습니다.
큰 문제를 작은 단계로 나누어 해결함으로써 답이 2라는 결론에 도달할 수 있습니다. 기계에게 큰 문제를 작은 문제로 나누어 해결할 수 있다고 가르칠 때, 기계는 각 작은 문제에 적합한 전략을 사용합니다. 이를 메타 학습이라고 합니다. 기계는 수많은 다양한 시나리오에 적용할 수 있는 문제 해결 전략을 학습합니다.
초기에 배운 또 다른 예를 살펴보자. 문장은 대문자로 시작해야 하며 구두점으로 끝난다. 모델이 이를 학습할 때 단순히 문장 작성법을 익히는 것이 아니다. 모델은 인간이 읽고 이해할 수 있는 방식으로 모든 생각을 효과적으로 전달하는 법을 습득한다.
위에서 언급한 다른 사례들처럼, 메타 학습은 기계 학습에 적용되기 수십만 년 전부터 인간에 의해 사용되어 왔습니다.
메트릭 학습

메트릭 학습에서는 모델이 단순히 레이블을 할당하는 대신 데이터 간의 유사성을 비교하도록 가르칩니다. 그런 다음 함수를 사용하여 메트릭을 비교하고 새로운 데이터가 이전에 본 데이터와 얼마나 가까운지 확인합니다.Teachable Machine을사용하면 이미지를 실험하며 메트릭 훈련이 실제로 어떻게 작동하는지 확인할 수 있습니다.
고양이 사진 세트로 모델을 훈련한다고 가정해 보겠습니다. 모델은 이 이미지들을 분석하여 털, 수염, 귀 모양과 같은 다양한 특징을 비교하는 법을 학습합니다.
모델 훈련이 완료되면 새로운 고양이 사진을 제시합니다. 모델은 이 새 사진의 데이터를 훈련 데이터와 비교합니다. 털, 수염, 귀 모양의 데이터 포인트를 분석한 후 유사도 점수를 계산합니다. 새 사진이 기존 데이터와 98% 유사하다면, 모델은 해당 이미지가 고양이일 가능성이 매우 높다고 판단합니다.
만약 모델이 “고양이는 귀엽다”고 판단하도록 다른 방법으로 훈련되었다면, 새 이미지가 고양이일 확률이 98%라고 확신한 후 다른 훈련 유형의 추가 논리를 실행하여 “당신의 고양이 사진이 귀엽네요!”라고 말할 수도 있습니다.
소량 데이터 학습의 본질적 문제점
소량 학습(few-shot learning)을 다룰 때, 작은 데이터셋은 장점이자 단점이 됩니다. 머신 러닝에는 다양한함정이 따릅니다. 아래 문제를 피하려면, 이전 섹션에서 살펴본 개념들을 활용해 소규모 모델을 훈련시켜야 합니다.
일반화
소량 학습 모델은 얼굴 인식 같은 작업에서는 잘 수행할 수 있지만, 완전히 새로운 시나리오를 다룰 때는 데이터가 이전에 본 것과 충분히 유사하지 않을 때 종종 실패합니다.
기존 대규모 언어 모델(LLM)은 수백만, 때로는 수십억 또는 수조 개의 데이터 포인트를 학습합니다. 이를 통해 모델은 특이값을 효과적으로 처리하고 이전에 본 적 없는 데이터를 다룰 때도 괜찮은 예측을 할 수 있습니다.
모델이 연필로 그린 고양이 이미지를 몇 장밖에 보지 못했다면, 실제 고양이 사진을 인식하지 못할 가능성이 매우 높습니다. 견고한 데이터셋이 없다면 모델이 항상 견고한 일반화를 할 수 있는 것은 아닙니다.
데이터 다양성
소규모 데이터 세트는 대규모 데이터 세트에 존재하는 진정한 다양성을 포착하지 못하는 경우가 많습니다. 모델이 소수의 사람들로 훈련되었고 그들의 주소가 모두 미국에 있다고 가정해 보십시오. 이 모델은 편향되어 모든 사람이 미국 출신이라고 가정할 가능성이 높습니다. 광범위하고 다양한 데이터 세트로 이 문제를 완화할 수 있습니다. 당사의데이터 세트는모델 성능 향상에 도움이 될 수 있습니다.
2010년대 후반, 이 문제는 전 세계 AI 모델을 괴롭혔습니다. 현대 AI에서도 이 문제가 여전히 가끔 고개를 들곤 합니다. 모델이 소셜 미디어로 훈련될 때, 모델은 소셜 미디어에서 목격한 편향을 종종 흡수합니다. 우리 모두는 2010년대 후반의 인종차별적 AI 봇에 관한 이야기를 들어본 적이 있습니다. 바로 이런 식으로 발생하는 것입니다.
특징 표현
데이터 다양성 문제는 양날의 검입니다. 가상의 동물 인식 모델을 떠올려 보세요. 이 모델이 고양이만 네 다리를 가진다고 학습했다면, 말 사진을 보고 고양이와 매우 유사하다고 판단할 것입니다.
얼굴 인식 모델이 얼굴에 눈, 귀, 입, 코가 있다는 사실만 학습하고, 이러한 특징들을 훈련 데이터와 제대로 비교하는 법을 배우지 못했다면, 모델은 잘못된(때로는 위험한) 결과를 내놓을 것입니다. 이러한 특징을 가진 누구라도 당신의 휴대폰을 잠금 해제할 수 있다면, 이는 심각한 보안 문제를 야기합니다.
결론
소량 학습(few-shot learning)은 대규모 데이터셋에 대한 의존도를 낮출 수 있습니다. 인간은 태초부터 소량 학습을 활용해 왔습니다. 우리는 최근에야 이를 인공지능에 적용하기 시작했습니다. 몇 가지 장애물이 존재합니다. 소규모 모델을 구축할 때 일반화, 데이터 다양성, 특징 표현은 주요 장애물로 작용합니다. 전이 학습(transfer learning), 데이터 증강(data augmentation), 메타 학습(meta learning), 메트릭 학습(metric learning)은 대규모 모델뿐만 아니라 소규모 모델에서도 이러한 과제를 극복할 수 있는 훌륭한 도구들을 제공합니다.