n8n을 활용한 웹 스크레이퍼 API로 GPT-4o 미세 조정하기

이 가이드에서는 다음을 확인하실 수 있습니다:

파인 튜닝(fine-tuning)이란 무엇인가.
n8n을 통해 웹 스크레이퍼 API로 GPT-4o를 미세 조정하는 방법.
– 다양한 파인 튜닝 접근법 비교
고품질 데이터가 모든 파인 튜닝 프로세스의 핵심인 이유.

자, 시작해 보겠습니다!

파인 튜닝이란 무엇인가?

미세 조정 (SFT, 감독형 미세 조정)은사전 훈련된 대규모 언어 모델(LLM)의 특정 지식이나 능력을 향상시키는 절차입니다. LLM의 맥락에서 사전 훈련은 AI 모델을 처음부터 훈련시키는 것을 의미합니다.

모델은 훈련 데이터를 모방하기 때문에 미세 조정이 중요합니다. 즉, 훈련 후 LLM을 테스트할 때 그 출력은 어느 정도 훈련 데이터를 따르게 됩니다. LLM은 범용 모델이므로 특정 지식을 습득하게 하려면 특정 데이터로 미세 조정해야 합니다.

SFT에 대해 자세히 알고 싶다면, LLM의 지도 학습 기반 파인 튜닝 가이드를 참고하세요.

Bright Data n8n 통합을 통한 GPT-4o 미세 조정 방법

최근 튜토리얼에서 다룬 바와 같이, 웹 스크레이퍼 API로 수집한 데이터를 활용해 클라우드에서 Llama 4를 미세 조정하는 방법을 이미 알고 계실 것입니다. 이 가이드 섹션에서는 인기 있는 워크플로 자동화 플랫폼인 n8n을 사용해 GPT-4o를 미세 조정하여 동일한 결과를 얻는 방법을 설명합니다.

구체적으로 동일한 대상 웹 페이지인 아마존 베스트셀러 사무용품 페이지를 참조할 것입니다:

The Amazon best-seller products in the category “office products”

이 프로젝트의 목표는 프롬프트에 입력된 특정 특성을 바탕으로 사무용품과 유사한 제품 설명을 생성하도록 GPT-4o-mini를 미세 조정하는 것입니다.

Bright Data 솔루션을 통해 스크래핑한 훈련 데이터셋으로 n8n을 활용해 GPT-4o-mini를 미세 조정하는 방법을 아래 단계별로 따라 해보세요!

필요 사항

이 미세 조정 과정을 재현하려면 다음이 필요합니다:

활성화된 Bright Data API 토큰.
활성화된 n8n 계정.
OpenAI API 토큰.

좋습니다! 이제 GPT-4o 미세 조정을 시작할 준비가 되었습니다.

1단계: 새 n8n 워크플로우 생성 및 Bright Data 노드 설치

n8n에 로그인하면 대시보드는 아래 이미지와 같습니다:

새 워크플로를 생성하려면 “워크플로 생성” 버튼을 클릭하세요. 그런 다음 “노드 패널 열기”를 클릭합니다:

노드 패널에서 Bright Data 노드를 검색하세요. n8n에서 “노드”는 자동화된 워크플로의 구성 요소로, 데이터 처리 파이프라인 내의 개별 단계나 작업을 나타냅니다.

Bright Data n8n 노드를 클릭하여 설치합니다:

Bright Data’s node in n8n’s open nodes paneך

자세한 내용은 n8n에서 Bright Data 설정 방법에 관한 공식 문서 페이지를 참조하세요.

잘하셨습니다! 첫 번째 n8n 워크플로우를 초기화했습니다.

2단계: Bright Data 노드 설정 및 데이터 스크래핑

UI에서 “첫 번째 단계 추가”를 클릭하고 “수동으로 트리거”를 선택하세요:

The node to manually trigger the workflow

이 노드를 사용하면 전체 워크플로를 수동으로 트리거할 수 있습니다.

수동 트리거 노드 오른쪽의 “+”를 클릭하고 Bright Data를 검색하세요. “웹 스크레이퍼 작업” 섹션에서 “URL로 데이터를 동기식으로 스크래핑”을 클릭하세요:

Selecting the Bright Data’s node in the n8n workflow

노드를 클릭하면 다음과 같은 설정 화면이 나타납니다:

다음과 같이 설정하세요:

“연결할 자격 증명”: 클릭하여 Bright Data API 토큰을 추가하세요. 자격 증명이 저장됩니다.
“작업”: “URL로 스크래핑” 옵션을 선택하세요. 이렇게 하면 웹 스크레이퍼 API가 데이터를 추출할 대상 페이지로 사용할 URL 목록을 전달할 수 있습니다.
“데이터셋”: “Amazon 베스트셀러 제품” 옵션을 선택하세요. 아마존 베스트셀러 제품 데이터 추출에 최적화되어 있습니다.
“URLs”: 아마존 베스트셀러 사무용품 페이지로 이동하여 최소 10개 이상의 URL 목록을 복사하여 붙여넣으세요. OpenAI Chat 노드에 최소 10개가 필요하기 때문에 10개 이상의 URL이 필요합니다. 10개 미만을 전달하면 OpenAI 노드가 대상 LLM을 미세 조정하는 동안 오류를 반환합니다.
“Format”: 웹 스크레이퍼 API가 여러 출력 형식을 지원하므로 “JSON” 데이터 형식을 선택하세요.

지금까지의 워크플로 구성은 다음과 같습니다:

“워크플로 실행” 버튼을 누르면 스크랩된 데이터가 Bright Data 노드의 출력 섹션에 표시됩니다:

훌륭합니다! 단 한 줄의 코드도 작성하지 않고 Bright Data의 웹 스크레이퍼 API로 필요한 대상 데이터를 스크레이핑했습니다.

3단계: 코드 노드 설정

Bright Data 노드의 코드 노드를 연결하고 “언어” 상자에서 JavaScript를 선택하세요:

“JavaScript” 필드에 다음 코드를 붙여넣으세요:

// 모든 입력 항목 가져오기
const allInputItems = $input.all(); 

let jsonlString = "";
// 훈련 프롬프트 정의
const systemMessage = "당신은 매력적이고 유익한 제품 설명 작성에 특화된 전문 마케팅 어시스턴트입니다.";

// 입력에서 가져온 각 항목을 순회
for (const item of allInputItems) {
  const product = item.json; 

  // 제품 데이터가 존재하고 객체인지 검증
  if (!product || typeof product !== 'object') {
    console.warn('제품 데이터가 누락되었거나 객체가 아니므로 항목 건너뛰기:', item);
    continue;
  }

  // 제품 데이터 추출
  const title = product.title || "N/A";
  const brand = product.brand || "N/A";
  let featuresString = "지정되지 않음";
  if (product.features && Array.isArray(product.features) && product.features.length > 0) {
    featuresString = product.features.slice(0, 5).join(', '); 
  }
  // 훈련용 원본 제품 설명 스니펫 생성
  const originalDescSnippet = (product.description || "원본 설명이 없습니다.").substring(0, 250) + "...";
  // 제품에 대한 구체적인 세부사항이 포함된 프롬프트 생성
  const userPrompt = `다음 항목에 대한 제품 설명을 생성하세요. 제목: ${title}. 브랜드: ${brand}. 주요 특징: ${featuresString}. 원본 설명 스니펫: ${originalDescSnippet}.`;

  // AI가 생성해야 할 설명 유형의 템플릿 생성
  let idealDescription = `${brand}의 ${title}을 만나보세요. 까다로운 고객이 선택하는 최고의 제품입니다. `;
  idealDescription += `주요 특징: ${featuresString}. `;
  if (product.rating) {
    idealDescription += `5점 만점에 ${product.rating}점이라는 인상적인 고객 평점을 자랑합니다! `;
  }
  idealDescription += `이 제품은 원래 "${originalDescSnippet}"로 소개되었으며, 품질과 신뢰성을 추구하는 모든 분께 완벽합니다. `;
  idealDescription += `${product.availability === "In Stock" ? "쉽게 구입 가능" : "곧 출시 예정"} ${title}을 놓치지 마세요 – 오늘 바로 컬렉션을 완성하세요!`;

  // OpenAI가 기대하는 형식으로 훈련 예제 객체 생성
  const trainingExample = {
    messages: [
      { role: "system", content: systemMessage },
      { role: "user", content: userPrompt },
      { role: "assistant", content: idealDescription }
    ]
  };
  jsonlString += JSON.stringify(trainingExample) + "n";
}

// 앞뒤 공백 제거
const fileContentString = jsonlString.trim();

// 제품 데이터가 실제로 처리되었는지 확인
if (fileContentString.length === 0) {
  console.warn("제품 데이터가 처리되지 않았습니다. 빈 파일 내용을 출력합니다.");
  return [{ 
    json: { error: "No products processed", fileNameToUse: "data.jsonl" },
    binary: {} 
  }];
}

// 최종 JSONL 문자열을 Buffer(원시 바이너리 데이터)로 변환
const buffer = Buffer.from(fileContentString, 'utf-8');
// 이 데이터를 OpenAI로 전송할 때 사용할 파일명 정의
const actualFileNameForOpenAI = "data.jsonl";
// 파일의 MIME 유형 정의
const mimeType = 'application/jsonl'; 

// 출력을 위한 바이너리 데이터 준비
const binaryData = await this.helpers.prepareBinaryData(buffer, actualFileNameForOpenAI, mimeType);

// 처리된 데이터 반환
return [{
  json: {
    processedFileName: actualFileNameForOpenAI 
  },
  binary: {
    // OpenAI 노드의 "Input Data Field Name"
    "data.jsonl": binaryData 
  }
}];

이 노드의 입력은 Bright Data에서 스크랩한 데이터가 포함된 JSON 파일입니다. 그러나 OpenAI 노드는 JSONL 파일을 필요로 합니다. 이 JavaScript 코드는 다음과 같이 JSON을 JSONL로 변환합니다:

이전 노드에서 오는 모든 데이터를 $input.all() 메서드로 가져옵니다.
제품을 반복 처리합니다. 특히 각 제품 항목에 대해 다음 작업을 수행합니다:
- 제품 제목, 브랜드, 특징, 설명, 평점, 재고 상태 등의 세부 정보를 추출합니다. 특정 데이터가 누락된 경우 대체값을 포함합니다.
- 이러한 세부 정보를 LLM이 제품 설명을 생성하도록 요청하는 형식으로 구성하여 userPrompt를 생성합니다.
- 제품 속성을 반영한 템플릿을 사용하여 idealDescription을 생성합니다. 이는 훈련 데이터에서 원하는 “어시스턴트” 응답으로 사용됩니다.
- 시스템 메시지, userPrompt, idealDescription을 대화형 LLM 훈련용으로 포맷된 단일 trainingExample 객체로 결합합니다.
- 이 trainingExample을 JSON 문자열로 직렬화하고, 각 JSON 객체를 새 줄에 배치하는 JSONL 형식으로 확장 중인 문자열에 추가합니다.
모든 항목을 처리한 후, 누적된 JSONL 문자열을 이진 데이터의 버퍼 로 변환합니다.
data.jsonl이라는 이름의 파일을 반환합니다.

코드 노드에서 “단계 실행”을 클릭하면 출력 섹션에서 JSONL을 확인할 수 있습니다:

지금까지의 워크플로 모습은 다음과 같습니다:

녹색 선과 체크 표시가 모든 단계가 성공적으로 완료되었음을 나타냅니다.

만세! Bright Data를 사용하여 데이터를 가져와 JSONL 형식으로 저장했습니다. 이제 LLM에 데이터를 푸시할 준비가 되었습니다.

4단계: OpenAI Chat 노드에 튜닝 데이터 푸시하기

파인 튜닝용 JSONL 파일을 OpenAI 플랫폼에 업로드할 준비가 되었습니다. 이를 위해 OpenAI 노드를 추가하세요. “파일 작업” 섹션에서 “파일 업로드”를 선택합니다:

아래는 구성해야 할 설정입니다:

위 노드는 튜닝 프로세스의 입력값을 제공합니다. 매개변수를 다음과 같이 설정하세요:

“연결할 자격 증명”: OpenAI API 토큰을 추가하세요. 설정 후 자격 증명이 저장됩니다.
“리소스”: “파일”을 선택합니다. 플랫폼에 JSONL 파일을 업로드할 것이기 때문입니다.
“작업”: “파일 업로드”를 선택합니다.
“입력 데이터 필드 이름”: 미세 조정 파일 이름은 data.jsonl입니다.
“옵션” 섹션에서 “목적”을 추가하고 “미세 조정”을 선택하세요.

단계 실행 후 출력 결과는 다음과 같습니다:

The output of the OpenAI upload file node

이제 워크플로는 다음과 같습니다:

훌륭합니다! 미세 조정 프로세스를 위한 모든 준비를 마쳤습니다. 이제 실제 프로세스를 진행해 보겠습니다.

단계 #5: LLM 미세 조정

실제 미세 조정을 수행하려면 HTTP 요청 노드를 OpenAI 노드에 연결하세요:

설정은 다음과 같아야 합니다:

훈련 데이터 파일을 업로드하므로 “Method”는 “POST”여야 합니다.
“URL” 필드는 https://api.openai.com/v1/fine_tuning/jobs 엔드포인트여야 합니다. 이는 OpenAI 플랫폼에서 미세 조정 작업을 위한 표준 URL입니다.
“인증(Authentication)” 필드에서는 OpenAI API 토큰을 사용하도록 “사전 정의된 자격 증명 유형(Predefined Credential Type)”을 선택하세요.
“Credential Type”에서는 “OpenAi”를 선택하여 노드가 OpenAI에 연결되도록 합니다.
“OpenAI” 상자에서 OpenAI 계정 이름을 선택하십시오.
“본문 전송” 토글은 활성화해야 합니다. “본문 콘텐츠 유형” 및 “본문 지정” 필드에는 각각 “JSON”과 “JSON 사용”을 선택하십시오.

JSON 필드에는 다음 내용이 포함되어야 합니다:

{
  "training_file": "{{ $json.id }}",
  "model": "gpt-4o-mini-2024-07-18"
}

이 JSON은:

$json.id로 훈련 데이터의 이름을 지정합니다.
미세 조정에 사용할 모델을 정의합니다. 이 경우 2024-07-18에 출시된 버전의 GPT-4o-mini를 사용합니다.

아래는 수신하게 될 출력 결과입니다:

HTTP 요청 노드가 트리거되면 파인 튜닝 프로세스가 시작됩니다. 진행 상황은 OpenAI 플랫폼의 파인 튜닝 섹션에서 확인할 수 있습니다. 파인 튜닝 프로세스가 성공적으로 완료되면 OpenAI는 7단계에서 사용할 파인 튜닝된 모델을 제공합니다:

The successfully completed fine-tuning process in the OpenAI platform

이제 n8n 워크플로는 다음과 같아야 합니다:

축하합니다! Bright Data의 Scraper API로 수집한 데이터를 활용해 n8n을 통해 첫 번째 GPT 모델을 훈련하셨습니다.

이것이 전체 워크플로우 전반부의 마지막 노드입니다.

6단계: 채팅 노드 추가

전체 워크플로의 후반부는 채팅 트리거 노드로 시작해야 합니다. 여기에서 미세 조정된 LLM을 테스트할 프롬프트를 삽입합니다:

채팅에 삽입할 프롬프트는 다음과 같습니다:

당신은 매력적이고 유익한 제품 설명 작성에 특화된 전문 마케팅 어시스턴트입니다. 다음 사무용품에 대한 제품 설명을 생성해 주세요:

제목: ErgoComfort Pro Executive Chair.

브랜드: OfficeSolutions.

주요 특징: 조절 가능한 요추 지지대, 통기성 메쉬 등받이, 메모리 폼 시트 쿠션, 360도 회전, 부드러운 롤링 캐스터.

보시다시피, 이 프롬프트는:

훈련 단계에서 사용된 ‘전문 마케팅 어시스턴트’라는 동일한 문구를 보고합니다.
에서 정의된 필요한 사무용품 정보를 바탕으로 제품 설명을 생성하도록 요청합니다.
- 제목.
- 브랜드.
- 사무용품의 주요 기능.

프롬프트 구조는 반드시 위와 같아야 합니다. 이는 모델이 이 단계에서 훈련 데이터를 모방하기 때문입니다. 따라서 훈련 단계에서 사용한 것과 유사한 프롬프트와 데이터를 제공해야 합니다. 그러면 미세 조정된 LLM이 해당 요소들을 바탕으로 제품 설명을 작성할 것입니다.

UI 하단의 채팅 섹션에 프롬프트를 입력할 수 있습니다:

현재 n8n 워크플로는 다음과 같습니다:

훌륭합니다! 미세 조정된 모델을 테스트할 프롬프트를 정의하셨습니다.

7단계: AI 에이전트 및 OpenAI 채팅 노드 추가

이제 AI 에이전트 노드를 채팅 트리거에 연결해야 합니다:

설정은 다음과 같아야 합니다:

“에이전트”: “대화형 에이전트”를 선택하세요. 이렇게 하면 다른 대화형 에이전트와 마찬가지로 채팅 트리거 노드를 통해 원하는 모든 것을 수정할 수 있습니다.
“프롬프트 소스(사용자 메시지)”를 “연결된 채팅 트리거 노드”로 설정하여 채팅에서 직접 프롬프트를 가져올 수 있도록 합니다.

OpenAI 채팅 모델 노드를 AI 에이전트 노드에 “채팅 모델” 연결 옵션을 통해 연결하세요:

The OpenAI Chat Model and AI Agent nodes connected

아래 이미지는 OpenAI 채팅 모델 노드의 설정 화면입니다:

The settings of the OpenAI Chat Model node

노드를 다음과 같이 구성하세요:

“연결할 자격 증명”: 저장된 OpenAI 자격 증명을 선택합니다.
“모델”: OpenAI 플랫폼의 미세 조정 섹션에서 생성된 미세 조정 출력 모델을 붙여넣으세요.

AI 에이전트 노드로 돌아가 “단계 실행” 버튼을 클릭하세요. 제품에 대한 설명 결과가 표시됩니다:

The resulting description of the office item

결과 설명을 일반 텍스트로 표시하면 다음과 같습니다:

사무실 요구 사항을 충족하도록 설계된 탁월한 솔루션, OfficeSolutions의 놀라운 ErgoComfort Pro Executive Chair를 소개합니다. 이 의자는 조절 가능한 요추 지지대, 통기성 메쉬 등받이, 메모리 폼 시트 쿠션, 360도 회전, 부드러운 캐스터 등 주요 기능으로 빛나며 탁월한 편안함과 내구성을 제공합니다. 오랜 사용을 위해 제작된 ErgoComfort Pro Executive Chair는 탁월한 가치를 제공하며 일상적인 사용의 요구를 견딜 수 있도록 설계되었습니다. 생산성 향상을 원하시거나 현재 설비를 업그레이드하려는 경우, 쉽게 구할 수 있는 ErgoComfort Pro Executive Chair는 훌륭한 선택입니다. 지금 바로 그 차이를 경험해 보세요!

보시다시피, 이 설명은 대상의 제목(“ErgoComfort Pro Executive Chair”), 브랜드(“OfficeSolutions”), 그리고 모든 기능을 활용하여 제품 설명을 생성합니다. 특히, 설명은 단순히 입력 데이터를 나열하는 데 그치지 않고 이를 활용하여 매력적인 설명을 만듭니다. 마지막 문장들이 핵심입니다:

“오랜 사용을 위해 제작된 ErgoComfort Pro Executive Chair는 탁월한 가치를 제공하며, 매일의 사용 요구를 견딜 수 있도록 설계되었습니다.”
“생산성 향상을 원하시든, 현재 환경을 업그레이드하시든, 손쉽게 구할 수 있는 ErgoComfort Pro Executive Chair는 탁월한 선택입니다. 지금 바로 그 차이를 경험해 보세요!”

자, 이제 완성되었습니다! 세밀하게 조정된 GPT-4o-mini 모델을 테스트하여 주어진 프롬프트(6단계에서 정의됨)에 대한 제품 설명을 생성해 보았습니다.

단계 #8: 모든 것을 통합하기

최종 GPT-4o n8n 미세 조정 워크플로는 다음과 같습니다:

The entire workflow to fine-tune and test GPT-4o-mini using n8n

이제 워크플로가 완전히 설정되었으므로, “워크플로 실행”을 클릭하면 처음부터 다시 실행됩니다. 다만 각 단계에서 결과가 저장된다는 점을 유의하세요. 즉, 미세 조정된 모델을 테스트하기 위해 다른 프롬프트를 시도하려면 해당 프롬프트를 채팅 트리거 노드에 입력한 후 해당 노드와 AI 에이전트 노드를 실행하기만 하면 됩니다.

미세 조정 접근법 비교: 클라우드 인프라 vs 워크플로 자동화

이 가이드는 두 가지 목적으로 제작되었습니다:

n8n과 같은 워크플로 자동화 도구를 사용해 LLM을 미세 조정하는 방법을 알려드리기 위함
본 가이드의 LLM 미세 조정 방식과 “더 나은 결과를 위한 최신 웹 데이터로 Llama 4 미세 조정” 기사에서 사용한 방식을 비교하기 위함

이제 두 접근법을 비교해 볼 시간입니다!

파인 튜닝 방법 비교

이전 글에서 Llama 4를 미세 조정하기 위해 사용한 접근 방식은 다음이 필요합니다:

설정 시간이 걸리고 비용이 발생하는 클라우드 인프라 사용
Bright Data의 스크레이퍼 API를 사용하여 데이터를 수집하는 코드 작성.
Hugging Face 설정.
미세 조정을 위한 Python 코드가 포함된 노트북 개발이 필요하며, 이는 시간과 기술적 능력이 요구됩니다.

필요한 기술적 역량을 예측할 수는 없습니다. 그러나 전체 인프라 구축에 소요되는 총 시간과 비용은 추정 가능합니다:

시간: 약 하루 근무 시간.
비용: 25달러. 클라우드 서비스에 25달러를 지불한 후에는 시간당 사용량이 청구됩니다. 동시에 시작하기 전에 25달러를 지불해야 합니다. 따라서 이는 클라우드 사용의 최소 비용입니다.

이 가이드에서 배운 접근 방식에는 다음과 같은 요소가 필요합니다:

n8n: 무료로 사용 가능하며 많은 기술적 전문성이 필요하지 않습니다.
GPT-4o 또는 기타 모델에 접근하기 위한 OpenAI API 토큰.
기본적인 코딩 기술, 특히 코드 노드용 자바스크립트 스니펫 작성 능력.

이 경우 기술적 요구사항은 훨씬 적습니다. 직접 작성할 수 없다면 어떤 LLM으로도 자바스크립트 스니펫을 쉽게 생성할 수 있습니다. 그 외에는 전체 워크플로우에서 다른 코드 스니펫을 작성할 필요가 없습니다.

이 경우 인프라 구축에 소요되는 시간과 비용은 다음과 같이 추정할 수 있습니다:

시간: 약 반일(근무일 기준).
비용: OpenAI API 토큰 구매비 $10. 이 경우에도 API 요청 건당 요금이 부과됩니다. 그래도 $10만 있으면 시작할 수 있습니다. n8n 라이선스는 현재 기본 플랜 기준 월 $25이며, 자체 호스팅 버전을 선택하면 완전히 무료입니다. 따라서 시작하는 데 약 $10이 필요합니다.

어떤 접근 방식을 선택해야 할까요?

측면	클라우드 인프라 방식	워크플로 자동화 접근법
기술적 역량	높음 (파이썬, 클라우드, 데이터 검색 코딩 기술 필요)	낮음 (기본 JavaScript)
설정 소요 시간	약 1일 근무일	약 반 근무일
초기 비용	클라우드 서비스 최소 ~$25 + 시간당 요금	OpenAI API 토큰 약 $10 + n8n 라이선스 월 $24 또는 무료 자체 호스팅
유연성	높음 (고급 맞춤 설정 및 다양한 사용 사례에 적합)	보통 (워크플로 자동화 및 로우코드 맞춤화에 적합)
최적 대상	강력하고 유연한 인프라가 필요한 고도의 기술 역량을 보유한 팀	빠른 설정을 원하거나 코딩 전문성이 제한된 팀
추가 혜택	환경 및 프로세스 미세 조정에 대한 완전한 제어	사전 구축된 템플릿, 낮은 진입 장벽, 다른 워크플로와의 통합

두 접근 방식 모두 시간과 비용 측면에서 유사한 초기 투자가 필요합니다. 그렇다면 어떻게 선택해야 할까요? 다음은 몇 가지 지침입니다:

n8n: 다른 워크플로우 자동화가 필요하고 팀의 기술 역량이 높지 않다면 n8n(또는 유사한 워크플로우 자동화 도구)을 선택하세요. 이 로우코드 방식은 다른 워크플로우 자동화에 도움이 됩니다. 맞춤화가 필요한 경우에만 코드 작성이 필요하며, 무료로 사용할 수 있는 사전 구축된 템플릿을 제공하여 도구 사용 진입 장벽을 낮춥니다.
클라우드 서비스: 다목적으로 활용해야 하며 고도로 숙련된 팀이 있다면 클라우드 서비스를 선택하세요. 클라우드 환경 설정과 파인 튜닝 노트북 개발에는 고급 기술 전문성이 필요합니다.

미세 조정 프로세스의 핵심: 고품질 데이터

어떤 접근 방식을 선택하든, Bright Data는 두 방법 모두에서 핵심 중간 매개체 역할을 합니다. 그 이유는 간단합니다: 고품질 데이터가 미세 조정 프로세스의 기반이기 때문입니다!

Bright Data는 AI 애플리케이션을 지원하는 다양한 서비스와 솔루션을 제공하는 데이터용 AI 인프라로 여러분을 지원합니다:

MCP 서버: AI 에이전트에서 데이터 검색을 위한 20개 이상의 도구를 제공하는 오픈소스 Node.js MCP 서버입니다.
웹 스크레이퍼 API: 100개 이상의 주요 도메인에서 구조화된 데이터를 추출하기 위한 사전 구성된 API입니다.
웹 언락커: 봇 방지 기능이 적용된 사이트의 접근 제한을 처리하는 올인원 API입니다.
SERP API: 검색 엔진 결과를 잠금 해제하고 완전한 SERP 데이터를 추출하는 전문 API입니다.
파운데이션 모델: LLM 사전 훈련, 평가 및 미세 조정을 위한 규정 준수 웹 규모 데이터셋에 액세스하세요.
데이터 공급자: 신뢰할 수 있는 공급자와 연결하여 대규모의 고품질 AI 준비 데이터 세트를 확보하세요.
데이터 패키지: 선별되고 즉시 사용 가능한 데이터 세트를 구조화, 보강 및 주석 처리된 형태로 제공합니다.

이 가이드에서는 웹 스크레이퍼 API를 사용하여 GPT-4o-mini를 미세 조정하여 데이터를 스크레이핑하는 방법을 배웠지만, 당사의 서비스 중 하나를 사용하여 다른 접근 방식을 선택할 수도 있습니다.

결론

이 글에서는 n8n을 활용하여 아마존에서 스크래핑한 데이터로 GPT-4o-mini를 미세 조정하는 전체 워크플로우 자동화 방법을 배웠습니다. 두 가지 단계로 구성된 전체 과정을 살펴보았습니다:

데이터 스크래핑 후 파인 튜닝 수행
채팅 트리거를 통해 프롬프트를 입력하여 미세 조정된 모델을 테스트합니다.

또한 워크플로 자동화 도구를 사용하는 이 접근 방식과 클라우드 서비스를 사용하는 다른 접근 방식을 비교해 보았습니다.

귀하의 요구사항과 팀에 가장 적합한 접근 방식이 무엇이든, 고품질 데이터가 프로세스의 핵심임을 기억하십시오. 이와 관련해 Bright Data는 AI를 위한 다양한 데이터 서비스로 귀하를 지원합니다.

Bright Data 계정을 무료로 생성하고 AI 활용이 가능한 데이터 인프라를 테스트해 보세요!

문의하기 무료 체험 시작하기

n8n을 사용한 웹 스크레이퍼 API로 GPT-4o 미세 조정 방법