Skip to main content

표본 재추출

불균형한 데이터의 비율을 조정합니다.


입력 포트

데이터셋

출력 포트

데이터셋: 표본 재추출된 데이터셋


설명

데이터에서 특정 값이 너무 많거나 적을 때, 비율을 조정하여 균형을 맞춥니다.

예를 들어, 합격 1000명, 불합격 100명인 데이터가 있다면 불합격 데이터가 너무 적어서 학습이 어렵습니다. 이럴 때 표본 재추출을 사용합니다.


설정

1. 대상 레이블 선택

비율을 조정할 열을 선택합니다.

'Yes/No', '합격/불합격', '1/0' 처럼 두 가지 값만 있는 열을 선택할 수 있습니다.

2. 샘플 방법 선택

Under Sampling (언더 샘플링):

많은 쪽의 데이터를 줄입니다.

예: Yes 1000개, No 500개 → Yes를 줄여서 균형 맞추기

Over Sampling (오버 샘플링):

적은 쪽의 데이터를 늘립니다 (복제).

예: Yes 1000개, No 500개 → No를 복제해서 균형 맞추기

3. 샘플링 비율 설정

데이터를 얼마나 줄이거나 늘릴지 설정합니다.

Under Sampling (0 < 비율 < 1):

많은 쪽 데이터를 비율만큼 남깁니다.

예시:

  • 원본: Yes 1000개, No 500개 (총 1500개)
  • 비율 0.7로 Under Sampling 실행
  • 결과: Yes 700개 (1000 × 0.7), No 500개 (총 1200개)
  • Yes가 많았으므로 Yes를 70%만 남김

Over Sampling (비율 > 1):

적은 쪽 데이터를 비율만큼 늘립니다.

예시:

  • 원본: Yes 1000개, No 500개 (총 1500개)
  • 비율 1.5로 Over Sampling 실행
  • 결과: Yes 1000개, No 750개 (500 × 1.5, 총 1750개)
  • No가 적었으므로 No를 1.5배로 복제

예제

데이터 설명

은행의 대출 승인 데이터입니다.

  • 총 100개의 대출 신청 데이터
  • 승인: 75개
  • 거절: 25개

거절 데이터가 승인 데이터의 1/3 밖에 안 돼서 불균형합니다. 이런 경우 모델이 거절을 잘 학습하지 못할 수 있습니다.

Under Sampling 예제

많은 쪽(승인)을 줄여서 균형을 맞춥니다.

노드 설정:

  • 대상 레이블 선택: 대출승인
  • 샘플 방법: Under Sampling
  • 샘플링 비율: 0.5

결과:

  • 승인: 37개 (75 × 0.5 = 37.5 → 내림)
  • 거절: 25개 (그대로 유지)
  • 총 데이터: 62개

Under Sampling 예제

Over Sampling 예제

적은 쪽(거절)을 늘려서 균형을 맞춥니다.

노드 설정:

  • 대상 레이블 선택: 대출승인
  • 샘플 방법: Over Sampling
  • 샘플링 비율: 2.0

결과:

  • 승인: 75개 (그대로 유지)
  • 거절: 50개 (25 × 2.0, 복제됨)
  • 총 데이터: 125개

Over Sampling 예제