Skip to main content

그래디언트 부스팅

손실을 최소화하는 방향으로 연속적으로 모델을 개선하는 앙상블 학습 모델입니다.


설명

그래디언트 부스팅은 여러 개의 약한 학습기(주로 결정 트리)를 순차적으로 결합하여 강력한 예측 모델을 만드는 앙상블 기법입니다.

각 단계에서 이전 모델의 오차를 보완하는 방식으로 학습하며, 손실 함수를 최소화하는 방향으로 모델을 개선합니다.

높은 예측 정확도로 분류와 회귀 문제에 널리 사용됩니다.


포트 구성

입력 포트

없음

출력 포트

  • 미학습 모델: 학습되지 않은 그래디언트 부스팅 모델 (학습 노드에 연결하여 사용)

속성

앙상블에 사용할 추정기 수 입력

앙상블에 사용할 결정 트리의 개수를 설정합니다.

  • 큰 값: 모델의 복잡성과 성능이 향상됨
  • 작은 값: 성능이 떨어질 수 있음

개별 트리의 최대 길이 설정

각 트리의 최대 깊이를 설정합니다.

  • 큰 값: 모델이 복잡해짐 (세밀한 학습)
  • 작은 값: 모델이 단순해짐 (과적합 방지)

개별 트리의 최소 분할 샘플 수 설정

노드를 분할하기 위해 필요한 최소 데이터 샘플 수를 설정합니다.

  • 높은 값: 모델이 단순해짐 (과적합 방지)
  • 낮은 값: 모델이 복잡해짐 (세밀한 분할)

개별 트리의 최소 리프 샘플 수 설정

리프 노드가 되기 위해 필요한 최소 샘플 수를 설정합니다.

  • 높은 값: 모델이 단순해짐
  • 낮은 값: 모델이 복잡해짐

개별 트리의 최소 리프 가중치 비율 설정

각 리프에 할당되는 최소 가중치의 합을 설정합니다.

  • 높은 값: 불필요한 작은 리프 생성 방지, 성능 향상
  • 낮은 값: 모델 성능이 떨어질 수 있음

개별 트리의 최대 특성 수 설정

각 트리에서 사용할 수 있는 최대 특성(피처) 수를 설정합니다.

  • auto: 자동으로 설정 (제한 없음, 모든 특성 사용)
  • log2: 특성 수의 log2 값으로 제한 (예: 16개 특성 → 최대 4개)
  • sqrt: 특성 수의 제곱근으로 제한 (예: 16개 특성 → 최대 4개)

작은 값: 과적합 방지, 안정성 증가 큰 값: 복잡한 패턴 학습, 과적합 위험

개별 트리의 최대 리프 노드 수 설정

트리에서 생성할 수 있는 최대 리프 노드 수를 설정합니다.

  • 작은 값: 모델이 단순해짐
  • 큰 값: 모델이 복잡해짐

개별 트리의 최소 불순도 감소 설정

분할을 수행하기 위한 최소 불순도 감소량을 설정합니다.

  • 작은 값: 모델이 단순해짐
  • 큰 값: 모델이 복잡해짐

사용 방법

  1. 그래디언트 부스팅 노드를 캔버스에 추가합니다
  2. 원하는 속성을 설정합니다 (추정기 수, 트리 깊이 등)
  3. 출력된 미학습 모델을 모델 학습 노드에 연결합니다
  4. 학습용 데이터셋을 모델 학습 노드에 연결합니다
  5. 학습이 완료되면 학습된 모델을 일괄 예측 노드와 모델 평가 노드에서 사용할 수 있습니다

예제

그래디언트 부스팅 예제