모델 학습
주어진 데이터를 바탕으로 머신러닝 모델을 학습시키는 노드입니다.
설명
모델 학습 노드는 미학습 모델과 데이터셋을 입력받아 학습된 모델을 출력합니다.
대상 레이블(정답 데이터)을 지정하고, 모델이 예측한 결과와 비교하여 오차를 최소화하는 방향으로 모델의 파라미터를 업데이트합니다.
단순 학습, k-fold 교차 검증, 그리드 서치 등 다양한 학습 방법을 지원하여 모델의 성능을 최적화할 수 있습니다.
포트 구성
입력 포트
- 데이터셋: 학습에 사용할 데이터
- 미학습 모델: 학습시킬 모델 (결정 트리, 랜덤 포레스트, 로지스틱 회귀 등)
출력 포트
- 학습된 모델: 학습이 완료된 모델 (일괄 예측 노드에 연결하여 사용)
속성
모델 이름
학습된 모델의 이름을 입력합니다.
워크스페이스 목록에서 해당 모델의 이름으로 표시되므로, 구체적이고 명확한 이름을 사용하는 것이 좋습니다.
대상 레이블 선택
모델이 예측할 정답 데이터(레이블)를 선택합니다.
모델은 이 레이블을 기준으로 학습하며, 예측값과 실제값의 오차를 최소화하도록 파라미터를 업데이트합니다.
학습 방법 선택
모델 학습 및 평가 방법을 선택합니다.
-
단순 학습: 데이터를 학습/테스트로 분할 (예: 70%/30%)
- 빠르고 간단하게 학습 가능
- 데이터 분할에 따라 성능이 달라질 수 있음
-
k-fold 교차 검증: 데이터를 K개 폴드로 나누어 K번 반복 학습
- 전체 데이터를 K개로 나누고, 각 반복에서 K-1개는 학습용, 1개는 테스트용으로 사용
- 모든 폴드가 한 번씩 테스트 데이터로 사용됨
- K번의 평가 결과를 평균하여 안정적이고 신뢰할 수 있는 성능 평가 제공
-
그리드 서치를 통한 하이퍼파라미터 튜닝: 모든 하이퍼파라미터 조합 탐색
- 각 하이퍼파라미터의 후보값을 정의하고, 모든 조합을 시도하여 최적 모델 선택
- 탐색 범위가 작을 때: 간단하고 효과적
- 탐색 범위가 클 때: 계산 비용이 높을 수 있음
사용 방법
- 모델 학습 노드를 캔버스에 추가합니다
- 미학습 모델 노드(결정 트리, 랜덤 포레스트 등)를 연결합니다
- 학습용 데이터셋을 연결합니다
- 모델 이름을 입력합니다
- 대상 레이블을 선택합니다
- 학습 방법을 선택합니다
- 노드를 실행하면 학습된 모델이 출력됩니다
- 학습된 모델을 일괄 예측 노드에 연결하여 예측에 사용합니다
예제
