데이터 분할
Last updated
Last updated
이제 AI 모델을 학습시키도록 하겠습니다. 모델 학습에는 1. 학습 데이터셋과 2. 모델에 사용될 알고리즘이 필요합니다. 앞으로 우리에게 필요한 데이터셋 종류는, 모델을 학습시킬 때 사용될 학습 데이터와, 학습된 모델에게 예측을 시킬 때 필요한 검증 데이터입니다. 시험공부할 때 나왔던 문제를 시험 때 그대로 주면 안 되듯이, 학습 데이터와 검증 데이터는 겹쳐서는 안 됩니다. 따라서 우리는 앞서 열 선택으로 전처리한 데이터셋을 학습 데이터와 검증 데이터로 나눠주겠습니다.
왼쪽 바의 '데이터' 파트에서 '데이터 분할' 위젯을 캔버스에 추가한 후, 열 선택된 데이터셋을 input으로 넣어줍니다. 데이터 분할 비율은 기본값인 0.7(70%):0.3(30%)으로 나누어, 데이터셋의 70%를 학습 데이터로, 30%를 검증 데이터로 사용하겠습니다. 데이터 분할 방법은 단순 랜덤으로 합니다.