표본 재추출
데이터의 샘플링 빈도를 변경합니다.
Last updated
데이터의 샘플링 빈도를 변경합니다.
Last updated
데이터셋
데이터셋: 대상 레이블에 대해 표본 재추출된 데이터셋
1. 대상 레이블 선택
표본을 재추출할 열을 선택합니다('Yes/No', '1/0'식의 값의 도메인이 2인 열만 선택 가능)
2. 샘플 방법 선택
Under Sampling: 열에 들어있는 두 값 중 많은 값의 표본 수를 조정(감소)합니다.
Over Sampling: 열에 들어있는 두 값 중 적은 값의 표본 수를 조정(증가)합니다.
3. 샘플링 비율 설정
샘플링 비율이 K라고 할 떄,
Under Sampling(0<K<1): 열에 들어있는 두 값 중 많은 값의 표본 수를 N이라고 할 때, 많은 값의 표본 수를 NxK로 조정합니다. 예시: 1500개의 데이터 포인트를 가지는 데이터셋의 'Label' 열에 'Yes'가 1000개, 'No'가 500개 들어있다면, 이 데이터셋의 'Label'열에 대해 0.7의 샘플링 비율로 Under Sampling한 결과는 'Yes' 700개, 'No' 500개로 총 1200개의 데이터 포인트가 담긴 데이터셋이 됩니다.
Over Sampling(K>1): 열에 들어있는 두 값 중 적은 값의 표본 수를 N이라고 할 때, 적은 값의 표본 수를 NxK로 조정합니다. 예시: 1500개의 데이터 포인트를 가지는 데이터셋의 'Label' 열에 'Yes'가 1000개, 'No'가 500개 들어있다면, 이 데이터셋의 'Label'열에 대해 1.5의 샘플링 비율로 Over Sampling한 결과는 'Yes' 1000개, 'No' 750개로 총 1750개의 데이터 포인트가 담긴 데이터셋이 됩니다.