결측치 채우기
데이터에서의 알 수 없는 값(결측치)을 대체하는 노드입니다.
설명
결측치 채우기 노드는 데이터셋에서 비어있거나 알 수 없는 값(결측치, NaN)을 다양한 방법으로 대체합니다.
전체 데이터에 일괄적으로 적용할 기본 모드와, 특정 열마다 별도로 지정할 수 있는 개별 설정을 함께 제공합니다.
개별 설정을 지정하지 않은 열은 기본 모드에서 선택한 방식으로 채워집니다.
포트 구성
입력 포트
- 데이터셋: 결측치가 포함된 데이터셋
출력 포트
- 데이터셋: 결측치가 처리된 데이터셋
속성
기본 모드
모든 열에 일괄 적용할 결측치 처리 방법을 선택합니다:
- 자동: 자동으로 최적의 방법 선택
- 평균: 평균값으로 대체
- 최빈값: 최빈값으로 대체
- 중앙값: 중앙값으로 대체
- 통과: 결측치를 그대로 유지
개별 설정
특정 열에 대해 개별적으로 결측치 처리 방법을 설정할 수 있습니다.
열을 검색한 후 각 열마다 다른 방법을 선택할 수 있으며, 데이터 타입에 따라 사용 가능한 옵션이 다릅니다.
숫자형 데이터
- 자동: 자동으로 최적의 방법 선택
- 평균: 평균값으로 대체
- 중앙값: 중앙값으로 대체
- 통과: 결측치를 그대로 유지
- 고정값: 사용자가 지정한 값으로 대체
범주형 데이터
- 자동: 자동으로 최적의 방법 선택
- 최빈값: 최빈값으로 대체
- 통과: 결측치를 그대로 유지
- 고정값: 사용자가 지정한 값으로 대체
예제
데이터 설명
결측치(빈 값)가 포함된 고객 데이터를 예제로 사용합니다.
일부 행에는 나이(Age), 수입(Income), 성별(Gender) 값이 비어 있습니다.
| ID | Age | Income | Gender |
|---|---|---|---|
| 1 | 23 | 32000 | M |
| 2 | 25 | (결측) | F |
| 3 | (결측) | 45000 | F |
| 4 | 29 | 50000 | (결측) |
| 5 | 31 | (결측) | M |
| 6 | 27 | 38000 | F |
| 7 | (결측) | 40000 | (결측) |
| 8 | 24 | (결측) | M |
결측치 채우기 예제
노드 설정:
Age: 평균값으로 대체Income: 중앙값으로 대체Gender: 최빈값으로 대체
결과:
| ID | Age | Income | Gender |
|---|---|---|---|
| 1 | 23.0 | 32000 | M |
| 2 | 25.0 | 42500 | F |
| 3 | 26.5 | 45000 | F |
| 4 | 29.0 | 50000 | F |
| 5 | 31.0 | 42500 | M |
| 6 | 27.0 | 38000 | F |
| 7 | 26.5 | 40000 | F |
| 8 | 24.0 | 42500 | M |
요약:
Age의 평균값은 26.5, 결측치가 평균으로 대체됨Income의 중앙값은 42,500, 결측치가 중앙값으로 대체됨Gender의 최빈값은 F, 결측치가 모두F로 채워짐- 총 행 개수: 8행, 결측치 없음
