Skip to main content

결측치 채우기

데이터에서의 알 수 없는 값(결측치)을 대체하는 노드입니다.


설명

결측치 채우기 노드는 데이터셋에서 비어있거나 알 수 없는 값(결측치, NaN)을 다양한 방법으로 대체합니다.

전체 데이터에 일괄적으로 적용할 기본 모드와, 특정 열마다 별도로 지정할 수 있는 개별 설정을 함께 제공합니다.
개별 설정을 지정하지 않은 열은 기본 모드에서 선택한 방식으로 채워집니다.


포트 구성

입력 포트

  • 데이터셋: 결측치가 포함된 데이터셋

출력 포트

  • 데이터셋: 결측치가 처리된 데이터셋

속성

기본 모드

모든 열에 일괄 적용할 결측치 처리 방법을 선택합니다:

  • 자동: 자동으로 최적의 방법 선택
  • 평균: 평균값으로 대체
  • 최빈값: 최빈값으로 대체
  • 중앙값: 중앙값으로 대체
  • 통과: 결측치를 그대로 유지

개별 설정

특정 열에 대해 개별적으로 결측치 처리 방법을 설정할 수 있습니다.

열을 검색한 후 각 열마다 다른 방법을 선택할 수 있으며, 데이터 타입에 따라 사용 가능한 옵션이 다릅니다.

숫자형 데이터

  • 자동: 자동으로 최적의 방법 선택
  • 평균: 평균값으로 대체
  • 중앙값: 중앙값으로 대체
  • 통과: 결측치를 그대로 유지
  • 고정값: 사용자가 지정한 값으로 대체

범주형 데이터

  • 자동: 자동으로 최적의 방법 선택
  • 최빈값: 최빈값으로 대체
  • 통과: 결측치를 그대로 유지
  • 고정값: 사용자가 지정한 값으로 대체

예제

데이터 설명

결측치(빈 값)가 포함된 고객 데이터를 예제로 사용합니다.
일부 행에는 나이(Age), 수입(Income), 성별(Gender) 값이 비어 있습니다.

IDAgeIncomeGender
12332000M
225(결측)F
3(결측)45000F
42950000(결측)
531(결측)M
62738000F
7(결측)40000(결측)
824(결측)M

결측치 채우기 예제

노드 설정:

  • Age: 평균값으로 대체
  • Income: 중앙값으로 대체
  • Gender: 최빈값으로 대체

결과:

IDAgeIncomeGender
123.032000M
225.042500F
326.545000F
429.050000F
531.042500M
627.038000F
726.540000F
824.042500M

요약:

  • Age의 평균값은 26.5, 결측치가 평균으로 대체됨
  • Income의 중앙값은 42,500, 결측치가 중앙값으로 대체됨
  • Gender의 최빈값은 F, 결측치가 모두 F로 채워짐
  • 총 행 개수: 8행, 결측치 없음

결측치 채우기 노드 예제