Skip to main content

이상치 제거

데이터에서 이상치를 제거하는 노드입니다.


설명

이상치 제거 노드는 데이터셋에서 통계적으로 극단적인 값을 탐지하고 제거합니다.

IQR(Inter Quantile Range) 또는 표준편차(시그마) 기반으로 이상치를 확인할 수 있으며, 이상치를 경계값으로 대체하거나 해당 행을 삭제할 수 있습니다.


포트 구성

입력 포트

  • 데이터셋

출력 포트

  • 데이터셋: 이상치가 제거된 데이터

속성

이상치 확인 방법 설정

이상치를 탐지하는 방법을 선택합니다:

  • IQR(Inter Quantile Range) 기반: 사분위수 범위를 기준으로 이상치를 탐지합니다
  • 표준 분포에서의 시그마(표준 편차) 기반: 평균과 표준편차를 기준으로 이상치를 탐지합니다

대상 열 선택

이상치 탐지 및 처리를 실시할 열을 선택합니다.

범주형(Categorical) 값을 가진 열은 선택할 수 없습니다.

계수 설정

시그마 또는 IQR 관련 계수를 설정합니다.

  • IQR 기반: 일반적으로 1.5 사용 (Q1 - 1.5×IQR, Q3 + 1.5×IQR)
  • 시그마 기반: 일반적으로 3 사용 (평균 ± 3×표준편차)

계수가 클수록 더 극단적인 값만 이상치로 판단됩니다.

이상치 처리 방식

이상치를 처리하는 방법을 선택합니다:

  • 경계값으로 대체: 최솟값에 가까운 이상치는 최솟값으로, 최댓값에 가까운 이상치는 최댓값으로 처리합니다
  • 행 삭제: 이상치가 포함된 행을 삭제합니다

사용 방법

  1. 노드를 캔버스에 추가합니다
  2. 데이터셋을 입력 포트에 연결합니다
  3. 속성에서 이상치 확인 방법을 선택합니다 (IQR 또는 시그마)
  4. 이상치를 확인할 열을 선택합니다
  5. 계수를 설정합니다
  6. 이상치 처리 방식을 선택합니다
  7. 노드를 실행하면 이상치가 처리됩니다

예제

직원 연봉 데이터에서 입력 오류나 극단값을 제거하는 예제입니다.

이상치 제거 노드 예제

원본 데이터는 7명의 직원 정보를 포함하며, 최동욱(100만원)과 윤서연(25000만원)은 명백한 이상치입니다.

IQR 기반으로 계수 1.5를 적용하면:

  • Q1(1사분위수): 4500만원
  • Q3(3사분위수): 5200만원
  • IQR: 700만원
  • 하한: 4500 - 1.5×700 = 3450만원
  • 상한: 5200 + 1.5×700 = 6250만원

행 삭제 방식을 선택하면 이상치 2건이 제거되어 5행의 정상 데이터만 남습니다.

경계값으로 대체 방식을 선택하면 100만원은 3450만원으로, 25000만원은 6250만원으로 대체됩니다.