이상치 제거
데이터에서 이상치를 제거하는 노드입니다.
설명
이상치 제거 노드는 데이터셋에서 통계적으로 극단적인 값을 탐지하고 제거합니다.
IQR(Inter Quantile Range) 또는 표준편차(시그마) 기반으로 이상치를 확인할 수 있으며, 이상치를 경계값으로 대체하거나 해당 행을 삭제할 수 있습니다.
포트 구성
입력 포트
- 데이터셋
출력 포트
- 데이터셋: 이상치가 제거된 데이터
속성
이상치 확인 방법 설정
이상치를 탐지하는 방법을 선택합니다:
- IQR(Inter Quantile Range) 기반: 사분위수 범위를 기준으로 이상치를 탐지합니다
- 표준 분포에서의 시그마(표준 편차) 기반: 평균과 표준편차를 기준으로 이상치를 탐지합니다
대상 열 선택
이상치 탐지 및 처리를 실시할 열을 선택합니다.
범주형(Categorical) 값을 가진 열은 선택할 수 없습니다.
계수 설정
시그마 또는 IQR 관련 계수를 설정합니다.
- IQR 기반: 일반적으로 1.5 사용 (Q1 - 1.5×IQR, Q3 + 1.5×IQR)
- 시그마 기반: 일반적으로 3 사용 (평균 ± 3×표준편차)
계수가 클수록 더 극단적인 값만 이상치로 판단됩니다.
이상치 처리 방식
이상치를 처리하는 방법을 선택합니다:
- 경계값으로 대체: 최솟값에 가까운 이상치는 최솟값으로, 최댓값에 가까운 이상치는 최댓값으로 처리합니다
- 행 삭제: 이상치가 포함된 행을 삭제합니다
사용 방법
- 노드를 캔버스에 추가합니다
- 데이터셋을 입력 포트에 연결합니다
- 속성에서 이상치 확인 방법을 선택합니다 (IQR 또는 시그마)
- 이상치를 확인할 열을 선택합니다
- 계수를 설정합니다
- 이상치 처리 방식을 선택합니다
- 노드를 실행하면 이상치가 처리됩니다
예제
직원 연봉 데이터에서 입력 오류나 극단값을 제거하는 예제입니다.

원본 데이터는 7명의 직원 정보를 포함하며, 최동욱(100만원)과 윤서연(25000만원)은 명백한 이상치입니다.
IQR 기반으로 계수 1.5를 적용하면:
- Q1(1사분위수): 4500만원
- Q3(3사분위수): 5200만원
- IQR: 700만원
- 하한: 4500 - 1.5×700 = 3450만원
- 상한: 5200 + 1.5×700 = 6250만원
행 삭제 방식을 선택하면 이상치 2건이 제거되어 5행의 정상 데이터만 남습니다.
경계값으로 대체 방식을 선택하면 100만원은 3450만원으로, 25000만원은 6250만원으로 대체됩니다.