그룹화
지정한 열의 값에 따라 데이터를 그룹화하는 노드입니다.
설명
그룹화 노드는 데이터셋의 특정 열 값을 기준으로 데이터를 그룹화하고, 각 그룹에 대해 집계 함수를 적용합니다.
선택한 열의 동일한 값들끼리 묶어 합계, 평균, 개수 등의 통계를 계산할 수 있습니다.
포트 구성
입력 포트
- 데이터셋: 그룹화할 데이터셋
출력 포트
- 데이터셋: 그룹화된 열 데이터셋
속성
그룹화할 열 선택
그룹화 기준으로 사용할 열을 선택합니다.
선택한 열의 값이 같은 행들끼리 하나의 그룹으로 묶입니다.
개별 열 설정
그룹화 시 각 열들의 출력을 설정합니다.
각 열마다 적용할 집계 함수를 선택할 수 있으며, 데이터 타입에 따라 사용 가능한 옵션이 다릅니다.
숫자형 데이터
- 자동: 자동으로 최적의 방법 선택
- 최빈값: 최빈값으로 대체
- 평균: 평균값으로 대체
- 중앙값: 중앙값으로 대체
- 통과: 결측치를 그대로 유지
- 랜덤: 랜덤 값으로 대체
- 빈 값: 빈 값으로 대체
- 첫 번째: 첫 번째 값으로 대체
- 마지막: 마지막 값으로 대체
범주형 데이터
- 자동: 자동으로 최적의 방법 선택
- 최빈값: 최빈값으로 대체
- 통과: 결측치를 그대로 유지
- 랜덤: 랜덤 값으로 대체
- 빈 값: 빈 값으로 대체
- 첫 번째: 첫 번째 값으로 대체
- 마지막: 마지막 값으로 대체
고유값 데이터
- 자동: 자동으로 최적의 방법 선택
- 통과: 결측치를 그대로 유지
- 랜덤: 랜덤 값으로 대체
- 빈 값: 빈 값으로 대체
- 첫 번째: 첫 번째 값으로 대체
- 마지막: 마지막 값으로 대체
예제
