혼동 행렬
분류 모델의 성능을 나타내는 혼동 행렬을 생성하는 노드입니다.
설명
혼동 행렬 노드는 분류 모델의 성능을 평가하는 데 사용되는 시각화 도구입니다.
혼동 행렬은 모델이 예측한 클래스와 실제 클래스를 비교하여, 얼마나 많은 샘플이 올바르게 분류되었는지, 그리고 어떤 종류의 오류가 발생했는지를 한눈에 보여줍니다.
혼동 행렬이란?
혼동 행렬은 예측값과 실제값을 교차표 형태로 나타낸 것입니다. 각 셀에는 해당 조합에 해당하는 샘플의 개수나 비율이 표시됩니다.
예를 들어, 이메일 스팸 분류 모델의 경우:
- 실제 스팸이고 예측도 스팸 → 올바른 예측 (True Positive)
- 실제 정상이고 예측도 정상 → 올바른 예측 (True Negative)
- 실제 정상인데 스팸으로 예측 → 잘못된 예측 (False Positive)
- 실제 스팸인데 정상으로 예측 → 잘못된 예측 (False Negative)
활용 방법
혼동 행렬에서 특정 값을 클릭하면, 해당 값에 대한 실제값, 예측값, 그리고 관련된 데이터가 자세히 표시됩니다. 이를 통해 모델이 어떤 종류의 오류를 주로 발생시키는지 분석할 수 있습니다.
혼동 행렬을 기반으로 정확도, 정밀도, 재현율, F1 스코어와 같은 성능 지표를 계산할 수 있습니다.
포트 구성
입력 포트
- 데이터셋: 평가된 데이터셋 (예측값과 실제값 포함)
출력 포트
없음
이진 분류 모델
이진 분류 모델의 혼동 행렬은 2×2 행렬로 표시됩니다.
| 예측: 양성 | 예측: 음성 | |
|---|---|---|
| 실제: 양성 | TP | FN |
| 실제: 음성 | FP | TN |
- TP (True Positive): 실제 양성, 예측 양성 → 올바른 예측
- TN (True Negative): 실제 음성, 예측 음성 → 올바른 예측
- FP (False Positive): 실제 음성, 예측 양성 → 거짓 양성 (1종 오류)
- FN (False Negative): 실제 양성, 예측 음성 → 거짓 음성 (2종 오류)
성능 지표 계산
- 정확도 (Accuracy): (TP + TN) / (TP + TN + FP + FN)
- 정밀도 (Precision): TP / (TP + FP)
- 재현율 (Recall): TP / (TP + FN)
- F1 스코어: 2 × (Precision × Recall) / (Precision + Recall)
다중 분류 모델
다중 분류 모델의 혼동 행렬은 클래스 개수에 따라 N×N 행렬로 표시됩니다.
각 행은 실제 클래스를, 각 열은 예측 클래스를 나타냅니다. 대각선에 있는 값들은 올바르게 분류된 샘플의 개수를 나타내며, 대각선 밖의 값들은 오분류된 샘플의 개수를 나타냅니다.
예를 들어, 3개 클래스(A, B, C)를 분류하는 모델의 경우:
| 예측: A | 예측: B | 예측: C | |
|---|---|---|---|
| 실제: A | 50 | 5 | 2 |
| 실제: B | 3 | 45 | 4 |
| 실제: C | 1 | 2 | 38 |
이 행렬을 보면:
- 클래스 A는 50개가 올바르게 분류되었고, 5개는 B로, 2개는 C로 잘못 분류되었습니다
- 클래스 B는 45개가 올바르게 분류되었고, 3개는 A로, 4개는 C로 잘못 분류되었습니다
- 클래스 C는 38개가 올바르게 분류되었고, 1개는 A로, 2개는 B로 잘못 분류되었습니다
사용 방법
- 혼동 행렬 노드를 캔버스에 추가합니다
- 일괄 예측 노드의 출력 데이터셋을 입력 포트에 연결합니다
- 노드를 실행하면 혼동 행렬이 표시됩니다
- 행렬의 각 셀을 클릭하여 해당 조합에 대한 상세 정보를 확인합니다
- 행렬을 분석하여 모델의 성능과 오류 패턴을 파악합니다
예제

주의사항
분류 모델만 지원
혼동 행렬 노드는 분류 모델의 평가에만 사용할 수 있습니다. 회귀 모델의 평가에는 다른 평가 노드를 사용하세요.