결정 트리
트리 구조의 모델로 데이터를 분류하거나 예측합니다.
입력 포트
없음
출력 포트
미학습 모델: 의사결정 트리 학습 알고리즘
설정
분할기 Best : 각 노드에서 모든 피쳐를 탐색하여 가장 좋은 분할을 찾습니다. 분할 설정 시 최적의 피쳐를 선택하므로 성능이 좋을 수 있지만, 계산 비용이 많이 들 수 있습니다.
Random : 각 노드에서 무작위로 일부 피쳐를 선택하고, 그 중에서 좋은 분할을 찾습니다. 무작위로 선택된 피쳐 중에서 분할을 찾음으로 계산 비용이 낮지만, 성능이 떨어질 수 있습니다.
개별 트리의 최소 분할 샘플 수 설정 한 노드를 분할하기 위해 필요한 최소한의 데이터 샘플 수를 지정합니다. 값이 높을 수록 모델이 단순해집니다. 반대로 낮게 설정할수록 모델이 복잡해집니다.
개별 트리의 최소 리프 샘플 수 설정 노드를 분할할 때, 리프가 될 수 있는 최소한의 샘플 수를 지정합니다. 값이 높을 수록 모델이 단순해집니다. 반대로 낮게 설정할수록 모델이 복잡해집니다.
개별 트리의 최소 리프 가중치 비율 설정 노드를 분할할 때, 각 트리의 리프에 할당되는 최소 가중치의 합을 설정합니다. 값을 높게 설정하면 모델이 작은 가중치를 가진 불필요한 리프를 생성하는 것을 방지할 수 있어 모델의 성능이 향상됩니다. 반대로 작을수록 모델의 성능이 떨어질 수 있습니다.
개별 트리의 최대 특성 수 설정
트리의 분할을 결정하는 데 사용하기 위한 개별 트리에서 사용할 수 있는 최대 특성의 수를 설정합니다.일반적으로 값이 작을수록 모델의 안정성을 높이고 과적합을 줄일 수 있습니다. 반대로 값이 클수록 복잡한 패턴을 학습할 수 있지만 과적합의 위험이 있을 수 있습니다.
all : 개별 트리의 최대 특성 수에 제한이 없으며, 모든 특성이 각 트리에 사용되도록 설정합니다.
log2 : 개별 트리의 최대 특성 수를 데이터셋의 로그2 값으로 제한하도록 설정합니다. 예를 들어, 데이터셋에 16개의 특성이 있다면, 각 트리는 최대 4개의 특성을 사용할 수 있습니다.
sqrt : 개별 트리의 최대 특성 수를 데이터셋의 제곱근으로 설정합니다. 예를 들어, 데이터셋에 16개의 특성이 있다면, 각 트리는 최대 4개의 특성을 사용할 수 있습니다.
개별 트리의 최대 리프 노드 수 설정
트리의 성장을 제어하고 모델의 복잡성을 조절할 수 있도록 개별 트리에서 생성할 수 있는 최대 리프 노드의 수를 설정합니다. 값이 작을수록 모델이 단순해집니다. 반대로 값이 클수록 모델이 복잡해집니다.
개별 트리의 최소 불순도 감소 설정
개별 트리의 분할 수행을 결정하기 위해 최소한의 불순도 감소량을 설정합니다. 값이 작게 설정되면 모델은 단순해집니다. 반대로 값이 클수록 모델이 복잡해집니다.
예제
Last updated