랜덤 포레스트
다수의 결정 트리를 사용하여 더 정확한 예측을 제공합니다.
입력 포트
없음
출력 포트
미학습 모델: 랜덤 포레스트 학습 알고리즘
설정
앙상블을 위한 추정기 개수 설정 랜덤 포레스트에서 앙상블에 사용할 결정 트리의 개수를 설정합니다. 일반적으로 값이 클수록 모델의 복잡성과 성능이 향상되는 동시에, 계산 비용과 매모리 사용량도 증가할 수 있습니다. 반대로 값이 작을수록 성능이 떨어질 수 있습니다.
개별 트리의 최대 길이 설정 트리의 분할을 결정하기 위한 개별 트리의 최대 깊이를 설정합니다. 값이 클수록 모델이 복잡해집니다. 반대로 값이 작을수록 모델이 단순해집니다.
개별 트리의 최소 분할 샘플 수 설정 노드를 분할하기 위해 필요한 최소한의 데이터 샘플 수를 설정합니다. 값이 높을수록 모델이 단순해집니다. 반대로 값이 작을수록 모델이 복잡해집니다.
개별 트리의 최소 리프 샘플 수 설정 노드를 분할할 때, 리프가 될 수 있는 최소한의 샘플 수를 설정합니다. 값이 높을수록 모델이 단순해집니다. 반대로 값이 작을수록 모델이 복잡해집니다.
개별 트리의 최소 리프 샘플 가중치 비율 설정 노드를 분할할 때, 각 트리의 리프에 할당되는 최소 가중치의 합을 설정합니다. 값을 높게 설정하면 모델이 작은 가중치를 가진 불필요한 리프를 생성하는 것을 방지할 수 있어 모델의 성능이 향상됩니다. 반대로 작을수록 모델의 성능이 떨어질 수 있습니다.
개별 트리에서 사용할 최대 특성 개수 설정 트리의 분할을 결정하는 데 사용하기 위한 개별 트리에서 사용할 수 있는 최대 특성의 수를 설정합니다.일반적으로 값이 작을수록 모델의 안정성을 높이고 과적합을 줄일 수 있습니다. 반대로 값이 클수록 복잡한 패턴을 학습할 수 있지만 과적합의 위험이 있을 수 있습니다. all : 개별 트리의 최대 특성 수에 제한이 없으며, 모든 특성이 각 트리에 사용되도록 설정합니다. log2 : 개별 트리의 최대 특성 수를 데이터셋의 로그2 값으로 제한하도록 설정합니다. 예를 들어, 데이터셋에 16개의 특성이 있다면, 각 트리는 최대 4개의 특성을 사용할 수 있습니다. sqrt : 개별 트리의 최대 특성 수를 데이터셋의 제곱근으로 설정합니다. 예를 들어, 데이터셋에 16개의 특성이 있다면, 각 트리는 최대 4개의 특성을 사용할 수 있습니다.
개별 트리의 최대 리프 노드 수 설정 트리의 성장을 제어하고 모델의 복잡성을 조절할 수 있도록 개별 트리에서 생성할 수 있는 최대 리프 노드의 수를 설정합니다. 값이 작을수록 모델이 단순해집니다. 반대로 값이 클수록 모델이 복잡해집니다.
개별 트리의 최소 불순도 감소 설정 개별 트리의 분할 수행을 결정하기 위해 최소한의 불순도 감소량을 설정합니다. 값이 작게 설정되면 모델은 단순해집니다. 반대로 값이 클수록 모델이 복잡해집니다.
부트스트랩 사용 여부 원본 데이터에서 중복을 허용해 샘플을 추출하는지의 여부를 결정합니다. 이를 사용하게 되면 각 트리가 서로 다른 데이터셋으로 학습해 다양한 모델을 생성하고, 앙상블의 다양성을 높여줍니다. 반대로 이를 사용하지 않으면 원본 데이터에서 중복을 허용하지 않고 독립적인 샘플을 이용해 학습하므로 앙상블의 다양성이 줄어들 수 있습니다.
예제
Last updated