텍스트 전처리

텍스트 데이터를 정제하고 분석에 적합하게 변환합니다.

입력 포트

  • 데이터셋: 텍스트가 포함된 데이터셋

출력 포트

  • 데이터셋: 전처리된 텍스트가 포함된 데이터

설정

  1. 대상 열 선택

    • 전처리할 텍스트가 포함된 열을 선택합니다.

  2. 불용어 제거

    • 분석에 큰 의미가 없는 단어를 제거합니다.

  3. N-gram 사용

    • 텍스트에서 연속된 N개의 단어를 하나의 단위로 묶어 분석하는 N-gram 모델을 사용합니다.

  4. 출력 차원 설정

    • 생성할 N-그램에서 최소 단어 수를 설정합니다.

  5. 선택한 대상 열을 삭제

    • 생성할 N-그램에서 최대 단어 수를 설정합니다.

예제

Last updated