Skip to main content

음성-텍스트 변환

음성 파일을 텍스트로 변환하는 노드입니다.


설명

음성-텍스트 변환 노드는 데이터셋의 음성 파일을 텍스트로 변환합니다.

Clova Speech 또는 OpenAI Whisper 모델을 선택할 수 있으며, 각 모델마다 크레딧 소비량이 다릅니다.

변환된 텍스트는 새로운 열에 저장됩니다.


포트 구성

입력 포트

  • 데이터셋: 음성 파일이 포함된 데이터셋

출력 포트

  • 데이터셋: 음성이 텍스트로 변환된 데이터셋

속성

대상 열 선택

음성 파일이 포함된 열을 선택합니다.

STT 모델 선택

음성-텍스트 변환에 사용할 모델을 선택합니다:

  • clova speech: 140 크레딧/행
  • openai whisper: 42 크레딧/행

각 모델마다 성능과 크레딧 소비량이 다르므로 목적에 맞게 선택할 수 있습니다.

대화 라인으로 분할

활성화 시 긴 음성을 여러 라인으로 분할하여 변환합니다.


사용 방법

  1. 노드를 캔버스에 추가합니다
  2. 음성 파일이 포함된 데이터셋을 입력 포트에 연결합니다
  3. 속성에서 음성 파일이 있는 열을 선택합니다
  4. STT 모델을 선택합니다
  5. 필요한 경우 대략 라이언으로 분할 옵션을 활성화합니다
  6. 노드를 실행하면 음성이 텍스트로 변환됩니다

예제

음성-텍스트 변환 노드 예제