음성-텍스트 변환
음성 파일을 텍스트로 변환하는 노드입니다.
설명
음성-텍스트 변환 노드는 데이터셋의 음성 파일을 텍스트로 변환합니다.
Clova Speech 또는 OpenAI Whisper 모델을 선택할 수 있으며, 각 모델마다 크레딧 소비량이 다릅니다.
변환된 텍스트는 새로운 열에 저장됩니다.
포트 구성
입력 포트
- 데이터셋: 음성 파일이 포함된 데이터셋
출력 포트
- 데이터셋: 음성이 텍스트로 변환된 데이터셋
속성
대상 열 선택
음성 파일이 포함된 열을 선택합니다.
STT 모델 선택
음성-텍스트 변환에 사용할 모델을 선택합니다:
- clova speech: 140 크레딧/행
- openai whisper: 42 크레딧/행
각 모델마다 성능과 크레딧 소비량이 다르므로 목적에 맞게 선택할 수 있습니다.
대화 라인으로 분할
활성화 시 긴 음성을 여러 라인으로 분할하여 변환합니다.
사용 방법
- 노드를 캔버스에 추가합니다
- 음성 파일이 포함된 데이터셋을 입력 포트에 연결합니다
- 속성에서 음성 파일이 있는 열을 선택합니다
- STT 모델을 선택합니다
- 필요한 경우 대략 라이언으로 분할 옵션을 활성화합니다
- 노드를 실행하면 음성이 텍스트로 변환됩니다
예제
