문서-데이터 변환
문서의 텍스트를 추출하여 데이터셋으로 변환합니다.
설명
문서-데이터 변환 노드는 연결된 포트의 문서 파일을 파싱하여 텍스트 데이터셋으로 변환합니다. PDF, DOCX, PPTX, HWP, 마크다운, HTML 등 문서 데이터 노드가 지원하는 다양한 형식을 입력으로 받을 수 있습니다.
PDF-데이터 변환 노드가 PDF 한 가지 형식만 처리하는 것과 달리, 이 노드는 여러 문서 형식을 동일한 파이프라인으로 처리하여 후속 LLM·임베딩·검색 노드에 일관된 형태로 전달합니다.
포트 구성
입력 포트
- document: 변환할 문서 데이터 (문서 데이터 노드 출력)
출력 포트
- 데이터셋: 추출된 텍스트 데이터셋
사용 방법
- 문서 데이터 노드의 출력 포트를 이 노드의 입력 포트에 연결합니다
- 노드가 자동으로 실행되어 각 문서에서 텍스트를 추출합니다
- 출력 포트에서 변환된 데이터셋을 확인할 수 있으며, 후속 노드(텍스트 임베딩·LLM 프롬프트·검색 등)에 연결하여 활용할 수 있습니다
예제

주의사항
입력 형식
입력 포트는 document 타입만 받습니다. PDF 한 종류만 다룬다면 PDF-데이터 변환 노드를, 텍스트 문자열을 직접 다룬다면 텍스트 입력 / 텍스트-데이터 변환 노드를 사용하세요.