Skip to main content

URL 리더

링크의 내용을 자동으로 요약합니다.


설명

URL 리더 노드는 데이터셋에 포함된 링크를 읽어와 해당 웹 페이지의 내용을 자동으로 요약해줍니다.

여러 개의 링크가 포함된 데이터셋을 처리할 수 있으며, 각 링크에 대한 요약 결과를 새로운 열로 추가하여 반환합니다. 뉴스 기사, 블로그 포스트, 연구 자료 등 다양한 웹 콘텐츠를 빠르게 요약할 때 유용합니다.


포트 구성

입력 포트

  • 데이터셋: 링크가 포함된 데이터셋

출력 포트

  • 데이터셋: 링크의 내용 요약이 포함된 데이터셋

속성

대상 열 선택

요약할 링크가 포함된 열을 선택합니다. 데이터셋에서 URL이 포함된 열을 지정해야 합니다.

최대 출력 길이

출력으로 나올 요약의 길이 제한을 설정합니다. 요약문의 최대 길이를 제어하여 원하는 수준의 상세도를 조절할 수 있습니다.

콘텐츠 제거

웹 페이지의 원본 콘텐츠를 출력에서 제거할지 여부를 설정합니다.

요약 제거

생성된 요약을 출력에서 제거할지 여부를 설정합니다.

브라우저 엔진

웹 페이지를 로드할 때 사용할 브라우저 엔진을 선택합니다.

  • 속도 우선: 빠른 처리 속도를 우선시합니다
  • 호환성 우선: 다양한 웹 페이지와의 호환성을 우선시합니다
  • 품질 우선: 콘텐츠 추출 품질을 우선시합니다

콘텐츠 형식

콘텐츠의 출력 형식을 선택합니다.

  • LLM 친화적 형식: AI 모델이 처리하기 좋은 형태로 변환합니다
  • 마크다운: 마크다운 형식으로 변환합니다
  • HTML: HTML 형식으로 유지합니다
  • 텍스트: 순수 텍스트 형식으로 변환합니다

모든 링크를 마지막에 모으기

웹 페이지에 포함된 모든 링크를 콘텐츠 마지막에 모아서 표시할지 여부를 설정합니다.

  • 없음: 링크를 모으지 않습니다
  • 중복 제거: 중복을 제거하고 링크를 모읍니다
  • 모두: 모든 링크를 마지막에 모읍니다

모든 이미지를 마지막에 모으기

웹 페이지에 포함된 모든 이미지를 콘텐츠 마지막에 모아서 표시할지 여부를 설정합니다.

  • 없음: 이미지를 모으지 않습니다
  • 중복 제거: 중복을 제거하고 이미지를 모읍니다
  • 모두: 모든 이미지를 마지막에 모읍니다

모든 이미지 제거

웹 페이지의 모든 이미지를 출력에서 제거할지 여부를 설정합니다.

Iframe 추출

웹 페이지에 포함된 iframe의 콘텐츠를 추출할지 여부를 설정합니다.

(beta) EUC-KR 호환성

EUC-KR 인코딩을 사용하는 한국어 웹 페이지의 호환성을 개선합니다. 베타 기능입니다.

System Prompt

요약 생성 시 사용할 시스템 프롬프트를 입력합니다. 요약의 스타일이나 규칙을 커스터마이징할 수 있습니다.


사용 방법

  1. 링크가 포함된 데이터셋을 입력 포트에 연결합니다
  2. 대상 열 선택에서 URL이 포함된 열을 지정합니다
  3. 최대 출력 길이를 설정하여 요약 길이를 조절합니다
  4. 노드를 실행하면 각 링크의 내용이 자동으로 요약됩니다
  5. 출력 포트에서 요약이 추가된 데이터셋을 확인할 수 있습니다

예제

URL 리더 예제


주의사항

요약 불가 링크

일부 링크는 접근 제한, 페이지 구조, 또는 기타 기술적 제약으로 인해 내용 요약이 불가능할 수 있습니다.