Skip to main content

크롤링

웹에서 데이터를 자동으로 수집하여 제공합니다.


설명

크롤링 노드는 웹 페이지에서 데이터를 자동으로 수집하는 기능을 제공합니다.

원하는 키워드를 입력하면 해당 웹사이트의 데이터를 가져와 데이터셋으로 변환할 수 있습니다. 크롤링 노드는 다양한 웹 소스에서 정보를 수집할 수 있으며, 수집된 데이터는 이후 분석, 처리, 시각화에 사용할 수 있습니다.


포트 구성

입력 포트

  • 데이터셋 (선택사항): 검색어로 사용할 데이터가 담긴 데이터셋

출력 포트

  • 데이터셋: 크롤링한 데이터

속성

수집 대상 선택

크롤링할 웹사이트를 선택합니다:

  • 네이버 뉴스
  • 네이버 카페
  • 네이버 블로그
  • 네이버 블로그 주소로 검색
  • 구글 검색
  • 구글 뉴스

검색어

직접 입력

검색어를 직접 입력할 수 있습니다.

검색어로 변환할 열 선택

입력 포트로 데이터셋을 연결한 경우, 검색어로 사용할 열을 선택할 수 있습니다. 검색어를 직접 입력하는 대신 데이터셋의 값을 사용합니다.

개수

수집할 데이터의 개수를 설정합니다.

정렬 (네이버 선택 시)

  • 정확도순
  • 날짜순

날짜 범위 (구글 선택 시)

데이터 수집 기간을 설정합니다:

  • 제한 없음
  • 1시간 이내
  • 24시간 이내
  • 1주일 이내
  • 1개월 이내
  • 1년 이내

국가 (구글 선택 시)

데이터를 수집할 국가를 선택합니다.

언어 (구글 선택 시)

수집할 데이터의 언어를 선택합니다.


사용 방법

검색어 직접 입력

  1. 노드를 캔버스에 추가합니다
  2. 수집 대상(네이버/구글)을 선택합니다
  3. 검색어를 입력합니다
  4. 수집할 개수를 설정합니다
  5. (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
  6. (구글 선택 시) 날짜 범위, 국가, 언어를 선택합니다
  7. 실행하기 버튼을 클릭합니다
  8. 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다

데이터셋의 값을 검색어로 사용

  1. 노드를 캔버스에 추가합니다
  2. 검색어가 담긴 데이터셋을 입력 포트에 연결합니다
  3. 수집 대상(네이버/구글)을 선택합니다
  4. 검색어로 변환할 열 선택에서 검색어로 사용할 열을 선택합니다
  5. 수집할 개수를 설정합니다
  6. (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
  7. (구글 선택 시) 날짜 범위, 국가, 언어를 선택합니다
  8. 실행하기 버튼을 클릭합니다
  9. 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다

예제

크롤링 노드 예제