Skip to main content

고급 크롤링

웹에서 데이터를 자동으로 수집하며, 날짜를 직접 지정할 수 있습니다.


설명

고급 크롤링 노드는 기본 크롤링 노드의 기능에 더해 구글 검색 시 특정 날짜 범위를 직접 지정할 수 있는 노드입니다.

날짜 범위 대신 시작일과 종료일을 직접 입력하여 더 정확한 기간의 데이터를 수집할 수 있습니다.


포트 구성

입력 포트

  • 데이터셋 (선택사항): 검색어로 사용할 데이터가 담긴 데이터셋
  • 데이터셋 (선택사항): 국가(country)와 언어(language) 정보가 담긴 데이터셋

출력 포트

  • 데이터셋: 크롤링한 데이터

속성

수집 대상 선택

크롤링할 웹사이트를 선택합니다:

  • 네이버 뉴스
  • 네이버 카페
  • 네이버 블로그
  • 네이버 블로그 주소로 검색
  • 구글 검색
  • 구글 뉴스

검색어

직접 입력

검색어를 직접 입력할 수 있습니다.

검색어로 변환할 열 선택

입력 포트로 데이터셋을 연결한 경우, 검색어로 사용할 열을 선택할 수 있습니다.

검색어당 개수

각 검색어당 수집할 데이터의 개수를 설정합니다. (1~1000)

정렬 (네이버 선택 시)

  • 정확도순
  • 날짜순

날짜 범위 (구글 선택 시)

데이터 수집 기간을 설정합니다:

  • 제한 없음
  • 1시간 이내
  • 24시간 이내
  • 1주일 이내
  • 1개월 이내
  • 1년 이내

날짜 (구글 선택 시)

시작일과 종료일을 직접 입력하여 정확한 기간을 지정할 수 있습니다.

  • 시작 날짜: 연도. 월. 일.
  • 종료 날짜: 연도. 월. 일.

키워드에서 날짜 삭제 (구글 선택 시)

검색어에 포함된 날짜 정보를 자동으로 제거할지 선택합니다.

국가 (구글 선택 시)

데이터를 수집할 국가를 선택합니다.

또는 country 열이 있는 데이터셋을 입력 포트에 연결하면, 데이터셋의 각 행마다 해당 국가로 검색할 수 있습니다.

언어 (구글 선택 시)

수집할 데이터의 언어를 선택합니다.

또는 language 열이 있는 데이터셋을 입력 포트에 연결하면, 데이터셋의 각 행마다 해당 언어로 검색할 수 있습니다.


사용 방법

검색어 직접 입력

  1. 노드를 캔버스에 추가합니다
  2. 수집 대상(네이버/구글)을 선택합니다
  3. 검색어를 입력합니다
  4. 검색어당 개수를 설정합니다
  5. (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
  6. (구글 선택 시) 날짜 범위를 선택하거나 날짜를 직접 입력합니다
  7. (구글 선택 시) 국가와 언어를 선택합니다
  8. 실행하기 버튼을 클릭합니다
  9. 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다

데이터셋의 값을 검색어로 사용

  1. 노드를 캔버스에 추가합니다
  2. 검색어가 담긴 데이터셋을 첫 번째 입력 포트에 연결합니다
  3. 수집 대상(네이버/구글)을 선택합니다
  4. 검색어로 변환할 열 선택에서 검색어로 사용할 열을 선택합니다
  5. 검색어당 개수를 설정합니다
  6. (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
  7. (구글 선택 시) 날짜 범위를 선택하거나 날짜를 직접 입력합니다
  8. (구글 선택 시) 국가와 언어를 선택합니다
  9. 실행하기 버튼을 클릭합니다
  10. 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다

국가/언어 데이터셋 사용

  1. 노드를 캔버스에 추가합니다
  2. countrylanguage 열이 있는 데이터셋을 두 번째 입력 포트에 연결합니다
  3. 수집 대상으로 구글 검색 또는 구글 뉴스를 선택합니다
  4. 검색어를 입력하거나 검색어 데이터셋을 연결합니다
  5. 검색어당 개수를 설정합니다
  6. 날짜 범위를 선택하거나 날짜를 직접 입력합니다
  7. 실행하기 버튼을 클릭합니다
  8. 출력 포트에서 각 국가/언어별로 크롤링한 데이터를 확인할 수 있습니다

예제

고급 크롤링 노드 예제


주의사항

날짜 지정

구글 검색 시 날짜 범위 선택 또는 날짜 직접 입력 중 하나를 선택하여 사용할 수 있습니다.

데이터셋 우선 적용

국가/언어 데이터셋을 입력 포트에 연결한 경우, 노드 속성에서 설정한 국가와 언어 값은 무시되고 데이터셋의 값이 사용됩니다.