고급 크롤링
웹에서 데이터를 자동으로 수집하며, 날짜를 직접 지정할 수 있습니다.
설명
고급 크롤링 노드는 기본 크롤링 노드의 기능에 더해 구글 검색 시 특정 날짜 범위를 직접 지정할 수 있는 노드입니다.
날짜 범위 대신 시작일과 종료일을 직접 입력하여 더 정확한 기간의 데이터를 수집할 수 있습니다.
포트 구성
입력 포트
- 데이터셋 (선택사항): 검색어로 사용할 데이터가 담긴 데이터셋
- 데이터셋 (선택사항): 국가(country)와 언어(language) 정보가 담긴 데이터셋
출력 포트
- 데이터셋: 크롤링한 데이터
속성
수집 대상 선택
크롤링할 웹사이트를 선택합니다:
- 네이버 뉴스
- 네이버 카페
- 네이버 블로그
- 네이버 블로그 주소로 검색
- 구글 검색
- 구글 뉴스
검색어
직접 입력
검색어를 직접 입력할 수 있습니다.
검색어로 변환할 열 선택
입력 포트로 데이터셋을 연결한 경우, 검색어로 사용할 열을 선택할 수 있습니다.
검색어당 개수
각 검색어당 수집할 데이터의 개수를 설정합니다. (1~1000)
정렬 (네이버 선택 시)
- 정확도순
- 날짜순
날짜 범위 (구글 선택 시)
데이터 수집 기간을 설정합니다:
- 제한 없음
- 1시간 이내
- 24시간 이내
- 1주일 이내
- 1개월 이내
- 1년 이내
날짜 (구글 선택 시)
시작일과 종료일을 직접 입력하여 정확한 기간을 지정할 수 있습니다.
- 시작 날짜: 연도. 월. 일.
- 종료 날짜: 연도. 월. 일.
키워드에서 날짜 삭제 (구글 선택 시)
검색어에 포함된 날짜 정보를 자동으로 제거할지 선택합니다.
국가 (구글 선택 시)
데이터를 수집할 국가를 선택합니다.
또는 country 열이 있는 데이터셋을 입력 포트에 연결하면, 데이터셋의 각 행마다 해당 국가로 검색할 수 있습니다.
언어 (구글 선택 시)
수집할 데이터의 언어를 선택합니다.
또는 language 열이 있는 데이터셋을 입력 포트에 연결하면, 데이터셋의 각 행마다 해당 언어로 검색할 수 있습니다.
사용 방법
검색어 직접 입력
- 노드를 캔버스에 추가합니다
- 수집 대상(네이버/구글)을 선택합니다
- 검색어를 입력합니다
- 검색어당 개수를 설정합니다
- (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
- (구글 선택 시) 날짜 범위를 선택하거나 날짜를 직접 입력합니다
- (구글 선택 시) 국가와 언어를 선택합니다
- 실행하기 버튼을 클릭합니다
- 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다
데이터셋의 값을 검색어로 사용
- 노드를 캔버스에 추가합니다
- 검색어가 담긴 데이터셋을 첫 번째 입력 포트에 연결합니다
- 수집 대상(네이버/구글)을 선택합니다
- 검색어로 변환할 열 선택에서 검색어로 사용할 열을 선택합니다
- 검색어당 개수를 설정합니다
- (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
- (구글 선택 시) 날짜 범위를 선택하거나 날짜를 직접 입력합니다
- (구글 선택 시) 국가와 언어를 선택합니다
- 실행하기 버튼을 클릭합니다
- 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다
국가/언어 데이터셋 사용
- 노드를 캔버스에 추가합니다
country와language열이 있는 데이터셋을 두 번째 입력 포트에 연결합니다- 수집 대상으로 구글 검색 또는 구글 뉴스를 선택합니다
- 검색어를 입력하거나 검색어 데이터셋을 연결합니다
- 검색어당 개수를 설정합니다
- 날짜 범위를 선택하거나 날짜를 직접 입력합니다
- 실행하기 버튼을 클릭합니다
- 출력 포트에서 각 국가/언어별로 크롤링한 데이터를 확인할 수 있습니다
예제

주의사항
날짜 지정
구글 검색 시 날짜 범위 선택 또는 날짜 직접 입력 중 하나를 선택하여 사용할 수 있습니다.
데이터셋 우선 적용
국가/언어 데이터셋을 입력 포트에 연결한 경우, 노드 속성에서 설정한 국가와 언어 값은 무시되고 데이터셋의 값이 사용됩니다.