크롤링
웹에서 데이터를 자동으로 수집하여 제공합니다.
설명
크롤링 노드는 웹 페이지에서 데이터를 자동으로 수집하는 기능을 제공합니다.
원하는 키워드를 입력하면 해당 웹사이트의 데이터를 가져와 데이터셋으로 변환할 수 있습니다. 크롤링 노드는 다양한 웹 소스에서 정보를 수집할 수 있으며, 수집된 데이터는 이후 분석, 처리, 시각화에 사용할 수 있습니다.
포트 구성
입력 포트
- 데이터셋 (선택사항): 검색어로 사용할 데이터가 담긴 데이터셋
출력 포트
- 데이터셋: 크롤링한 데이터
속성
수집 대상 선택
크롤링할 웹사이트를 선택합니다:
- 네이버 뉴스
- 네이버 카페
- 네이버 블로그
- 네이버 블로그 주소로 검색
- 구글 검색
- 구글 뉴스
검색어
직접 입력
검색어를 직접 입력할 수 있습니다.
검색어로 변환할 열 선택
입력 포트로 데이터셋을 연결한 경우, 검색어로 사용할 열을 선택할 수 있습니다. 검색어를 직접 입력하는 대신 데이터셋의 값을 사용합니다.
개수
수집할 데이터의 개수를 설정합니다.
정렬 (네이버 선택 시)
- 정확도순
- 날짜순
날짜 범위 (구글 선택 시)
데이터 수집 기간을 설정합니다:
- 제한 없음
- 1시간 이내
- 24시간 이내
- 1주일 이내
- 1개월 이내
- 1년 이내
국가 (구글 선택 시)
데이터를 수집할 국가를 선택합니다.
언어 (구글 선택 시)
수집할 데이터의 언어를 선택합니다.
사용 방법
검색어 직접 입력
- 노드를 캔버스에 추가합니다
- 수집 대상(네이버/구글)을 선택합니다
- 검색어를 입력합니다
- 수집할 개수를 설정합니다
- (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
- (구글 선택 시) 날짜 범위, 국가, 언어를 선택합니다
- 실행하기 버튼을 클릭합니다
- 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다
데이터셋의 값을 검색어로 사용
- 노드를 캔버스에 추가합니다
- 검색어가 담긴 데이터셋을 입력 포트에 연결합니다
- 수집 대상(네이버/구글)을 선택합니다
- 검색어로 변환할 열 선택에서 검색어로 사용할 열을 선택합니다
- 수집할 개수를 설정합니다
- (네이버 선택 시) 정렬 방식(정확도순/날짜순)을 선택합니다
- (구글 선택 시) 날짜 범위, 국가, 언어를 선택합니다
- 실행하기 버튼을 클릭합니다
- 출력 포트에서 크롤링한 데이터를 확인할 수 있습니다
예제
