본문 바로가기

Node.js/Node.js 웹 크롤링

[node.js] 웹 데이터 수집 ② - HTML 해석(링크와 이미지 추출) ※ 스크래핑이란? 웹의 세계에서 흔히 말하는 '스크래핑'은 웹사이트에서 HTML 데이터를 수집하고, 특정 데이터를 추출, 가공하여 저장하는 것을 말한다. 단순히 웹사이트에서 HTML 파일을 다운로드만 하는 것이 아니라 그 HTML 파일의 각 요소들을 분석하는 과정을 포함한다. ■ cheerio-httpcli 모듈 설치 01. 우선 명령 커멘드 창을 열고 다음 명령을 실행하여 cheerio-httpcli을 설치한다. > npm install -g cheerio-httpcli 02. 정상적으로 설치가 되었다면 아래와 같은 결과가 나오는 것을 확인할 수 있다. ■ HTML 파일 다운로드 01. 이제 'cheerio-httpcli' 모듈을 사용해서, 웹 페이지를 내려받아 HTML 문서를 화면에 출력해보자 코드는.. 더보기
[node.js] 웹 데이터 수집 ① ■ Node.js로 웹 페이지 다운로드 01. node.js로 웹 페이지를 다운로드 받는 코드는 아래와 같다. download-node.js // url에 있는 파일을 savepath에 다운로드 한다. // 다운로드 URL을 지정 var url = "http://blog.wickedmiso.com/"; // 저장할 위치를 지정 var savepath = "test.html"; // 사용 모듈 정의 var http = require('http'); // HTTP 모듈 var fs = require('fs'); // 파일 처리 관련 모듈 // 출력 지정 var outfile = fs.createWriteStream(savepath); // 비동기로 URL의 파일 다운로드 http.get(url, functi.. 더보기