본문 바로가기

Node.js

[node.js] 웹 데이터 수집 ② - HTML 해석(링크와 이미지 추출) ※ 스크래핑이란? 웹의 세계에서 흔히 말하는 '스크래핑'은 웹사이트에서 HTML 데이터를 수집하고, 특정 데이터를 추출, 가공하여 저장하는 것을 말한다. 단순히 웹사이트에서 HTML 파일을 다운로드만 하는 것이 아니라 그 HTML 파일의 각 요소들을 분석하는 과정을 포함한다. ■ cheerio-httpcli 모듈 설치 01. 우선 명령 커멘드 창을 열고 다음 명령을 실행하여 cheerio-httpcli을 설치한다. > npm install -g cheerio-httpcli 02. 정상적으로 설치가 되었다면 아래와 같은 결과가 나오는 것을 확인할 수 있다. ■ HTML 파일 다운로드 01. 이제 'cheerio-httpcli' 모듈을 사용해서, 웹 페이지를 내려받아 HTML 문서를 화면에 출력해보자 코드는.. 더보기
[node.js] 웹 데이터 수집 ① ■ Node.js로 웹 페이지 다운로드 01. node.js로 웹 페이지를 다운로드 받는 코드는 아래와 같다. download-node.js // url에 있는 파일을 savepath에 다운로드 한다. // 다운로드 URL을 지정 var url = "http://blog.wickedmiso.com/"; // 저장할 위치를 지정 var savepath = "test.html"; // 사용 모듈 정의 var http = require('http'); // HTTP 모듈 var fs = require('fs'); // 파일 처리 관련 모듈 // 출력 지정 var outfile = fs.createWriteStream(savepath); // 비동기로 URL의 파일 다운로드 http.get(url, functi.. 더보기
[node.js] 윈도우에 node.js 설치하기 01. node.js(https://nodejs.org/ko/download/) 다운로드 사이트에 접속하여 node.js를 다운받는다. ① Windows Binary(.zip) 버전중에서 설치할 컴퓨터의 사양에 맞게 다운받자.(32-bit, 64-bit) ② 확인을 눌러 파일을 다운받는다. 02. 파일을 다운 받았다면 설치할 nodejs 디렉토리를 생성하고 압축을 해제하자 ① 다운받은 압축파일(*.zip)을 설치할 경로로 위치시키고 압축을 해제한다. ② 압축을 해제하고 파일명을 nodejs로 변경하였다. 03. 이제 내 컴퓨터를 열고 상단 메뉴바에서 시스템 속성을 클릭하여 준다. 04. 좌측 카테고리에서 고급 시스템 설정을 클릭한다. 05. 시스템 속성 팝업창이 뜨면 아래 순서대로 작업을 진행한다. ① .. 더보기