Day13 - Scraping & Crawling

<aside> ⏳ 2022년 7월 16일

</aside>

이제 데이터베이스를 체험해 봤으니,,데이터를 긁어와야하는데 데이터를 매번 하나하나 복사하고 입력하고 하려면 수많은 데이터를 수집하기위해서 많은 시간이 필요하다. 이런 시간을 절약하기 위해서 데이터를 수집하는 방법이 있는데 그것이 Scraping과 Crawling이다. 오늘은 이 두가지 데이터 수집 방법을 공부해 보겠다.😄

“Scraping”

컴퓨터 프로그램이 다른 프로그램에서 생성된 결과물로부터 데이터를 추출하는 기법이다.
주변에서 가장 흔하게 볼 수있는 예시로는 친구에게 어떤 링크를 보냈을 때, 링크 밑에 이미지와 정보가 같이 전송되는 것을 볼 수 있다.

그렇다면 이런정보는 어디서 가져오는 것일까?
네이버에서 개발자 도구를 열어 보면 head 태그 안에 meta 태그가 있고 그안에 property에 or(=open graphic)로 시작하는 태그의 내용들을 스크래핑 해오는 것이다.
Scraping을 하기위한 도구 : Pupeteer, Cheerio 등

“Crawling”

스크래핑을 정기적으로 횟수에 제한 없이 여러번하는 것을 의미한다.
홈페이지 주소 뒤에 /robots.txt를 적으면 크롤링을 해도되는 부분은 allow로 크롤링을 해도되지 않은 부분은 disallow로 정보를 담은 문서를 보여준다.
무작위한 크롤링의 위험사례
- 지속적인 크롤링은 서버에 과부하를 주고 정상적인 서비스를 제공할 수 없다.
  
  여기어때 크롤링 위법사례 https://biz.chosun.com/topics/law_firm/2021/09/29/OOBWHWT5ZBF7DESIRKNPYIODLA/
  
  따라서, 허락되는 범위 안에서 서버에 과부하를 주지 않을 정도로 크롤링을 진행해야한다.
Crawling을 하기위한 도구 : puppeteer 등

매번 데이터를 입력하는 수고를 줄여주기 위해서 존재하는 편리한 도구들…! 이런 도구들이 없었다면 하나하나 정보를 데이터 베이스에 입력하기 위해서 얼마나 시간을 투자해야하는지 상상이 되지 않는다😂 스크래핑과 크롤러가 있어서 너무 다행이야,,,! 허락된 데이터를 잘 알아보고 내 데이터 베이스에 저장하는 연습을 해봐야겠다고 생각했다. 오늘의 공부 끝😎

출처 : https://www.fun-coding.org/crawl_basic2.html, https://namu.wiki/w/크롤링