1. 웹 데이터 수집 기본 개념 알아보기
웹 데이터를 수집할 때 주의할 점
웹 데이터를 수집하는 행위는 불법 행위가 될 수 있으므로 주의가 필요하다. 만약 이 책에서 소개하는 방법을 활용하여 대량의 데이터를 수집하고, 이를 이용하여 웹사이트에 게시하거나 애플리케이션을 만들어 수익 활동을 하면 법을 어기는 행위가 되므로 주의해야 한다.
robots.txt 알아보기
웹 데이터 수집은 인터넷 상의 데이터를 가져와서 분석하거나 활용하는 데 중요한 역할을 한다. 하지만 법적, 윤리적 규칙은 반드시 지켜야 한다. 이러한 규칙 중 하나가 robots.txt 파일을 준수하는 것. robots.txt 파일은 웹 사이트 소유자가 크롤러에게 제공하는 지침서로, 크롤러가 접근할 수 있는 영역과 접근할 수 없는 영역을 명확히 정의한다. 이 파일을 제대로 이해하고 따르는 것은 합법적이고 윤리적인 웹 데이터 수집의 첫걸음임.
robots.txt 파일의 역할
- 크롤링 제한 : 웹사이트 소유자는 robots.txt 파일을 사용하여 특정 디렉토리나 페이지를 크롤러가 접근하지 못하도록 할 수 있다. 이를 통해 서버 부하를 줄이거나 민감한 정보가 있는 페이지를 보호하는 역할
- 서버 부하 감소 : 서버의 부하를 관리하기 위해 크롤러가 웹사이트를 얼마나 자주 크롤링할 수 있는지 조절할 수 있다. 예를 들어, 특정 크롤러에게 특정 시간 동안 얼마나 자주 요청을 보낼 수 있는지를 지정할 수 있다.
- 사이트 맵 제공 : 크롤러에게 사이트 맵(sitemap.xml)의 위치를 알려줄 수 있다. 이를 통해 크롤러가 사이트 구조를 보다 효율적으로 파악하고 크롤링할 수 있다.
robots.txt 파일의 기본 구성 요소
- User-agent : 크롤러를 식별하는 부분. 특정 크롤러 또는 모든 크롤러에 대해 지침을 제공
- Disallow : 크롤링을 금지할 디렉토리나 페이지를 지정
- Allow : (Disallow와 함께 사용될 때) 크롤링을 허용할 디렉토리나 페이지를 지정
- Sitemap : 사이트 맵 파일의 위치를 지정
웹 데이터 수집을 시작하기 전에 반드시 웹사이트의 robots.txt 파일을 확인하는 습관을 들이는 것이 중요하다. 이는 크롤러가 해당 사이트에서 허용된 영역만을 접근하도록 하여 법적, 윤리적 문제를 예방하는 데 도움을 준다. 많은 경우, robots.txt 파일을 준수하는 것만으로도 불필요한 법적 분쟁을 피할 수 있다.
웹 데이터 수집 용어 정리하기
웹 크롤링 (web crawling)
웹 크롤링은 크롤러라는 프로그램을 인터넷으로 보내 인터넷 콘텐츠를 자동으로 수집하고 색인화하는 것을 말함.
웹 스크래핑 (web scraping)
웹 스크래핑은 특정 웹 사이트에서 특정 페이지의 데이터 수집을 목표로 하는 프로그램. 웹 크롤링이 인터넷 전체의 콘텐츠를 수집하는 것이라면, 웹 스크래핑은 그 콘텐츠에서 특정 데이터를 추출하는 것을 의미함.
정리하자면, 웹 크롤링은 매우 넓은 범위에서 웹 콘텐츠를 수집하고 색인화하여 나중에 빠르게 검색할 수 있도록 하는 것이고, 웹 스크래핑은 특정 웹 페이지에서 필요한 데이터를 추출하는 것이다.
웹 스크래핑 과정 알아보기
웹 스크래핑은 특정 웹 페이지의 텍스트나 링크, 이미지와 같은 데이터를 수집하는 것을 말함.
- 요청(request) : 웹 서버에 특정 URL로 웹 페이지를 요청.
- 응답(response) : 웹 서버는 해당 URL에 맞는 데이터를 보내줌.
- 이제 응답에 있는 웹 페이지 데이터에서 원하는 데이터를 찾는다.
파이썬 + 뷰티풀수프 : 데이터 속에서 원하는 데이터 찾기
요청, 응답의 과정을 거쳐 데이터를 가져오면 파이썬과 뷰티풀수프를 활용하여 해당 데이터를 추출할 수 있다.
이런 각종 자료를 불러와서 시각화 할 수 있었다는 점에서 좋은 시간이었다.
애플과 VOO(S&P500) 의 그래프가 1년간의 그래프를 보면 전반적으로 우상향 하는 것을 확인할 수 있어서 다른 주식 자료들도 시각화 할 수 있겠다는 생각이 들었다.
그리고 직접 타이핑을 해보면서, 반복숙달이 어느정도는 필요하겠구나 라는 생각이 들었다.
'데이터 분석' 카테고리의 다른 글
<파이썬 데이터 분석가 되기 - 4주차> 데이터 시각화 라이브러리, 시본 (1) | 2025.02.09 |
---|---|
데이터 시각화, 갑자기 한글 폰트가 깨진다면? (1) | 2025.02.02 |
<파이썬 데이터 분석가 되기 - 3주차> 데이터 시각화 라이브러리, 맷플롯립 - 2 (1) | 2025.02.02 |
<파이썬 데이터 분석가 되기 - 3주차> 데이터 시각화 라이브러리, 맷플롯립 - 1 (0) | 2025.02.02 |
<파이썬 데이터 분석가 되기 - 2주차> 02장. 데이터 처리 라이브러리, 판다스 (0) | 2025.01.26 |