Toy Project/Crawler
-
파이썬 웹 크롤링(기본 편) 5 - 검색어 변경하기 파이썬으로 크롤링을 하기에 앞서 기본 개념인 URL에 대한 지식이 있어야 하기 때문에 URL이 무엇인지에 대해 한 번 살펴보자. URL이란? URL은 Uniform Resource Locator의 약어로, 인터넷상에서 리소스(자원)의 위치를 지정하는 표준화된 주소체계이다. URL은 웹 브라우저나 웹 클라이언트가 웹 서버에게 어떤 리소스를 요청할지를 결정하는 데 사용된다. 일반적으로 URL은 다음과 같은 구조를 가지고 있다. scheme://host:port/path?query#fragment scheme - 리소스에 접근하기 위해 사용되는 프로토콜을 나타낸다. 예를 들면 http, https, ftp 등이 있다. host - 리소스가 위치한 서버의 도메..
[Crawler] 파이썬 웹 크롤링(기본편) 5 - 검색어 변경하기파이썬 웹 크롤링(기본 편) 5 - 검색어 변경하기 파이썬으로 크롤링을 하기에 앞서 기본 개념인 URL에 대한 지식이 있어야 하기 때문에 URL이 무엇인지에 대해 한 번 살펴보자. URL이란? URL은 Uniform Resource Locator의 약어로, 인터넷상에서 리소스(자원)의 위치를 지정하는 표준화된 주소체계이다. URL은 웹 브라우저나 웹 클라이언트가 웹 서버에게 어떤 리소스를 요청할지를 결정하는 데 사용된다. 일반적으로 URL은 다음과 같은 구조를 가지고 있다. scheme://host:port/path?query#fragment scheme - 리소스에 접근하기 위해 사용되는 프로토콜을 나타낸다. 예를 들면 http, https, ftp 등이 있다. host - 리소스가 위치한 서버의 도메..
2023.12.16 -
웹 크롤링 실습(기본 편) 4 - 네이버 뉴스 가져오기 이번 실습으로는 네이버에서 구글의 주식인 알파벳 A주에 대한 뉴스 정보를 크롤링해 보는 시간을 가져보자. 크롤링을 하기에 앞서 이번 시간에 필요한 라이브러리는 requests와 BeautifulSoup이기 때문에 설치가 되어있지 않은 분들은 아래와 같은 명령어로 필요한 라이브러리를 먼저 설치하자. pip install requests pip install beautifulsoup4 먼저 네이버에 접속해 검색 키워드로 "알파벳 A주"를 입력 후, "뉴스" 탭을 클릭하면 위와 같은 화면이 나올 것이다. 이제 크롤링을 하기 위해선 2가지의 정보가 필요하다. 먼저 해당 화면에서 F12를 눌러 개발자 도구를 켠 후, 아래 빨간색 네모로 표시된 부분을 클릭하자..
[Crawler] 파이썬 웹 크롤링 실습(기본편) 4 - 네이버 뉴스 가져오기웹 크롤링 실습(기본 편) 4 - 네이버 뉴스 가져오기 이번 실습으로는 네이버에서 구글의 주식인 알파벳 A주에 대한 뉴스 정보를 크롤링해 보는 시간을 가져보자. 크롤링을 하기에 앞서 이번 시간에 필요한 라이브러리는 requests와 BeautifulSoup이기 때문에 설치가 되어있지 않은 분들은 아래와 같은 명령어로 필요한 라이브러리를 먼저 설치하자. pip install requests pip install beautifulsoup4 먼저 네이버에 접속해 검색 키워드로 "알파벳 A주"를 입력 후, "뉴스" 탭을 클릭하면 위와 같은 화면이 나올 것이다. 이제 크롤링을 하기 위해선 2가지의 정보가 필요하다. 먼저 해당 화면에서 F12를 눌러 개발자 도구를 켠 후, 아래 빨간색 네모로 표시된 부분을 클릭하자..
2023.12.13 -
파이썬 웹 크롤링(기본 편) 3 - CSS 선택자 웹 크롤러를 만들 때 CSS 선택자는 매우 유용한 도구 중 하나이다. CSS 선택자를 사용하면 특정 HTML 요소를 쉽게 선택하고 추출할 수 있다. BeautifulSoup과 같은 라이브러리를 사용하면 파이썬으로 웹 크롤러를 작성할 때 css 선택자를 활용할 수 있다. CSS란 무엇인가? CSS(Cascading Style Sheets)는 웹 페이지의 스타일을 정의하는 스타일 시트 언어이다. HTML이 웹 페이지의 구조를 정의한다면, CSS는 웹 페이지의 디자인 및 레이아웃을 담당한다. 즉, HTML로 작성된 문서의 스타일을 꾸미고 표현하는 역할을 한다. CSS는 다음과 같은 주요 기능을 제공한다. 페이지 스타일링 - CSS는 텍스트의 색상, 글꼴, 크기..
[Crawler] 파이썬 웹 크롤링(기본편) 3 - CSS 선택자파이썬 웹 크롤링(기본 편) 3 - CSS 선택자 웹 크롤러를 만들 때 CSS 선택자는 매우 유용한 도구 중 하나이다. CSS 선택자를 사용하면 특정 HTML 요소를 쉽게 선택하고 추출할 수 있다. BeautifulSoup과 같은 라이브러리를 사용하면 파이썬으로 웹 크롤러를 작성할 때 css 선택자를 활용할 수 있다. CSS란 무엇인가? CSS(Cascading Style Sheets)는 웹 페이지의 스타일을 정의하는 스타일 시트 언어이다. HTML이 웹 페이지의 구조를 정의한다면, CSS는 웹 페이지의 디자인 및 레이아웃을 담당한다. 즉, HTML로 작성된 문서의 스타일을 꾸미고 표현하는 역할을 한다. CSS는 다음과 같은 주요 기능을 제공한다. 페이지 스타일링 - CSS는 텍스트의 색상, 글꼴, 크기..
2023.12.09 -
파이썬 웹 크롤링(기본 편) 2 - beautifulsoup BeautifulSoup은 HTML 및 XML 문서를 파싱 하고, 문서의 특정 부분에서 데이터를 추출하는 데 사용되는 파이썬 라이브러리이다. 이를 통해 웹 스크레이핑과 같은 작업을 수행할 수 있다. 주로 웹 페이지에서 원하는 정보를 추출하기 위해 사용된다. 또한, HTML 또는 XML 문서를 구문 분석하고, 해당 문서의 요소에 쉽게 접근할 수 있는 메서드와 속성을 제공한다. 이를 통해 사용자는 원하는 정보를 추출하거나 문서의 구조를 탐색하는 작업을 편리하게 수행할 수 있다. pip install beautifulsoup4 위의 명령어를 입력하여 beautifulsoup 라이브러리를 설치할 수 있다. 설치가 완료되었다면 간단한 예제 코드로 bea..
[Crawler] 파이썬 웹 크롤링(기본편) 2 - beautifulsoup파이썬 웹 크롤링(기본 편) 2 - beautifulsoup BeautifulSoup은 HTML 및 XML 문서를 파싱 하고, 문서의 특정 부분에서 데이터를 추출하는 데 사용되는 파이썬 라이브러리이다. 이를 통해 웹 스크레이핑과 같은 작업을 수행할 수 있다. 주로 웹 페이지에서 원하는 정보를 추출하기 위해 사용된다. 또한, HTML 또는 XML 문서를 구문 분석하고, 해당 문서의 요소에 쉽게 접근할 수 있는 메서드와 속성을 제공한다. 이를 통해 사용자는 원하는 정보를 추출하거나 문서의 구조를 탐색하는 작업을 편리하게 수행할 수 있다. pip install beautifulsoup4 위의 명령어를 입력하여 beautifulsoup 라이브러리를 설치할 수 있다. 설치가 완료되었다면 간단한 예제 코드로 bea..
2023.12.07 -
파이썬 웹 크롤링(기본 편) 1 - requests 크롤러를 만들기에 앞서 필요한 HTTP 통신을 위한 라이브러리인 requests 라이브러리를 설치하여야 한다. 아래의 명령어를 터미널에 입력하여 라이브러리를 설치하자. pip install requests requests 라이브러 설치가 완료되었다면 간단하게 requests 라이브러리의 사용법을 한 번 살펴보자. import requests response = requests.get("https://www.naver.com") html = response.text print(html) 설치한 requests 라이브러리를 소스 파일로 가져오기 위해 import requests를 해준다. 그 후, requests 라이브러리의 get 함수를 사용하여 "네이버..
[Crawler] 파이썬 웹 크롤링(기본편) 1 - requests파이썬 웹 크롤링(기본 편) 1 - requests 크롤러를 만들기에 앞서 필요한 HTTP 통신을 위한 라이브러리인 requests 라이브러리를 설치하여야 한다. 아래의 명령어를 터미널에 입력하여 라이브러리를 설치하자. pip install requests requests 라이브러 설치가 완료되었다면 간단하게 requests 라이브러리의 사용법을 한 번 살펴보자. import requests response = requests.get("https://www.naver.com") html = response.text print(html) 설치한 requests 라이브러리를 소스 파일로 가져오기 위해 import requests를 해준다. 그 후, requests 라이브러리의 get 함수를 사용하여 "네이버..
2023.12.06