2024 SWLUG/파이썬 프로젝트 - 크롤러 4

검색/크롤링/스크래핑

이 글에서는 일반적인 검색, 크롤링, 스크래핑에 대해 개념을 구분해보려고 한다.크롤링이 프로젝트의 주제이지만 그 전에 이 글에서 관련 개념들을 구분하고 확실히하는 것이 목표다! 추가로 크롤링 관련하여 일어난 보안 사고 등 기사들을 스크랩 해보았다.​​​▶검색말 그대로 무언가를 찾는다는 것이다. 여기에 "검색 엔진"이라는 중요한 개념이 있다.​검색 엔진사용자가 원하는 정보인 검색어(키워드)가 입력되면 그에 따른 결과물(정보)를 만들어내는 시스템이나 프로그램이다. -> 검색 엔진은 평소에 인터넷상에서 정보를 수집하고 이를 업데이트 하는데 이를 "검색 로봇(자동화된 정보 수집 프로그램)"이라고 한다. ​1. 크롤링여기서 크롤링의 개념이 등장한다! 크롤링의 정의는 웹크롤링(1) 포스트에서 다루었으니 여기선 간단..

웹크롤링(2)

▶동적 웹크롤링 - selenium Selenium 패키지크롤링을 하다보면 무엇인가 입력하거나 특정 버튼을 눌러야 하는 상황이 발생하는데 컴퓨터가 그런 행동을 대신 할 수 있도록 해주는 패키지​※설치 방법VS CODE 터미널 창에 위의 코드 입력설치 완료!​2. 사용 방법① 관련 패키지 import② 크롬 드라이버 실행크롬 드라이버는 컴퓨터가 크롬 웹 브라우저를 다룰 수 있도록 해주는 프로그램으로 구글에서 제공해준다. (별도 다운로드 필요X)이렇게 입력하면 크롬 드라이버로 구글 웹페이지가 열린다. ​​​▶selenium으로 화면 조작① 조작을 원하는 버튼이나 입력창의 html 파악​② 아래의 두 함수에 html 정보를 입력해서 객체(버튼/입력창 등) 선택find_element(By.ID)find_elem..

웹크롤링(1)

https://wikidocs.net/135794 3-8. 웹크롤링# 1. 웹 (Web) **Web은** **World Wide Web의 줄임말**입니다. 우리가 인터넷 웹사이트의 주소를 칠 때 'www.google.com' 이런 식으로 입…wikidocs.net위의 자료를 참고하여 작성하였다. ​ ▶웹과 웹 크롤링웹(Web)World Wide Web(www)의 줄임말. 인터넷에 연결된 전세계 사용자들이 서로의 정보를 공유할 수 있는 장소이다.※인터넷: 컴퓨터 네트워크 통신망​2. 웹 브라우저(Web Browser)HTML로 작성된 웹 페이지를 탐색하고 보는 데 사용되는 소프트웨어이다. ※HTML(Hypertext Markup Language): 웹은 HTML 언어로 작성된다. 크롬, 사파리 등이 있다...

파이썬 개발환경 구축

Ch2. 개발환경 구축 - 사장님 몰래 하는 파이썬 업무자동화(부제 : 들키면 일 많아짐) (wikidocs.net) Ch2. 개발환경 구축파이썬 개발 환경 구축에 대한 챕터입니다. 이 책에서는 VS CODE 및 Anaconda 환경을 구축하는 방법에 대해 다룹니다.wikidocs.net위의 자료를 바탕으로 작성하였다. ​​​▶아나콘다 설치현재 내 노트북에 설치되어 있는 파이썬은 IDLE와 jupyter notebook이다. 하지만 진행할 보안 프로젝트를 위해 파이썬 아나콘다를 설치해보겠다. https://www.anaconda.com/Anaconda | The Operating System for AIDemocratize AI innovation with the world’s most trusted o..