프로젝트/인스타그램 크롤링
-
인스타그램 해시태그 크롤링(2)프로젝트/인스타그램 크롤링 2019. 8. 27. 21:41
멀티 프로세스 사용해보기 크롤링할 데이터는 많은데 파이썬에서는 기본으로 하나의 프로세스만 동작하기 대문에 시간이 오래 걸립니다. 이 문제를 해결하기 위해 파이썬에서는 멀티 프로세스, 멀티스레드 방법을 사용할 수 있습니다. 그중 멀티 프로세스 방법을 사용해서 크롤링하는 방법 사용했습니다. 멀티 프로세스와 멀티스레드는 아래와 같은 차이점이 있습니다. 멀티프로세스 멀티스레드 멀티 프로세싱은 CPU를 추가하여 컴퓨팅 성능을 향상 멀티 스레딩은 단일 프로세스의 다중 스레드를 만들어 컴퓨팅 성능을 향상 여러 프로세스가 동시에 실행됩니다. 단일 프로세스의 여러 스레드가 동시에 실행됩니다. 프로세스 생성은 시간 소모적이며 리소스 집약적입니다. 쓰레드 생성은 감지 시간과 자원 모두에서 경제적입니다. 다중 처리는 대칭 또..
-
인스타그램 해시태그 크롤링(1)프로젝트/인스타그램 크롤링 2019. 8. 20. 17:13
준비 -운영체제 : Windows 10 -언어 : Python -웹 드라이버 : chromedriver.exe 프로그램 실행 과정 1. 인스타그램 해시태그를 크롤링합니다. 2. 검색어를 입력하면 검색어에 관한 게시물의 작성자 ID와 해시태그를 수집합니다. 3. 수집 후 csv(txt) 파일로 변환합니다. 인스타그램은 JavaScript를 사용하여 페이지를 스크롤할 때 새로운 게시글을 불러오는 방식이라 selenium라이브러리를 추가로 사용했습니다. selenium은 웹 드라이브를 사용하는 라이브러리이며 반응형 사이트 파싱에 사용합니다. 꼭 크롬 드라이버를 사용할 필요는 없지만 크롬을 사용하고 있기 때문에 크롬 드라이버를 다운로드하였습니다. 크롬 버전은 브라우저 오른쪽 위 브라우저 옵션 - 도움말 - 정보..