Crawler(2)
-
인스타그램 해시태그 크롤링(1)
준비 -운영체제 : Windows 10 -언어 : Python -웹 드라이버 : chromedriver.exe 프로그램 실행 과정 1. 인스타그램 해시태그를 크롤링합니다. 2. 검색어를 입력하면 검색어에 관한 게시물의 작성자 ID와 해시태그를 수집합니다. 3. 수집 후 csv(txt) 파일로 변환합니다. 인스타그램은 JavaScript를 사용하여 페이지를 스크롤할 때 새로운 게시글을 불러오는 방식이라 selenium라이브러리를 추가로 사용했습니다. selenium은 웹 드라이브를 사용하는 라이브러리이며 반응형 사이트 파싱에 사용합니다. 꼭 크롬 드라이버를 사용할 필요는 없지만 크롬을 사용하고 있기 때문에 크롬 드라이버를 다운로드하였습니다. 크롬 버전은 브라우저 오른쪽 위 브라우저 옵션 - 도움말 - 정보..
2019.08.20 -
토렌트 마그넷 검색기(1)
준비 -Python 사용 -Window OS 구상한 프로그램의 실행 과정 아래와 같습니다. 1. 토렌트 사이트 접속 2. 검색어 입력 3. 제목, 마그넷 추출 4. 마그넷 주소를 통한 다운로드 코딩에 앞서 우선 파싱 할 사이트를 찾아야 합니다. 검색어를 입력하면 마그넷 주소가 리스트로 나와 번거롭지 않게 파싱이 가능한 '토렌트 왈'이라는 사이트를 선택했습니다. 사이트를 선택했으면 원하는 요소가 들어있는 태그를 확인합니다. 크롬 기준 (ctrl + shift + c)를 눌러 개발자 도구를 열어 html태그를 확인할 수 있습니다. 다른 방법으로 아래 사이트에서 어떤 태그에 원하는 정보가 있는지 쉽게 확인 할 수 있습니다. https://try.jsoup.org/ Try jsoup online: Java HT..
2018.12.26