Deep Learning/NLP
-
[Python/Crawling] 네이버 증권 주식 뉴스 크롤링Deep Learning/NLP 2021. 10. 29. 15:17
미래에셋 금융 빅데이터 페스티벌에 참여하여 너무 감사하게도 본선에 진출하게 되었습니다. 김정우(연예인 아님, 우리 팀 이름입니다) 사랑해~ "키워드"를 이용하여 펀드를 보다 쉽게 이해시키는 과제를 받았고, 해당 키워드를 논리적으로 뽑아내기 위해 받았던 데이터 속 펀드명과 관련한 뉴스 데이터를 이용하기로 했습니다. 네이버 증권 뉴스 홈페이지에서 펀드 이름을 검색한 후, 뉴스 제목과 내용을 가져와 LDA 토픽모델링을 진행하는 것이 목적입니다. 군말말고 들어가보겠습니다. 일단 필요한 패키지를 불러와 주고요. 저희는 검색과 클릭 기능을 사용한 동적 방법이 필요하기 때문에 크롬드라이버를 열어줍니다. import pandas as pd from selenium import webdriver from selenium..
-
[Python/Crawling] 네이버 플레이스(네이버 지도) 리뷰 크롤링Deep Learning/NLP 2021. 9. 15. 23:30
사실 selenium이 편하니까 머릿속으로는 웬만하면 뷰숲써야지 하면서도 (selenium은 라이브러리 자체가 굉장히 무겁기도 하고 잘 막힌다는 단점이 있다.) 굳이 막히지만 않으면 동적으로 크롤링하는 버릇(?)이 있었다. 하지만 내가 적은 코드 명령들을 전혀 먹어주지 않는 네이버와 근 몇 달 간 함께하면서 뷰숲과 많이 친해졌다. 종강하고 좀만 여유로워지면 올릴게욥.. 찬찬히 뜯어보겠음.. 크롤링하게 된 이유 빅데이터 동아리 ADV 프로젝트로 "식당 추천 시스템"을 하게 되면서, 팀원들이 네이버/카카오/구글맵 리뷰 데이터를 각자 분배하여 크롤링하기로 했다. 사다리 탔는데 네이버가 걸렸다. 네이버는 크롤링이 자주 막힌다.. F12를 누르면 훤히 보이는 소스들을 파이썬에다가 순순히 보내주지 않는다. 작업 환..