분류 전체보기
-
기업 재무제표 크롤러ML, DL & Python/주식데이터를 활용한 분석 2019. 6. 10. 18:58
이번 포스팅은 기업의 재무제표를 수집할 수 있는 크롤러를 만들어보겠습니다. 기업의 재무제표는 기업의 현 상황 및 앞으로의 일어날 수 있는 일을 예측할 때 중요하게 사용되는 변수입니다. 따라서 주식에서 굉장히 중요하다고 볼 수 있는 각 기업별 재무제표를 수집하여 유용한 곳에 사용하고자 크롤러를 만들었습니다. 기업의 재무제표는 "네이버 금융"에서 종목코드를 검색하면 종목코드에 맞는 기업의 재무제표를 확인할 수 있습니다. 바로 시작해보겠습니다. 1. "네이버 금융" 접속 네이버 금융 국내 해외 증시 지수, 시장지표, 펀드, 뉴스, 증권사 리서치 등 제공 finance.naver.com 여기서 기업의 재무제표를 수집하는 크롤러를 만들 것 아무 종목코드나 입력하고 재무제표가 있는 부분의 "더보기"를 클릭하고 확인..
-
감정분석 모델을 이용한 네이버 평점 긍/부정 분석ML, DL & Python/감정분석 2019. 6. 8. 17:47
안녕하세요. 이번 포스팅은 저번에 만들었던 감정분석 모델을 활용하여 "네이버 영화"에서 영화를 하나 골라 사람들이 남긴 평점과 별점을 이용하여 만들었던 모델이 얼마나 정확하게 만들었는지(타당성) 확인하고 긍/부정을 예측한 뒤에 ㅇ사람들이 남긴 각 평점과 비교를 해보겠습니다. 먼저 그러기 위해서는 네이버 영화의 사람들이 남긴 평점 정보를 수집해와야합니다. 1. 네이버 영화에서 수집할 영화 및 수집할 영역 찾기 이번에 수집할 영화는 "엑스맨 : 다크피닉스"라는 영화의 데이터를 수집해보도록 하겠습니다. 수집할 카테고리는 평점 카테고리며 사람들이 남긴 댓글과 별점을 수집할 것입니다. 수집할 데이터를 확인해보면 다음과 같습니다. 2. 셀레늄으로크롤링하기 네이버 영화에서 제가 필요로하는 정보가 html코드 상에서 ..
-
감정분석 모델을 통한 네이버 평점 분석ML, DL & Python/감정분석 2019. 6. 6. 19:36
안녕하세요 이번 포스팅은 감정분석을 통해서 네이버 평점으로 사람들이 영화를 평가해 놓은 것에 대해서 긍정 / 부정 평점인지 분석한 다음 실제로 사람들이 부여한 별점과 비교하여 얼마나 정확하게 사람들의 감정을 예측했는지 알아보도록 하겠습니다. 따라서 먼저 감정분석 모델을 만들고 데이터를 학습시켜 보겠습니다. 본 포스팅의 내용은 아래의 블로그를 참고하여 만들었습니다. [Keras] KoNLPy를 이용한 한국어 영화 리뷰 감정 분석 이 포스트에서는 KoNLPy, nltk, Keras를 이용해서 한국어 영화 리뷰의 감정을 분석하는 방법에 대해 다룹니다. cyc1am3n.github.io 데이터는 영화 리뷰 데이터(ratings_train.txt, ratings_test.txt)를 이용하겠습니다. http://g..
-
리그오브레전드 데이터를 활용한 승/패 예측ML, DL & Python/Riot API를 활용환 데이터 분석 2019. 6. 2. 13:00
이전 포스팅에서 수집한 매치데이터를 이용하여 팀의 승/패를 예측해보겠습니다. 다들 teams 변수를 이용하여 데이터프레임화를 했던 것을 기억하시나요. teams데이터는 리스트안에 딕셔너리가 있는 구조로써 dict데이터의 key값을 변수로, value값을 값으로 풀어줘야 했습니다. 데이터를 잠시 보여드리겠습니다. 변수설명 teamId - 경기내의 파랑팀 (100) / 경기내의 빨강팀 (200) win - 승 / 패 , target_variable로 사용할 변수입니다. (W/F) firstBlood - 가장 먼저 상대팀의 챔피언을 킬했는지 여부. (T/F) firstTower - 가장 먼저 상대팀의 포탑을 깻는지 여부. (T/F) firstinhibitor - 가장 먼저 상대팀의 억제기를 깻는지 여부. (T..
-
라이엇 api를 활용한 리그오브레전드 데이터 수집ML, DL & Python/Riot API를 활용환 데이터 분석 2019. 6. 1. 19:36
안녕하세요. 이번 포스팅은 평소에 즐겨하던 "리그오브레전드"의 게임 데이터를 이용하여 분석해보는 시간을 갖도록 하겠습니다. 그전에 리그오브레전드 데이터를 수집해야하는데요, 리그오브레전드를 즐겨하거나 해보신 분들은 알겠지만 리그오브레전드의 게임 정보나, 챔피언 정보를 알 수 있는 사이트인 OP.GG를 알고 계실 것입니다. OP.GG도 마찬가지로 Riot api를 이용하여 데이터를 수집해 유저에게 유용한 정보를 제공하고 있습니다. 여기서 중요한 것은 API로 제공하는 데이터는 게임을 이용하는 소환사별로 최근 20게임만을 저장하고 있는 것인데 OP.GG에서는 소환사별로 20게임보다 훨씬 이전의 데이터까지 볼 수 있다는 것입니다. 이는 OP.GG자체에서 DB에 저장하고 있다는 것을 알 수 있습니다.(엄청난 노력..
-
유튜버 분석ML, DL & Python/Youtube 크롤링 & 분석 2019. 5. 25. 17:10
이번 포스팅은 문득 생각난 의문에서부터 시작한 분석입니다. "유튜버들은 왜 자극적인 제목으로만 사람들의 관심을 끄는 것인가?" 그래서 유튜버들에게 맞춤 키워드를 추천해줄 수 있으면 어떨까 라는 생각을 하게 되었습니다. 따라서 본 포스팅에서는 한 유튜버 "테스터 훈"을 선택해 영상정보들을 수집하여 분석을 시작해보도록 하겠습니다. 1. 테스터훈 영상정보를 수집하겠습니다. 제가 필요한 정보는 영상에 직접 들어가서 수집해야하는 데이터이기 때문에 먼저 각 영상별 url을 수집하도록 하겠습니다. html0 = browser.page_source html = BeautifulSoup(html0,'html.parser') video_ls=html.find_all('ytd-grid-video-renderer',{'cla..
-
주식데이터 크롤링ML, DL & Python/주식데이터를 활용한 분석 2019. 5. 19. 22:17
이번 포스팅은 "네이버 금융"에 있는 주가데이터를 수집하여 분석해보는 시간을 가지려합니다 주식데이터를 크롤링하는 목적으로는 앞으로의 주가를 예측해보고 싶었기 때문입니다. 주가라는 것은 해당 기업의 사업모델, 사업 계획, 신제품 출시 등의 많은 영향을 받아서 많이 변동할 것입니다. 하지만 이와 같은 정보들은 정형적인 정보가 아닌 비정형 데이터로써 존재하고 있습니다. 그렇다면 비정형데이터가 아닌 수치화된, 연속형 데이터를 이용하여 주가를 예측해보면 어떨까 라는 생각을 했습니다. 이에 관해서 여러 정보들을 탐색해봤는데 앞서 말한 비정형 데이터를 이용하지 않고 연속화된, 수치화된 데이터를 이용하여 앞으로의 주가를 예측하고 탐색하여 수익을 얻는 방법이 "퀀트"라는 방법이 있었습니다. 퀀트는 간단히 말해서 valu..
-
R을 활용한 시각화 (ggplot)R/시각화 - ggplot 2019. 5. 14. 17:53
매번 시각화를 하며 시각화를 즐겨하지만 기억나지 않는 기능들이 있기 마련입니다. 이번 포스팅은 그런 저를 위한 포스팅이기도 하며 누구든지 이 내용을 보면 R로 시각화를 하는데 두려움이 없도록 하는 목적도 있습니다. 먼저 R Studio에서 모든 시각화를 할 수 있습니다. plot(), boxplot(), barplot(), histogram() 등 다양한 시각화 기능들이 있습니다. 하지만 데이터를 이용하여 그래프를 그리는데 있어서 ggplot만큼 세세한 부분까지 고려하는 기능을 가지고 있지 않습니다. 따라서 ggplot으로 하는 시각화, 그리고 ggplot내의 기능 중심으로 글을 써내려가겠습니다. 1. Scatter plot 보통 산점도라고 하는 그래프를 그려보겠습니다. scale_x_continous(..