데이터분석
-
리그오브레전드 데이터 분석 - match data EDA(2)ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 3. 15. 17:13
안녕하세요. 이번 포스팅은 저번에 이어서 연속형 데이터에 관한 분석을 진행해보도록 하겠습니다. 저번 포스팅을 간략하게 요약하자면 범주형 변수(1/0)에 대한 시각화를 진행했엇는데요. 결과적으로 우리가 알고 있던 자명한 사실들을 데이터적으로 확인할 수 있엇습니다. 본격적으로 연속형 데이터 분석을 진행하도록 하겠습니다. 아 그리고 해당 포스팅을 읽기전에 처음 읽으시는 분들은 1번째 포스팅을 먼저 읽어주시면 감사하겠습니다.(데이터를 받으실 수 있거든요 ㅎㅎ) 1. 데이터 불러오고 처리하기 이 부분은 이전 포스팅에서 자세히 다루고 있으므로 코드 한개에 담겠습니다. import pandas as pd import pickle import matplotlib.pyplot as plt import numpy as n..
-
리그오브레전드 데이터 분석 - match data EDA(1)ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 3. 8. 18:47
안녕하세요 포스팅이 너무 늦은 것 같습니다 ㅠㅠ 취준에다가 회사일에다가... 이것저것 핑계를 일삼아 블로그 포스팅에 굉장히 소홀했던 것 같습니다... 그래서! 저도 이전에 했던 분석 히스토리가 가물가물한데 여러분들은 더 가물가물하겠죠? 죄송한 의미로 메일을 남겨주시면 분석한 경기데이터를 보내드리도록 하겠습니다. (그랜드마스터의 경기 17500건의 데이터입니다. 데이터 변수에 대한 설명은 아래의 링크를 참고해주세요) 리그오브레전드 데이터를 활용한 승/패 예측 이전 포스팅에서 수집한 매치데이터를 이용하여 팀의 승/패를 예측해보겠습니다. 다들 teams 변수를 이용하여 데이터프레임화를 했던 것을 기억하시나요. teams데이터는 리스트안에 딕셔너리가 있는 구조로써 dict.. shinminyong.tistory..
-
리그오브레전드 데이터를 활용한 승/패 예측ML, DL & Python/Riot API를 활용환 데이터 분석 2019. 6. 2. 13:00
이전 포스팅에서 수집한 매치데이터를 이용하여 팀의 승/패를 예측해보겠습니다. 다들 teams 변수를 이용하여 데이터프레임화를 했던 것을 기억하시나요. teams데이터는 리스트안에 딕셔너리가 있는 구조로써 dict데이터의 key값을 변수로, value값을 값으로 풀어줘야 했습니다. 데이터를 잠시 보여드리겠습니다. 변수설명 teamId - 경기내의 파랑팀 (100) / 경기내의 빨강팀 (200) win - 승 / 패 , target_variable로 사용할 변수입니다. (W/F) firstBlood - 가장 먼저 상대팀의 챔피언을 킬했는지 여부. (T/F) firstTower - 가장 먼저 상대팀의 포탑을 깻는지 여부. (T/F) firstinhibitor - 가장 먼저 상대팀의 억제기를 깻는지 여부. (T..
-
유튜버 분석ML, DL & Python/Youtube 크롤링 & 분석 2019. 5. 25. 17:10
이번 포스팅은 문득 생각난 의문에서부터 시작한 분석입니다. "유튜버들은 왜 자극적인 제목으로만 사람들의 관심을 끄는 것인가?" 그래서 유튜버들에게 맞춤 키워드를 추천해줄 수 있으면 어떨까 라는 생각을 하게 되었습니다. 따라서 본 포스팅에서는 한 유튜버 "테스터 훈"을 선택해 영상정보들을 수집하여 분석을 시작해보도록 하겠습니다. 1. 테스터훈 영상정보를 수집하겠습니다. 제가 필요한 정보는 영상에 직접 들어가서 수집해야하는 데이터이기 때문에 먼저 각 영상별 url을 수집하도록 하겠습니다. html0 = browser.page_source html = BeautifulSoup(html0,'html.parser') video_ls=html.find_all('ytd-grid-video-renderer',{'cla..
-
주식데이터 크롤링ML, DL & Python/주식데이터를 활용한 분석 2019. 5. 19. 22:17
이번 포스팅은 "네이버 금융"에 있는 주가데이터를 수집하여 분석해보는 시간을 가지려합니다 주식데이터를 크롤링하는 목적으로는 앞으로의 주가를 예측해보고 싶었기 때문입니다. 주가라는 것은 해당 기업의 사업모델, 사업 계획, 신제품 출시 등의 많은 영향을 받아서 많이 변동할 것입니다. 하지만 이와 같은 정보들은 정형적인 정보가 아닌 비정형 데이터로써 존재하고 있습니다. 그렇다면 비정형데이터가 아닌 수치화된, 연속형 데이터를 이용하여 주가를 예측해보면 어떨까 라는 생각을 했습니다. 이에 관해서 여러 정보들을 탐색해봤는데 앞서 말한 비정형 데이터를 이용하지 않고 연속화된, 수치화된 데이터를 이용하여 앞으로의 주가를 예측하고 탐색하여 수익을 얻는 방법이 "퀀트"라는 방법이 있었습니다. 퀀트는 간단히 말해서 valu..
-
youtube text mining 1ML, DL & Python/Youtube 크롤링 & 분석 2019. 5. 6. 19:02
안녕하세요. 저번 유튜브 댓글 크롤링에 이은 댓글을 이용한 text mining을 해보도록 하겠습니다. 먼저 저번에 긁어왔던 댓글 데이터를 불러와보도록 하겠습니다. 현재 보시는 것 처럼 댓글 데이터는 불필요한 이모티콘, ㅋㅋ, ㅎㅎ 같은 문자들이 존재 합니다. 텍스트 마이닝에서 중요한 것은 이러한 불필요한 단어들을 없애주는 전처리가 굉장히 중요합니다. 따라서 이러한 이모티콘들을 없앤 뒤 분석을 하겠습니다. 먼저 re 모듈을 import 받아서 불용어구들을 compile해주겠습니다. #이모티콘 제거 emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # emoticons u"\U0001F300-\U0001F5FF" # symbols & pictographs ..