분류 전체보기
-
Classification Evaluation MetricStatistics 2020. 7. 12. 20:57
이번 포스팅은 회귀 평가 척도에 대해서 알아봤던 저번 포스팅에 이어서 분류 문제에서 평가 척도로 이용하고 있는 지표들을 알아보고자 합니다. 바로 본론으로 들어가겠습니다. 분류 문제의 평가척도 종류는 다음과 같습니다. 1. Accuracy 2. F1-Score 3. Precision 4. Specificity 5. Sensitivity(Recall) 6. ROC-AUC 7. CSI 이렇게 단일척도에서 가지처럼 뻗어나가는 지표들이 존재하지만 각 지표의 큰 범주에 대해서 설명하고자합니다. 해당 챕터에서는 각각의 Metric에 대한 간단한 설명과 도출하는 방법, 그리고 어떤 상황에서 어떤 지표를 써야 알맞을지에 대하여 설명드릴 예정입니다. 먼저 지표에 대해서 알아보기 전 일전에 포스팅했던 Confusion Ma..
-
Regression Evaluation MetricStatistics 2020. 7. 5. 19:04
안녕하세요. 요즘 블로그 포스팅에 좀 소홀하게 된 것 같은데 이제부터는 1주일에 최소 1개의 포스팅을 아마 하게될 것 같습니다!! 현재 Dacon의 제주 신용카드 빅데이터 대회에 참여하고 있는데 오랜만에 경험하는 회귀 예측 문제여서 다시 초심으로 돌아간 마음으로 대회에 임하고 있습니다. 머신러닝에서 회귀 예측은 분류문제와 다르게 1 or 0 / True or False / 남자 or 여자 등의 카테고리컬한 변수를 예측하는 것이 아닌 예측하기 위한 설명변수들이 있고 그 설명변수가 예측하는 타겟 변수가 연속적인 값의 형태를 띄며 그것을 예측하는 것을 말합니다. 가령, 키, 몸무게, 매출, 수요 등의 예측 문제 이에 속합니다. 그래서 연속형 변수들을 예측할 때는 분류 문제처럼 완전 정확하게 예측하기란 불가능에..
-
Riot API(라이엇 api) Timeline API를 활용한 리그오브레전드 게임별 게임 시작 후 n분 까지의 데이터 수집ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 5. 5. 17:43
안녕하세요. 일단 본론으로 들어가기 전에 구글에 라이엇 데이터 수집 관련해서 검색을 하게 되면 제 블로그가 최상단이더라구요! 일단 너무 신기하기도 했고, 더 열심히 해서 많은 사람들에게 좀 더 쉽게 정보를 전달할 수 있게끔 노력할 수 있는 원동력이 되더라구요 ㅎㅎ 정말 감사했습니다. 지금까지 Riot API를 통해서 수집했던 데이터는 경기가 완료되고 최종적인 통계 데이터를 수집했는데요. 이 부분만으로도 충분히 게임 결과를 예측하고, 여러 분석을 하신 분들도 많으실 것입니다. 여기까지의 데이터 셋을 확인하고 싶으신 분들은 아래의 링크를 참조해주세요. 1. 챌린저, 그마, 마스터 랭크게임(바로 분석할 수 있도록 정교하게 데이터 셋 구축한 버전) League Of Legends High elo Ranked G..
-
AUC와 ROC CurveStatistics 2020. 4. 15. 18:26
안녕하세요 이전 포스팅에 이어서 AUC와 ROC Curve에 대해서 살펴보고자 합니다. 본 포스팅에 앞서 이전에 학습했던 것을 살짝 언급해보면 분류 모델의 성능을 평가하는 척도로는 Accuracy, AUC, F1 Score 등을 많이 사용하고 있습니다. 이와 같은 지표들을 어떻게 산출할까요? 바로 Confusion Matrix(혼돈행렬)에서 지표를 추출합니다. 위에 보시는 그림이 Confusion Matrix를 간략하게 그려본 것인데요. 이를 통해서 Accuracy Sensitivity Precision Specificity F1 Score Error Rate 의 지표를 추출할 수 있습니다. 위 지표들에 대한 자세한 설명은 아래의 글을 참고해주세요. Confusion Matrix의 손쉬운 이해 안녕하세요..
-
Confusion Matrix의 손쉬운 이해Statistics 2020. 4. 12. 17:23
안녕하세요. 이번엔 봐도봐도 항상 헷갈릴 수 있는 Confusion Matrix 부터 AUC, ROC Curve에 대해서 설명해드리고자 합니다. 저희는 어떤 미지의 값을 예측할 때 예측에 대한 성능을 다양한 척도(Metric)로 평가하고 있습니다. 간략하게 소개하자면, Regression RMSE MSE logloss Classification Accuracy f1-score 이러한 방법들이 있습니다. 다시 본론으로 돌아와서 지금부터 설명해드릴 부분은 분류문제에서 주로 사용하고 있는 Accuracy(정확도) Sensitivity(민감도, 재현도) Precision(정밀도) Specificity(특이도) AUC F1-score 위의 평가척도들을 설명해보도록 하겠습니다. 1. Confusion Matrix ..
-
Riot API를 활용한 리그오브레전드(lol) 데이터 셋 구축(kaggle dataset) - User League/ item / champion / Ranked Games(랭겜)ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 3. 28. 16:41
안녕하세요. 요즘 푹 빠져서 하고 있는 내용이 있는데요. 바로 Riot api를 활용한 리그오브레전드 데이터 셋 구축입니다. API의 비용문제가 있어서(2분에 최대 100requests) 수집하는데 마냥 자유롭지가 않아 꾸준히 수집하고 있습니다. 현재 1. 리그오브레전드 item, champion 정보 2. 리그오브레전드 챌린저, 그랜드마스터, 마스터 티어의 전체 유저 정보 이렇게 두가지를 kaggle에 업로드한 상태이구요 데이터에 관심이 있으시거나 필요한 데이터가 있으신 분들은 다운로드 해주시면 될 것 같습니다. 1. League of Legends(lol) item, champion information League of Legends(LOL) CHAMPION and ITEM - 2020 riot g..
-
리그오브레전드 데이터 분석 - Match Data Analytics(3)ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 3. 15. 17:20
이번 포스팅은 리그오브레전드의 경기기록(오브젝트 위주)이 승패에 얼만큼 영향을 미치는지 확인해보겠습니다. 저번 분석에서는 상관도를 파악하고, 승리와 패배에 따른 오브젝트 변수의 비율 차이를 EDA를 통해서 알아보았는데요. 실제로 우리가 게임을 하면서 말하는 얘기들에 일맥상통하는 인사이트들이 비교적 많이 도출되었습니다. 이처럼 게임 승패에 상관성이 있는 변수들은 "과연 승패에 얼만큼 영향을 미칠까?" 라는 고민까지 이어졌습니다. 따라서 이번에는 Logistic Regression 을 활용하여 오브젝트 변수들이 승패에 미치는 영향을 분석해보려고 합니다. 1. Logistic Regression 분석에 앞서 Logistic Regression에 대해서 간략하게 설명하고 넘어가도록 하겠습니다. 위의 그림은 Si..
-
리그오브레전드 데이터 분석 - match data EDA(2)ML, DL & Python/Riot API를 활용환 데이터 분석 2020. 3. 15. 17:13
안녕하세요. 이번 포스팅은 저번에 이어서 연속형 데이터에 관한 분석을 진행해보도록 하겠습니다. 저번 포스팅을 간략하게 요약하자면 범주형 변수(1/0)에 대한 시각화를 진행했엇는데요. 결과적으로 우리가 알고 있던 자명한 사실들을 데이터적으로 확인할 수 있엇습니다. 본격적으로 연속형 데이터 분석을 진행하도록 하겠습니다. 아 그리고 해당 포스팅을 읽기전에 처음 읽으시는 분들은 1번째 포스팅을 먼저 읽어주시면 감사하겠습니다.(데이터를 받으실 수 있거든요 ㅎㅎ) 1. 데이터 불러오고 처리하기 이 부분은 이전 포스팅에서 자세히 다루고 있으므로 코드 한개에 담겠습니다. import pandas as pd import pickle import matplotlib.pyplot as plt import numpy as n..