Statistics
-
Machine Learning Imbalanced Data(불균형 데이터)Statistics 2020. 7. 25. 23:17
안녕하세요. 이번에 다룰 내용은 불균형 데이터에 대해서 다뤄보겠습니다. 먼저 분류문제를 해결할 때 데이터의 분포를 가장 먼저 확인합니다. 이 때 예측해야하는 결과값의 분포가 100:1, 200:1, 400:1 ... 정도로 굉장히 불균형한 분포를 띄고 있는 데이터들을 많이 만나곤 하는데요. 불균형한 데이터를 그대로 예측하게 과적합문제가 발생할 가능성이 높아집니다. 그렇기 때문에 예측시 이러한 과적합 문제를 해결하기 위해서는 다양한 방법론이 있지만 기본적으로 데이터가 불균형하다면 불균형 문제를 해결한 뒤 문제에 접근을 해야합니다. 여담으로 최근에 참여했던 프로젝트에서 데이터의 불균형성을 인지하고 있지만 해결하지 않아서 Public Score와 Local 예측값과의 차이가 심하게 났던 과적합을 일으켰으며, ..
-
Classification Evaluation MetricStatistics 2020. 7. 12. 20:57
이번 포스팅은 회귀 평가 척도에 대해서 알아봤던 저번 포스팅에 이어서 분류 문제에서 평가 척도로 이용하고 있는 지표들을 알아보고자 합니다. 바로 본론으로 들어가겠습니다. 분류 문제의 평가척도 종류는 다음과 같습니다. 1. Accuracy 2. F1-Score 3. Precision 4. Specificity 5. Sensitivity(Recall) 6. ROC-AUC 7. CSI 이렇게 단일척도에서 가지처럼 뻗어나가는 지표들이 존재하지만 각 지표의 큰 범주에 대해서 설명하고자합니다. 해당 챕터에서는 각각의 Metric에 대한 간단한 설명과 도출하는 방법, 그리고 어떤 상황에서 어떤 지표를 써야 알맞을지에 대하여 설명드릴 예정입니다. 먼저 지표에 대해서 알아보기 전 일전에 포스팅했던 Confusion Ma..
-
Regression Evaluation MetricStatistics 2020. 7. 5. 19:04
안녕하세요. 요즘 블로그 포스팅에 좀 소홀하게 된 것 같은데 이제부터는 1주일에 최소 1개의 포스팅을 아마 하게될 것 같습니다!! 현재 Dacon의 제주 신용카드 빅데이터 대회에 참여하고 있는데 오랜만에 경험하는 회귀 예측 문제여서 다시 초심으로 돌아간 마음으로 대회에 임하고 있습니다. 머신러닝에서 회귀 예측은 분류문제와 다르게 1 or 0 / True or False / 남자 or 여자 등의 카테고리컬한 변수를 예측하는 것이 아닌 예측하기 위한 설명변수들이 있고 그 설명변수가 예측하는 타겟 변수가 연속적인 값의 형태를 띄며 그것을 예측하는 것을 말합니다. 가령, 키, 몸무게, 매출, 수요 등의 예측 문제 이에 속합니다. 그래서 연속형 변수들을 예측할 때는 분류 문제처럼 완전 정확하게 예측하기란 불가능에..
-
AUC와 ROC CurveStatistics 2020. 4. 15. 18:26
안녕하세요 이전 포스팅에 이어서 AUC와 ROC Curve에 대해서 살펴보고자 합니다. 본 포스팅에 앞서 이전에 학습했던 것을 살짝 언급해보면 분류 모델의 성능을 평가하는 척도로는 Accuracy, AUC, F1 Score 등을 많이 사용하고 있습니다. 이와 같은 지표들을 어떻게 산출할까요? 바로 Confusion Matrix(혼돈행렬)에서 지표를 추출합니다. 위에 보시는 그림이 Confusion Matrix를 간략하게 그려본 것인데요. 이를 통해서 Accuracy Sensitivity Precision Specificity F1 Score Error Rate 의 지표를 추출할 수 있습니다. 위 지표들에 대한 자세한 설명은 아래의 글을 참고해주세요. Confusion Matrix의 손쉬운 이해 안녕하세요..
-
Confusion Matrix의 손쉬운 이해Statistics 2020. 4. 12. 17:23
안녕하세요. 이번엔 봐도봐도 항상 헷갈릴 수 있는 Confusion Matrix 부터 AUC, ROC Curve에 대해서 설명해드리고자 합니다. 저희는 어떤 미지의 값을 예측할 때 예측에 대한 성능을 다양한 척도(Metric)로 평가하고 있습니다. 간략하게 소개하자면, Regression RMSE MSE logloss Classification Accuracy f1-score 이러한 방법들이 있습니다. 다시 본론으로 돌아와서 지금부터 설명해드릴 부분은 분류문제에서 주로 사용하고 있는 Accuracy(정확도) Sensitivity(민감도, 재현도) Precision(정밀도) Specificity(특이도) AUC F1-score 위의 평가척도들을 설명해보도록 하겠습니다. 1. Confusion Matrix ..