-
신민용
e-mail: tlsalsdyd1995@gmail.com
kaggle: www.kaggle.com/gyejr95
dacon: dacon.io/myprofile/123352/home/
linkedin: www.linkedin.com/in/minyong-shin-53752b1a0/
github: github.com/minyong-shin
세상의 다양한 도메인을 다룰 수 있는 분석가를 꿈꾸고 있으며, 스타트업에 관심이 많습니다.
경력
heronation 2019/03 ~ 2019/06 Data scientist(intern) - ML을 통한 신체치수 예측 방법론 및 모델 개발
- 예측 치수 오차 최적화
- shopping mall crawlingquantastic 2019/06 ~ 2019/10 Data scientist(intern) - Data scrapy & preprocessing pipeline(airflow)
- Alternative Data ETL
- Text Data analysis & NLP
- 주가와 대안 데이터간의 상관분석 및 회귀분석 진행nrise 2019/11 ~ Data analyst - app service data analysis 수상
- 2020 도서관 빅데이터 대상(2020/10)
- 포스트 코로나 시대를 위한 스마트 도서관 위치 최적화 알고리즘 개발 및 활용방안 수립
- 2020 날씨 빅데이터 콘테스트 입상(2020/07)
- Prophet을 통한 시계열 예측 모델링
- Boosting기반 알고리즘을 통한 예측 모델 파이프라인 개발
- 모델 앙상블 및 파라미터 최적화를 통해 현대제철 결로현상 예측(AUC: 0.85-)
- samsung SDS Britics AI 공모전 3등(2019/09)
-
mbti 데이터를 활용한 사용자 대화 기반 성격 예측 서비스 개발
- Mbti web site crawling
- Bi-GRU, CNN, HAN 모델을 활용한 성격 기반 예측 모델링 생성 및 앙상블
-
- 프로농구 데이터 활용 분석 경진대회 특별상(2019/01)
- 텍스트마이닝과 웹데이터를 활용한 흥행지수의 생성 및 분석
- 토픽 모델링 및 w2v를 활용한 텍스트 마이닝
- Logistic regression을 활용한 경기 내용에 따른 흥행도 분석
- 서울시빅데이터캠퍼스공모전 장려상(2018/12)
- 서울시 미세먼지와 열섬을 중심으로 환경특별시를 위한 종합환경대책 제시
- 서울시 지역별 날씨 관련 EDA
- RF, Boosting기반 모델링을 통한 미세먼지 및 열섬 예측 모델링
- 지역구별 clustering 후 맞춤 환경대책 제시
- 산업단지 빅데이터 아이디어 공모전 장려상(2018/11)
- 텍스트마이닝, w2v, k-means clustering를 활용한 공단 내 문화생활 활성화 방안과 정보 제공 시스템 구축 방안 마련
- 공단 내 데이터 활용하여 각 직무별 클러스터링 후 분석
- PCA, k means clustering를 활용한 공단 내 커뮤니티 활성화 시스템 제시
- 문화관광빅데이터분석대회 은상(2018/09)
- 문화관광 데이터와 skt 유동 인구 데이터를 이용한 데이터 분석, Work & Life Balance를 위한 7-11시 사이의 여가 추천 서비스 "7 to 11"
- 문화관광 관련된 설문 데이터를 활용한 k-means 텍스트 군집분석
- EDA, 텍스트 군집분석에 기반한 사용자별 맞춤 여가추천 서비스 개발
- 2018 날씨 빅데이터 콘테스트 입상(2018/08)
- 날씨와 시청률간의 연관분석 및 날씨 데이터를 활용한 시청률 예측 모델링 개발
- RF, Linear, XGB를 활용한 시청률 예측 및 EDA 수행
- 날씨를 활용한 시청률 예측 결과에 따른 타겟 광고 제시
프로젝트(Kaggle & Dacon)
- Kaggle - Mechanisms of Action (MoA) Prediction(2020/11 ~ )
- leaderboard: 144/4280
- Kaggle - Mechanisms of Action (MoA) Prediction 보기프로젝트 보기
- Kaggle - Riiid Answered correctness prediction(2020/11 ~ )
- leaderboard: 578/1910
- large data preprocessing(100M)
- LGBM Model inference
- Kaggle - Riiid Answered correctness prediction 보기프로젝트 보기
- Dacon - 랜드마크 분류 AI 경진대회(2020/11)
- rank: 56/82
- 한국의 랜드마크 이미지 분류 예측 모델링 개발
- pytorch를 활용한 efficientnet으로 추론
- 앞서 pytorch로 Datasetload -> pretrained model import -> finetuning -> inference 과정을 숙지한 것을 토대로 추론 모델 스터디
- Dacon - 랜드마크 분류 AI 경진대회 보기프로젝트 보기
- Dacon - 심리성향 AI예측 대회(2020/11)
- rank: 97/581
- 설문을 바탕으로한 심리성향 데이터(tabular data)를 이용하여 투표여부 예측 classification
- XGB, LGBM, Catboost를 활용한 앙상블 모델 개발
- bayesian optimization을 활용하여 하이퍼파라미터 최적화
- 앙상블 가중치 최적화
- Dacon - 심리성향 AI예측 대회 보기프로젝트 보기
- Dacon - 아리랑 위성영상 AI 객체 검출 경진대회(2020/10)
- rank: 42/69
- 위성 사진에 찍힌 물체 Detection 모델 개발
- pytorch및 faster-rcnn을 활용한 object detection
- DOTA coord to bbox coord convert
- pytorch 모델링및 추론 방법론에 대한 숙지
- Dacon - 아리랑 위성영상 AI 객체 검출 경진대회 보기프로젝트 보기
- Dacon - 제주시 카드 사용량 예측(2020/05)
- rank: 185/411
- 약 15개월의 카드 사용량 데이터를 이용하여 3개월 뒤의 카드 사용량을 예측하는 회귀 대회
- LGBM, XGB모델을 활용하여 regression
- 문제를 해결하는 방법론이 항상 ML, DL이 최적화된 방법이 아니라는 것을 스터디(1위 PB)
Dacon - 제주시 카드 사용량 예측 보기프로젝트 보기
- kaggle - Fraud Detection(2019/05)
- Top 35%
- 각 유저의 마스킹된 데이터를 활용하여 이상 감지 모델 개발
- kaggle - Fraud Detection 보기프로젝트 보기
- COMPAS - 김해 화재 예측 대회(2019/01)
- 추가 데이터 크롤링 및 위경도 좌표 맵핑
- EDA, 데이터 pipeline
- labeling optimize
- noise optimize
- XGB, RF모델링
스터디
- Kaggle Study(신촌) 팀장 (2019/03 ~ 2019/07)
- Home Credit prediction competition
- 비전공 팀원들 EDA, Modeling 지도
- Fraud Detection
- 지도한 팀원들과 실제 대회 참가
- 지속적인 EDA, FE, Modeling 최적화 및 피드백
- Home Credit prediction competition
- Kaggle Study 스터디원 (2019/11 ~ 2020/02)
- Kaggle Dataset expert 달성
- Kaggle Notebook expert 달성
- 가짜연구소(Pseudo Labs) 튜터
- AI Competition 참가
- Dacon jeju card amount prediction
- Dacon 위성 객체 검출 대회
- Dacon AI 랜드마크 분류 대회
- 2020 도서관 빅데이터 대상(2020/10)