군집분석
-
youtube text mining3ML, DL & Python/Youtube 크롤링 & 분석 2019. 5. 11. 15:10
저번 포스팅에서는 word embedding와 word2vec을 사용하여 단어를 벡터화하고 벡터공간에 뿌린 뒤에 단어들의 유사도를 확인해보았습니다. 이번 포스팅에서는 벡터공간에 뿌려진 단어들의 밀집정도와 어느 단어들끼리 묶여있는지 확인하기 위해서 군집분석을 진행해보겠습니다. 저는 단어들을 스스로 학습하여 epsilon과 min_scale을 이용하여 군집의 갯수를 정해주는 DBSCAN방식과 중심단어를 기준으로 단어 벡터간의 거리를 기반으로 군집을 형성하는데 군집의 갯수를 지정해줘야하는 KMEANS방식을 사용했습니다. kmeans는 초기에 지정한 군집 갯수에 따라 중심 데이터를 지정합니다. 그리고 중심 데이터와 가까운 데이터들을 군집으로 묶습니다. 다시 형성된 각 군집에서 중심이 되는 데이터를 지정한 뒤 중..