konlpy
-
youtube text mining 1ML, DL & Python/Youtube 크롤링 & 분석 2019. 5. 6. 19:02
안녕하세요. 저번 유튜브 댓글 크롤링에 이은 댓글을 이용한 text mining을 해보도록 하겠습니다. 먼저 저번에 긁어왔던 댓글 데이터를 불러와보도록 하겠습니다. 현재 보시는 것 처럼 댓글 데이터는 불필요한 이모티콘, ㅋㅋ, ㅎㅎ 같은 문자들이 존재 합니다. 텍스트 마이닝에서 중요한 것은 이러한 불필요한 단어들을 없애주는 전처리가 굉장히 중요합니다. 따라서 이러한 이모티콘들을 없앤 뒤 분석을 하겠습니다. 먼저 re 모듈을 import 받아서 불용어구들을 compile해주겠습니다. #이모티콘 제거 emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # emoticons u"\U0001F300-\U0001F5FF" # symbols & pictographs ..