본문 바로가기

머신러닝,딥러닝/자연어처리(NLP)

(4)
사이킷런 TFIDF 와 코사인유사도 로 문서 유사도 구하기 이번 시간에는 위키 데이터를 이용해서 문서 유사도를 구해보겠습니다. scikit-learn 의 TFIDF API 를 써서 구해보겠습니다. train 시키는 건 간단한데 이걸 저장하고 로드하는법도 알면 편합니다 :) 위키에서 문서를 크롤링 한뒤, 정규표현식을 써서 한글,숫자,영어 이외에는 제거했습니다. 일본어나 한자 같은게 들어가 있는 경우도 있는데 중요한 feature 라고 보기 힘들다고 생각했기 때문입니다. 그리고 mecab 을 활용해서 토큰나이저를 따로 만들었습니다. mecab 사전을 보면 나와있는 태그들을 보고 명사,동사,형용사 등의 말만 추출하도록 만들었고, 한 음절로 되는 텍스트들은 정보가치가 떨어질 것으로 판단했습니다. 그리고 별도로 불용어 100개 사전을 참고했습니다. (출처는 맨 아래 있으..
word2vec 이해를 위한 개념 정리 part1 word2vec 을 이해하기 위한 개념들을 모아서 정리하는 포스팅입니다. part 몇까지 진행될지는 모르겠습니다. gensim 튜토리얼을 공부하다가 word2vec 개념을 정리할 필요가 있다고 느껴서 정리하는 포스팅입니다. 출처는 제일 하단에 밝혔으며, 개인적으로 자연어처리 공부하시는 분들은 한 번 이상 보는 자료들이라고 생각합니다. 이를 정리하는데 초점을 두었고, 좀 더 자세한 내용이 궁금한 분들은 출처에 있는 링크나 책을 통해 더 학습하시면 좋을 것 같습니다 1. 희소 표현(Sparse Represents) 희소행렬(sparse matrix)은 행렬의 값이 대부분 0인 경우를 가리키는 표현이다. 희소 표현은 희소행렬에서 나온 개념으로 보시면 됩니다. 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하..
캐글 자연어처리(NLP) 튜토리얼 입문 2. 머신러닝 모델링 - 백터화 https://www.kaggle.com/c/word2vec-nlp-tutorial 지난 번에 했던 캐글 NLP 튜토리얼 이어서 하겠습니다! 데이터를 정제한 뒤부터 이어지니깐 커널 돌려서 실행한 뒤에 따라서 해주시면 됩니다. 이 포스팅은 박조은님의 인프런 '[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리' 강좌를 듣고 실습하며 따로 내용을 정리한 글입니다! 따라서, 강의 내용 + @ (추가적으로 공부한 내용 및 방법) 으로 구성됩니다! :) scikit-learn 의 기본 알고리즘을 보여주는 그림입니다. 이번 모델링에서는 랜덤포레스트를 사용할 것입니다. 랜덤 포레스트는 https://ko.wikipedia.org/wiki/%EB%9E%9C%EB%8D%A4_%ED%8F%AC..
캐글 자연어처리(NLP) 튜토리얼 입문 1. 데이터 정제 https://www.kaggle.com/c/word2vec-nlp-tutorial Bag of Words Meets Bags of Popcorn Use Google's Word2Vec for movie reviews www.kaggle.com 자연어처리 입문으로 할 때 많이 쓰는 튜토리얼인 Bag of Words Meets Bags of Popcorn 을 다뤄보겠습니다. 위의 링크를 눌러서 'Data'를 누르시면 sources 를 받을 수 있습니다. (로그인이 되어있어야 다운이 될거에요~) 그리고 지금부터 하는 이 튜토리얼 코드는 순수하게 제가 하는 것이 아닌 인프런의 '[NLP] IMDB 영화리뷰 튜토리얼' 강의를 듣고 따라하면서 제가 복습 및 정리하는 내용입니다 :) 1. 데이터 불러서 살펴보기 우..