본문 바로가기

유사도 예제

(1)

사이킷런 TFIDF 와 코사인유사도 로 문서 유사도 구하기 이번 시간에는 위키 데이터를 이용해서 문서 유사도를 구해보겠습니다. scikit-learn 의 TFIDF API 를 써서 구해보겠습니다. train 시키는 건 간단한데 이걸 저장하고 로드하는법도 알면 편합니다 :) 위키에서 문서를 크롤링 한뒤, 정규표현식을 써서 한글,숫자,영어 이외에는 제거했습니다. 일본어나 한자 같은게 들어가 있는 경우도 있는데 중요한 feature 라고 보기 힘들다고 생각했기 때문입니다. 그리고 mecab 을 활용해서 토큰나이저를 따로 만들었습니다. mecab 사전을 보면 나와있는 태그들을 보고 명사,동사,형용사 등의 말만 추출하도록 만들었고, 한 음절로 되는 텍스트들은 정보가치가 떨어질 것으로 판단했습니다. 그리고 별도로 불용어 100개 사전을 참고했습니다. (출처는 맨 아래 있으..

이전 1 다음

티스토리툴바