NLP 2

[Python] 코사인 유사도를 이용한 영화 추천 알고리즘 만들기

오늘은 영화 시놉시스를 바탕으로 영화 추천 알고리즘을 만들어 보려고 한다. 내가 "베테랑"이라는 영화를 좋아했다고 할때, 이와 가장 유사한 영화순으로 추천을 해 줄것이다. 필요한 절차는 다음과 같다. (1) 영화 시놉시스에서 주요 단어를 추출하기 (2) 불용어(의미없는 단어) 제거하기 (3) TF-IDF를 구하여 문서(영화)별로 어떤 단어가 중요하게 사용되었는지 구하기 (4) 각 문서마다 "베테랑"과의 코사인 유사도를 계산하여 유사도가 높은 순으로 결과 정렬하기 첨부파일 전체 코드 + data.json 다운받기 영화 시놉시스에서 주요 단어를 추출하기 시놉시스는 네이버에서 대충 긁어왔다. 첨부파일 data.json 을 참고하면된다. 데이터의 제일 마지막에 비교하고자하는 영화 "베테랑"을 넣고 Konlpy의..

NLP 노트

단어의 표현 방법 Word Representation 국소 표현 Local Representation: 단어를 기호로 취급, 정수 등 특정값을 매핑하여 단어를 표현, Discrete Representation - Bag of Words(BoW), N-gram, One-hot Vector 분산 표현 Distributed Representation: 단어의 의미와 뉘앙스 표현가능. 주변 단어를 참고하여 단어를 표현, Continuous Representation - Word2Vec, LSA, GloVe 카운트 기반의 단어 표현 # Bag of Words 빈도 수 기반의 표현방법. 단어의 등장 순서를 전혀 고려하지 않음 ("Bag"). scikit learn의 CountVectorizer를 이용하면 쉽게 만들..

나/이슈 2021.03.03