본문 바로가기

Etc

파이썬 협업필터링(Collaborative Filtering), 추천 알고리즘 - 2 파이썬 협업필터링(Collaborative Filtering), 추천 알고리즘 - 2python 협업필터링(Collaborative Filtering) 추천 알고리즘 - 1 에서 이어집니다. 이전 포스팅에서 사용된 피타고라스 공식을 이용한 유사도도출은 2차원, 즉 비교대상이 2개로 한정되는 한계가 있다.비교대상이 2개라니, 실제 추천 알고리즘을 구현하고자 하는 데이터에서는 사실상 사용될 일이 없다고 할 수 있다. 다차원에서의 거리를 구해 비교대상이 몇 개로 늘어나든 하나의 함수로 비교할 수 있어야 하고, 그에 따른 유사도를 구할 수 있어야 한다. 다차원간 거리를 구하는 데 사용되는 공식들은Euclidean distanceCity-block(Manhattan) distanceMinkowski distanc..
파이썬 협업필터링(Collaborative Filtering), 추천 알고리즘 - 1 파이썬 협업필터링(Collaborative Filtering), 추천 알고리즘 - 1Preview협업필터링이란 많은 사용자들로부터 얻은 기호정보에 따라 사용자들의 관심사를 자동적으로 예측하는 방법이다.넷플릭스, 왓챠 등에서 쓰이는 방법으로 두 사람간 유사도(Similarity)를 구해 예상 평점을 구하고 비슷한 영화를 추천해주는 등의 알고리즘에 사용된다. 협업 필터링에는 유저기반(User-based CF) 과 아이템기반(Item-based CF) 이 존재하는데유저기반(User-based CF) 은 포스팅에 사용될 기법이고아이템기반(Item-based CF) 은 실제 데이터에서 유저 수가 적거나 겹치는 아이템이 적어 유효한 데이터를 뽑아내기 힘들 때 거꾸로 아이템을 기반으로 유사도를 구하는 기법이다. 몇개..
R을 이용한 텍스트마이닝 & 워드클라우드 R을 이용한 한글 텍스트마이닝 & 워드클라우드Preview비정형 텍스트를 기반으로 의미있는 정보를 추출하는 기술을 텍스트마이닝이라고 합니다. 데이터마이닝과는 다른 것으로, 데이터마이닝은 구조화되고 사실적인 방대한 데이터베이스에서 관심 있는 패턴을 찾아내는 기술 분야라고 한다면 텍스트마이닝은 구조화되지 않고 자연어로 이루어진 텍스트에서 의미를 찾아내는 기술 분야입니다.우리는 비정형 텍스트에서 텍스트마이닝을 통해 원하는 텍스트를 걸러내, R을 통한 시각화를 해 볼 겁니다. 워드클라우드는 아래의 사진과 같이 문서의 단어들을 분류하여 그 빈도를 한눈에 보기 쉽게 하는 겁니다. (이런거) 포스팅에는 영화 박열의 네이버 리뷰를 크롤링해 .txt 파일로 저장한 것을 사용할 겁니다. 아래 첨부파일을 다운받으세요.1. ..