Similarity(유사도)
두 Item 간의 비슷한 정도를 측정하는 개념입니다
Recommendation System에서 User나 Item 간의 관련성을 평가하는데 사용합니다
Consine Similarity(코사인 유사도)
벡터 간 코사인 각도를 이용하여 유사도를 측정합니다
두 벡터가 이루는 각이 작을수록(Cosine 값이 1에 가까울수록) 두 벡터는 유사하다고 판단합니다
주로 텍스트 데이터나 문서의 유사성을 측정할 때 사용합니다
$$Cosine\; Similarity\;= \frac{A \cdot B}{||A|| \cdot ||B||} = \frac{\sum \limits_{i=1}{n} A_i \times B_i}{\sqrt{ \sum \limits_{i=1}^{n} {A_i}^2} \times \sqrt{ \sum \limits_{i=1}^{n} {B_i}^2} }$$
Jaccard Similarity(자카드 유사도)
두 집합 간의 교집합과 합집합의 비율로 유사성을 측정합니다인 각도를 이용하여 유사도를 측정합니다
주로 이진 데이터에서 사용합니다
$$Jaccard\; Similarity\;= \frac{|A \cap B|}{|A \cup B| } = \frac{|A \cap B|}{|A| + |B| - |A \cap B|}$$
Euclidean Distance(유클리디언 거리)
두 벡터 간의 직선 거리를 측정합니다
값이 작을수록 두 벡터는 더 유사하다고 봅니다
$$Euclidean\;Distance = \sqrt{\sum \limits_{i=1}^{n} (A_i - B_i)^2}$$
Pearson Correlation Coefficient(피어슨 상관계수)
두 벡터 간의 선형 상관관계를 측정합니다
값이 1에 가까울수록 두 벡터는 양의 상관관계가 있고, -1에 가까울수록 음의 상관관계가 있다고 봅니다
$$Pearson\; Correlation = \frac{\sum \limits_{i=1}^{n} (A_i - \bar{A}) (B_i - \bar{B})}{\sqrt{\sum \limits_{i=1}^{n} (A_i - \bar{A})^2} \sqrt{ \sum \limits_{i=1}^{n} (B_i - \bar{B})^2 }}$$