본문 바로가기
Recommendation System

[Recommendattion System]Consine Similarity(코사인 유사도), Jaccard Similarity(자카드 유사도), Euclidean Distance(유클리디언 거리), Pearson Correlation Coefficient(피어슨 상관계수)

by 어떻게든 되겠지~ 2024. 6. 20.

Similarity(유사도)

두 Item 간의 비슷한 정도를 측정하는 개념입니다

Recommendation System에서 User나 Item 간의 관련성을 평가하는데 사용합니다

Consine Similarity(코사인 유사도)

벡터 간 코사인 각도를 이용하여 유사도를 측정합니다

두 벡터가 이루는 각이 작을수록(Cosine 값이 1에 가까울수록) 두 벡터는 유사하다고 판단합니다

주로 텍스트 데이터나 문서의 유사성을 측정할 때 사용합니다

$$Cosine\; Similarity\;= \frac{A \cdot B}{||A|| \cdot ||B||} = \frac{\sum \limits_{i=1}{n} A_i \times B_i}{\sqrt{ \sum \limits_{i=1}^{n} {A_i}^2} \times \sqrt{ \sum \limits_{i=1}^{n} {B_i}^2}  }$$

Jaccard Similarity(자카드 유사도)

두 집합 간의 교집합과 합집합의 비율로 유사성을 측정합니다인 각도를 이용하여 유사도를 측정합니다

주로 이진 데이터에서 사용합니다

$$Jaccard\; Similarity\;= \frac{|A \cap B|}{|A \cup B| } = \frac{|A \cap B|}{|A| + |B| - |A \cap B|}$$

Euclidean Distance(유클리디언 거리)

두 벡터 간의 직선 거리를 측정합니다

값이 작을수록 두 벡터는 더 유사하다고 봅니다

$$Euclidean\;Distance = \sqrt{\sum \limits_{i=1}^{n} (A_i - B_i)^2}$$

Pearson Correlation Coefficient(피어슨 상관계수)

두 벡터 간의 선형 상관관계를 측정합니다

값이 1에 가까울수록 두 벡터는 양의 상관관계가 있고, -1에 가까울수록 음의 상관관계가 있다고 봅니다

$$Pearson\; Correlation = \frac{\sum \limits_{i=1}^{n} (A_i - \bar{A}) (B_i - \bar{B})}{\sqrt{\sum \limits_{i=1}^{n} (A_i - \bar{A})^2} \sqrt{ \sum \limits_{i=1}^{n} (B_i - \bar{B})^2 }}$$

반응형