Similarity(유사도)
두 Item 간의 비슷한 정도를 측정하는 개념입니다
Recommendation System에서 User나 Item 간의 관련성을 평가하는데 사용합니다
Consine Similarity(코사인 유사도)
벡터 간 코사인 각도를 이용하여 유사도를 측정합니다
두 벡터가 이루는 각이 작을수록(Cosine 값이 1에 가까울수록) 두 벡터는 유사하다고 판단합니다
주로 텍스트 데이터나 문서의 유사성을 측정할 때 사용합니다
CosineSimilarity=A⋅B||A||⋅||B||=∑i=1nAi×Bi√n∑i=1Ai2×√n∑i=1Bi2
Jaccard Similarity(자카드 유사도)
두 집합 간의 교집합과 합집합의 비율로 유사성을 측정합니다인 각도를 이용하여 유사도를 측정합니다
주로 이진 데이터에서 사용합니다
JaccardSimilarity=|A∩B||A∪B|=|A∩B||A|+|B|−|A∩B|
Euclidean Distance(유클리디언 거리)
두 벡터 간의 직선 거리를 측정합니다
값이 작을수록 두 벡터는 더 유사하다고 봅니다
EuclideanDistance=√n∑i=1(Ai−Bi)2
Pearson Correlation Coefficient(피어슨 상관계수)
두 벡터 간의 선형 상관관계를 측정합니다
값이 1에 가까울수록 두 벡터는 양의 상관관계가 있고, -1에 가까울수록 음의 상관관계가 있다고 봅니다
PearsonCorrelation=n∑i=1(Ai−ˉA)(Bi−ˉB)√n∑i=1(Ai−ˉA)2√n∑i=1(Bi−ˉB)2
반응형