연구/알고리즘

유사도 구하기

클러스터링을 하는데 있어서 중요한 것중의 하나는 유사도를 구하는 것이다.
데이타 간에 서로 얼마만큼의 유사도를 가지고 있는 가를 따짐으로서 클러스터링을 하게 되는데, 이러한 유사도를 구하는 방법에는 몇가지가 있다. 그  중 몇개를 살펴보면 먼저 가장 유명한 유클리안 디스턴스(Euclidean distance)측정 방식이 있다.

[tex]d(Z_{u},Z_{w}) = sqrt{\sum_{j=1}^{N_d}(Z_{u,j}-Z_{w,j})^2}=||Z_{u}-Z_{w}||[/tex]


유클리안 디스턴스 방식은 민코스키 메트릭(Minkowski metric) 방식에서 [tex]\alpha=2[/tex] 인 특별한 경우이다.

[tex]d^\alpha(Z_{u},Z_{w}) = (\sum_{j=1}^{N_d}(Z_{u,j}-Z_{w,j})^\alpha)^{1/\alpha}=||Z_{u}-Z_{w}||^\alpha[/tex]

[tex]\alpha=1[/tex] 이면 맨하탄 디스턴스(Manhattan distance) 방식이다.


다음으로는 코사인 디스턴스(cosine distance) 방식이 있다. 코사인 디스턴스는 민코스키 메트릭이 고차원(high dimentionality)의 클러스터링 데이타에서 나타날 수 있는 문제점을 해결하는 방식으로 아래와 같다.

[tex]<Z_{u},Z_{w}>=\frac{\sum_{j=1}^{N_d}Z_{u,j}Z_{w,j}}{||Z_{u}||\,||Z_{w}||}\qquad where\,<Z_{u},Z_{w}>\in[-1,1][/tex]


또다른 방법으로는 마할라노비스 디스턴스(Mahalanobis distance) 방식이 있는데 이는 공분산 행렬(covariance matrix)를 이용하여 거리를 구하는 방식이다.

[tex]d_{M}(Z_{u},Z_{w})=(Z_{u}-Z_{w})\Sigma^{-1}(Z_{u}-Z_{w})^T[/tex]

여기서 [tex]\Sigma[/tex]는 공분산 행렬이다. 마할라노비스 디스턴스는 데이타의 분산(variance)과 상관(correlation)에 기반하여 다른 특성을 지닌다.

top


http://www.joon.pe.kr/blog/trackback/8
Commented by ctcquatre at 2008/10/02 14:53  Reply|Edit|Delete
좋은 정보 감사드립니다.
제 블로그에 이곳원문출처를 밝히고
게제하였습니다.

좋은 하루되세요^^


<< Prev   1   ... 326   327   328   329   330   331   332   333   334   ... 337   Next >>