2010-12-22

Rank Correlation Coefficient

공부하는 분야가 분야이다 보니 늘 사용해야 하는 지식들이 있다. 하지만 조두(鳥頭)의 한계를 벗어나지 못하다 보니 여기에 이렇게라도 기록해야 쉽게 찾아볼 수 있다.
사람들이 흔히 사용하는 순위배열(Ranks, Rank sequence) 상의 순위(Rank)를 가지고 두 자료를 비교하는 방법이 바로 Rank Correlation Coefficient인데, 그 중에서 특별한 매개변수를 필요로 하지 않는 간단한 두가지 방법을 서술해 보고자 한다. 자료는 Wikipedia 내용을 참조했으며, 이론적인 내용은 빼고 어떻게 산출하는가만 썼다.

1. Kandall('s) τ (tau) correlation coefficient
   주어진 두 순위배열이 조화되는가 (concordant) 또는 그렇지 않은가 (discordant)를 측정하는 연관계수이다. 조화된다는 의미는 하나의 순위배열에서 상위 순위인 변수는 다른 순위배열에서도 상위 순위를 차지한다는 것이며, 반대로 하나의 순위배열에서 하위 순위인 변수는 다른 순위배열에서도 하위 순위를 차지한다는 것이다. 부조화는 반대로 하나의 순위배열에서 상위(하위) 순위인 변수가 다른 순위배열에서는 하위(상위) 순위를 차지한다는 것이다.
   설명에서 알 수 있는 바와 같이 이는 하나의 변수에 대한 모든 변수의 상대적 측정치이다. 그러나 방향이 존재하지 않으므로 따라서 계산을 위해서는 1/2×n×(n-1)번의 순위 비교가 필요하게 된다. 식은 아래와 같다.


  위 식에 따라 τ는 -1과 1 사이의 값을 가지게 되며, 1에 가까울수록 두 순위배열의 경향은 비슷해지고 반대로 -1에 가까울수록 서로 다르다고 할 수 있다. 그리고 0에 가깝다면 두 순위는 아무 관련이 없다고 (독립적) 말할 수 있다.

  예를 들어 아래와 같은 순위가 있다.
  - 순위배열 1 (국어시험 성적순서) = { 순이, 영철, 미영, 철수, 명수 }
  - 순위배열 2 (영어시험 성적순서) = { 영철, 미영, 순이, 명수, 철수 }

  - 조화되는 순서 : 순이-명수, 순이-철수, 영철-미영, 영철-철수, 영철-명수, 미영-철수, 미영-명수 (7)
  - 부조화되는 순서 : 순이-영철, 순이-미영, 철수-명수 (3)

  τ = (7 - 3) / (0.5 * 5 * 4) = 0.4
  따라서 두 순위배열은 비슷한 경향을 가진다.

2. Spearman's rank correlation coefficient / Spearman's ρ (rho)
   위에서 순위는 고려하고 순위의 차는 고려하지 않았다면, 이 경우에는 순위의 차를 계산하는 경우가 되겠다. 식은 다음과 같으며, 값의 해석은 위의 경우와 비슷하다.


   여기서 di는 동일한 i요소의 두 순위배열 사이의 차이를 계산한 것이다.
   
    위의 예에서 ρ를 계산해 보자.
    d순이 = 1 - 3, d영철 = 2 - 1, d미영 = 3 - 2, d철수 = 4 - 5, d명수 = 5 - 4

    ρ = 1 - (6 * (-2)^2 + (1)^2 + (1)^2 + (-1)^2 + (1)^2)) / (5 * (25-1)) = 0.6
    따라서 두 순위배열은 비슷한 경향을 가진다.

    추가적으로 순위배열의 요소가 위의 예와 같이 일치하는 경우도 있지만 그렇지 않은 경우도 있다. 또는 순위배열이 항목이 아닌 값으로 되어 있는 경우도 있다. 이럴 때는 아래의 식을 사용한다.


    같은 원리인데, 각 순위가 값으로 되어있는 경우 평균을 이용해서 계산한다.


  이 경우의 예를 들어보자.
  - 순위배열 1 (국어시험 성적순서) = { 순이, 영철, 미영, 상수, 명수 }
  - 순위배열 2 (영어시험 성적순서) = { 현아, 미영, 순이, 명수, 철수 }
  위 예에서 공통되는 사람은 순이, 미영, 명수 셋이다. 비교는 같은 항목끼리 해야 하므로 다른 사람들, 즉 영철, 상수, 현아, 철수는 비교 대상에서 제외해야 한다.

   비교 대상의 순위 평균을 내어보자. 국어 평균은 1 (순이) + 3 (미영) + 5 (명수) / 3 = 3이고, 영어 평균은 3 (순이) + 2 (미영) + 4 (명수) / 3 = 3이다.

   ρ = (1-3)(3-3) + (3-3)(2-3) + (5-3)(4-3) / Root{(1-3)^2 + (3-3)^2 + (5-3)^2}*{(3-3)^2 + (2-3)^2 + (4-3)^2} = 0.5
   따라서 두 배열은 비슷한 양상을 보인다.

6 comments:

  1. 이게 도대체 뭐란말인가!!ㅋㅋㅋㅋㅋ

    ReplyDelete
  2. 밑에 있는 친절한 설명(?)도 별로 도움이 안되는 듯...
    내 자신을 위한 거긴 하지만... Rank Correlation Coefficient라니깐!!

    ReplyDelete
  3. 이게머지현민아

    ReplyDelete
  4. 이해가안되....다른조는서론으로넘어갔던데..우린뭘까..
    현민아 우린 언제까짘ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    ReplyDelete
  5. 나도모르겠어미라야

    ReplyDelete
  6. ..우리의이런댓글을이승주교수님이보시면..우리의수고를알텐데...하...

    ReplyDelete