2010-03-09

Distributional Hypothesis

정의는 다음과 같다.
Words that occur in the same context have similar meanings.

Relational similarity를 산정하는 논문에서 Semantic relation을 산정하기 위해서 사용한
Distributional hypothesis를 이해하는 데 하루 이상의 시간이 걸렸다. 젠장...

1. 먼저 관계 (Relation)를 산정하고자 하는 단어쌍 (Word pair)를 가져야 한다.
   이 단어쌍은 다수 존재하여야 관계를 산정할 수 있는데,
   이 측면에서는 옳은 예 (true example)가 다수 존재하여야 할 것으로 보인다.
   예) 이명박 - 한국, 오바마 - 미국, ... -> "...의 대통령은 ..." 의 관계

2. 문맥 (context)의 근거가 될 만한 문서들을 수집한다. 웹 문서, 요약본, 소설 등...

3. 수집된 문서에서 단어쌍이 존재하는 문맥 패턴(subsequence)을 수집해낸다.
   이때 다양한 방법이 존재할 수 있는데, 논문에서는 다음 두가지를 이용했다.

  3-1. Shallow lexical pattern extraction algorithm
    a. 단어쌍에 해당된다고 판단되는 접두어, 접미어 등의 생략
       예) Inc., Ltd., Corp., Mr., Ms., Dr., 등
    b. 단어수 제한 및 허용치 (gap)의 설정, 부정어 확장
       원래 단어쌍의 중간에 있는 단어들로 단어쌍의 의미적 연결을 측정하고자 한 것이므로
       단어쌍을 포함한 패턴상의 총 단어 수 (5), 추가로 붙는 단어의 허용치 (단어당 2)등 지정
       부정어(not)은 관계 표현상 중요하므로 정형화 (didn't -> did not)
    c. 다 모아서 이 패턴이 n번 이상 나올 때 패턴으로 채택

  3-2. Prefixspan algorithm
        후보가 될 패턴의 수가 많으므로 이를 효과적으로 추출해 낼 방법론
        (효율 측면이므로 패턴의 질과는 관계가 없다)

4. 이렇게 모아진 패턴의 출현수를 normalize해서 단어쌍의 ID순으로 늘어놓았을 때,
   같은 출현 패턴을 가지는 관계가 동일한 관계로 파악될 수 있다.
   예)
            F  |2                                  3
                |1
                |                                    4
                |  2
                |  1
                |      1   2                           3
                ----2--1-----------------4----------
                                                          Word-pair IDs
            1 : X buys Y              2 : X acquires Y
            3 : Y ceo X               4 : Y chief X

            -> 1과 2는 비슷한 관계, 3과 4는 비슷한 관계가 된다.

     실제로는 이렇게 딱 맞는 경우가 나오기 어렵기 때문에 Clustering을 이용한다.

No comments:

Post a Comment