정의는 다음과 같다.
Words that occur in the same context have similar meanings.
Relational similarity를 산정하는 논문에서 Semantic relation을 산정하기 위해서 사용한
Distributional hypothesis를 이해하는 데 하루 이상의 시간이 걸렸다. 젠장...
1. 먼저 관계 (Relation)를 산정하고자 하는 단어쌍 (Word pair)를 가져야 한다.
이 단어쌍은 다수 존재하여야 관계를 산정할 수 있는데,
이 측면에서는 옳은 예 (true example)가 다수 존재하여야 할 것으로 보인다.
예) 이명박 - 한국, 오바마 - 미국, ... -> "...의 대통령은 ..." 의 관계
2. 문맥 (context)의 근거가 될 만한 문서들을 수집한다. 웹 문서, 요약본, 소설 등...
3. 수집된 문서에서 단어쌍이 존재하는 문맥 패턴(subsequence)을 수집해낸다.
이때 다양한 방법이 존재할 수 있는데, 논문에서는 다음 두가지를 이용했다.
3-1. Shallow lexical pattern extraction algorithm
a. 단어쌍에 해당된다고 판단되는 접두어, 접미어 등의 생략
예) Inc., Ltd., Corp., Mr., Ms., Dr., 등
b. 단어수 제한 및 허용치 (gap)의 설정, 부정어 확장
원래 단어쌍의 중간에 있는 단어들로 단어쌍의 의미적 연결을 측정하고자 한 것이므로
단어쌍을 포함한 패턴상의 총 단어 수 (5), 추가로 붙는 단어의 허용치 (단어당 2)등 지정
부정어(not)은 관계 표현상 중요하므로 정형화 (didn't -> did not)
c. 다 모아서 이 패턴이 n번 이상 나올 때 패턴으로 채택
3-2. Prefixspan algorithm
후보가 될 패턴의 수가 많으므로 이를 효과적으로 추출해 낼 방법론
(효율 측면이므로 패턴의 질과는 관계가 없다)
4. 이렇게 모아진 패턴의 출현수를 normalize해서 단어쌍의 ID순으로 늘어놓았을 때,
같은 출현 패턴을 가지는 관계가 동일한 관계로 파악될 수 있다.
예)
F |2 3
|1
| 4
| 2
| 1
| 1 2 3
----2--1-----------------4----------
Word-pair IDs
1 : X buys Y 2 : X acquires Y
3 : Y ceo X 4 : Y chief X
-> 1과 2는 비슷한 관계, 3과 4는 비슷한 관계가 된다.
실제로는 이렇게 딱 맞는 경우가 나오기 어렵기 때문에 Clustering을 이용한다.
No comments:
Post a Comment