본문 바로가기

동기부여

검색엔진의 기반을 쌓은 여성 컴퓨터 과학자 ‘카렌 스파크 존스(Karen Spärck Jones)’

체킷 블로그, 검색엔진에서 찾아오셨지요? 키워드 하나만 검색하면 수많은 문서와 이미지 그리고 동영상까지 나오는 편리한 공간, 이 검색엔진이 없었다면 체킷도 여러분에게 질 마이크로바이옴과 유익균들에 대한 정보들을 발신하기 힘들었을 텐데요. 우리 삶에 엄청난 편리함을 가져다준 이 검색엔진의 노출에 대해 누가 처음 고민을 시작 했을까요. 모두가 컴퓨터언어를 통한 소통을 고민할 때, 컴퓨터가 인간의 언어를 이해할 수 있는 방법에 대해서 고민한 사람 카렌 스파크 존스를 소개합니다.

 

 

카렌 스파크 존스(Karen Spärck Jones/1935 - 2007)

 

카렌 스파크 존스(Karen Spärck Jones/1935 - 2007)


카렌은 영국 요크셔에서 영국인 아버지 알프레도 오웬(Alfred Owen Jones)과 노르웨이 출신의 어머니 아이다 스팍(Ida Spärck)사이에서 태어났습니다. 그녀의 어린 시절은 세계 2차 세계대전으로 인해 긴장이 고조되던 시기로였지만 이러한 상황에서도 카렌은 열심히 공부하여 명문 대학인 캠브리지 거튼 칼리지(Girton College, University of Cambridge)에서 역사와 철학을 공부했고 이후 선생님으로서의 경력도 쌓았습니다.

이후 CLRU(Cambridge Language Research Unit)라는 조직에 합류하여, 컴퓨터 과학에 입문하게 되었습니다. 이후 끊임없는 연구를 통해 수많은 논문을 발표했는데요.

 

 


1964년 카렌 스파크 존스는 "동의어와 의미론적 분류, Synonymy and Semantic Classification"라는 논문을 발표했는데, 이 논문은 현재까지 자연어 처리 분야의 기초 논문으로 평가됩니다. 자연어란 프로그래밍 언어들, C, C++, Ada등과 같은 인공 언어와는 다르게, 정해진 어법을 따르지 않고 일상적으로 사용되는 언어의 구조적인 체계를 말합니다.

✅자연어? 사람이 일상적으로 쓰는 언어로, 인공언어와 대치되는 개념입니다. 일반적으로 인간이 글을 쓸 때 사용하는 문어체와 대화할 때 사용하는 구어체를 말한다고 생각하면 이해가 쉬운데요. 인간이 쓰는 자연어를  이해하고자 할 때에는 불확실성을 담은 말, 숨겨진 정보를 가지고 하는 의미 분석, 동의어의 처리등이 필요합니다.

그녀는 통계와 언어학을 결합하여 컴퓨터 과학에 접목하는데 큰 공헌을 했다고 평가받고 있습니다.

A statistical interpretation of term specificity and its application in retrieval, Karen Spärck Jones

 

이에 그치지 않고 1972년 카렌은 정보 검색 원칙에 대한 논문을 발표 합니다. 이 논문에서 말하고자 하는 중요한 개념은 역문서 빈도 (IDF-Inverse Document Frequency) 가중치입니다.

- 단어빈도: 문서 내 특정 검색어가 얼마나 자주 등작하는 지 나타내는 값
- 역문서빈도: 특정 검색어가 한 문서에 많이 나오고 다른문서에는 적게 나오는 값
* 검색어의 단어빈도와 역문서빈도를 곱한 값이 높을 수 록 그 문서 안에서 검색어의 중요도가 높아진다

 

이 역문서 빈도 가중치 개념은 검색할 때 나오는 문서의 노출 순서를 정하는데 활용되며, 빙, 구글, 야후와 같은 메이저 검색엔진에서 활용되고 있습니다.

그녀의 업적을 기리기 위해 영국 컴퓨터 협회에서는 2008년에 카렌 스파크 존스상을 제정하고 자연어처리, 정보 검색 분야에서 뛰어난 연구를 수행하는 사람에게 수상하고 있습니다.