<응용 언어학> 코퍼스 언어학
코퍼스(corpus)는 한국말로 말뭉치라고 불리는데, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 마아 놓은 언어 자료라고 표준 대 국어사전에서 정의하고 있습니다. 코퍼스는 균형성과 대표성을 갖춰야 하는데, 예를 들어 소설에서 80%의 내용을 가져오고, 시에서 20%의 내용을 가져왔다면 이는 균형성 면에서 문제가 있습니다. 대표성에는 학습자 언어, 다양한 민족, 성별, 언어 능력 수준 등의 경우를 고려하여야 합니다.
코퍼스의 분류를 보면, 먼저 원시 코퍼스와 주석 코퍼스가 있습니다. 원시 코퍼스는 아무것도 손을 대지 않은 그 자체의 내용을 가지고 있는 코퍼스입니다. 이제 여기에 tagging(문법, 품사 등 일정한 기준에 의해 주석을 다는 작업)을 한 코퍼스를 주석 코퍼스라고 부릅니다. 예를 들면, '갔다'를 이렇게 두지 않고, 가(어간) ㅆ(시제) 다(어미), 이런 식으로 tagging 작업을 하는 것이지요. 일반적으로 tagging 작업은 컴퓨터로 1차적으로 하고, 그래도 발생하는 오류 수정을 위해 사람이 2차적으로 작업을 한다고 합니다.
다음은 문어 코퍼스와 구어 코퍼스가 있습니다. 문어는 말 그대로 글로 된 코퍼스 자료를 모아둔 것이고, 구어는 말로 된 코퍼스 자료를 모아둔 것입니다. 그런데 문어로 쓰인 대본을 읽는 뉴스나, 안내문은 어떨까요? 이런 경우에는 완전히 한쪽으로 정의하기는 어려울 것 같습니다.
또 단일 언어, 이중언어, 다중언어, 그리고 병렬 코퍼스가 있습니다. 단일 언어는 말 그대로 한 가지 언어만을 대상으로 한 코퍼스입니다. 이중언어는 다른 두 언어이지만 같은 뜻을 가진 말을 모아둔 코퍼스로 통번역에 주로 사용됩니다. 다중언어는 이중언어에서 나아가 서로 다른 셋 이상의 언어를 이중 언어 코퍼스처럼 모아둔 것이고, 병렬 코퍼스는 같은 내용이지만 다른 두 개 이상의 언어를 병렬적으로 배치하는 코퍼스입니다. 이외에도 샘플·모니터 코퍼스와 범용·특수 목적 코퍼스가 있습니다.
코퍼스 연구는 1960년대부터 시작됐는데, 그 당시에는 사람이 직접 모든 언어 자료를 전산화해서 입력했다고 합니다. 그러다 1980년대에는 스캐너를 사용해서 코퍼스의 양의 늘릴 수 있었고, 1990년대에는 컴퓨터 조판을 통해 코퍼스의 규모를 대폭 늘릴 수 있게 되었습니다. 그러다 2000년대에는 인터넷의 발달로 많은 코퍼스 자료를 인터넷에서 가져올 수 있게 되어, 용이하게 코퍼스 자료를 모을 수 있게 되었습니다.
그렇다면 코퍼스는 왜 연구하는 것일까요? 이는 언어 연구에도 도움이 되고, 사전 편찬에도 도움이 되기 때문입니다. 먼저 코퍼스를 통해 자주 사용되는 단어나 표현을 찾을 수 있어 이를 외국어 교육이나 사전 편찬에 적용할 수 있습니다. 또한 언어가 시대에 따라 어떻게 변했는가에 대한 정보도 코퍼스 연구를 통해 알 수 있습니다.
그 외에도 언어 교육에도 사용할 수 있습니다. 먼저 오류가 전혀 없는 표준 코퍼스가 있고, 교사가 참고하기 위한 참조 코퍼스, 학습자들과 관련된 학습자 코퍼스가 있습니다. 학습자 코퍼스의 경우에는 학습자를 위한 코퍼스와 학습자들이 발화한 것을 모은 코퍼스가 있습니다.
학습자 코퍼스는 다음과 같은 단계로 구축됩니다. 먼저 연구를 위한 코퍼스 설계 단계입니다. 앞으로의 연구의 계획을 하는 단계이므로 연구의 목적, 연구 계획 등을 설정하는 단계입니다. 여기에는 학습자의 능력, 수준, 고향, 성별 등의 정보를 정하는 과정도 포함됩니다.
그 후 자료 수집 단계입니다. 앞의 단계에서 설정한 연구 목적에 맞는 자료를 수집해야 하고, 구어 자료를 수집하는 경우에는 구어 자료뿐만 아니라 그것이 일어나는 상황까지 상세히 기록해야 연구에 올바르게 쓰일 수 있습니다.
자료를 수집했다면, 수집한 자료를 전산 입력하는 과정을 거쳐야 합니다. 위에서 봤듯이 아무런 손을 대지 않은 코퍼스를 원시 코퍼스라고 부르는데, 여기가 그 경우에 해당합니다.
전산 입력을 끝냈다면 이제 tagging을 하는 단계입니다. 주의할 점은 tagging을 했다고 해도, 원래의 자료는 보관하고 있어야 한다는 것입니다. 마지막으로는 구축된 학습자 코퍼스를 활용하는 것으로 학습자 코퍼스 연구가 끝이 납니다.