コーパス言語学(こーぱすげんごがく)
最終更新:2026/4/19
コーパス言語学は、大規模な言語データ集(コーパス)を用いて言語を経験的に研究する言語学の分野である。
別名・同義語 データ駆動型言語学経験言語学
ポイント
コーパス言語学は、文法や語彙の記述、言語変化の追跡、翻訳支援など、幅広い応用を持つ。従来の言語学研究における直感や推測に頼る部分を、データに基づいた分析に置き換えることを目指す。
コーパス言語学とは
コーパス言語学は、自然言語処理(NLP)や計算言語学とも密接に関連する学問分野であり、言語学における経験主義的なアプローチを代表する。従来の言語学研究では、言語学者が自身の言語直感に基づいて文法規則を導き出すことが一般的であった。しかし、コーパス言語学では、実際の言語使用の記録であるコーパスを分析することで、言語の規則性やパターンを客観的に明らかにしようとする。
コーパスの役割
コーパスとは、ある特定の言語について、様々な種類のテキスト(新聞記事、小説、会話記録など)を大量に集めたデータベースのことである。コーパスの規模は、数十万語から数十億語に及ぶこともある。コーパス言語学では、このコーパスを用いて、特定の単語や文法の出現頻度、共起関係、文脈などを分析する。
コーパス言語学の応用
コーパス言語学は、様々な分野に応用されている。
- 文法・語彙の記述: コーパスを用いて、文法規則や語彙の用法を客観的に記述することができる。
- 言語変化の追跡: コーパスを時系列的に分析することで、言語の変化を追跡することができる。
- 翻訳支援: コーパスを用いて、翻訳候補を提示したり、翻訳の品質を評価したりすることができる。
- 辞書作成: コーパスを用いて、単語の用法や意味をより正確に記述することができる。
- 第二言語習得: コーパスを用いて、学習者が誤りやすい文法や語彙を特定し、効果的な学習方法を開発することができる。
コーパスの種類
コーパスには、様々な種類がある。
- 一般コーパス: 特定の分野に偏らず、様々な種類のテキストを含むコーパス。
- 専門コーパス: 特定の分野(医学、法律、経済など)のテキストに特化したコーパス。
- 会話コーパス: 会話の記録を集めたコーパス。
- 学習者コーパス: 第二言語学習者の作成したテキストを集めたコーパス。
近年の動向
近年では、大規模なウェブコーパス(Webコーパス)の利用が拡大している。また、ニューラルネットワークなどの機械学習技術と組み合わせることで、より高度な言語分析が可能になっている。