SPONSORED

言語コーパス(げんごこーぱす)

最終更新:2026/4/22

言語コーパスは、特定の言語における実際の使用例を集めた大規模なテキストデータベースである。

別名・同義語 テキストコーパス言語データベース

ポイント

言語学研究において、言語の構造や使用頻度を分析するための重要な資源となる。近年、自然言語処理の分野でも活用が進んでいる。

概要

言語コーパスとは、ある言語で書かれたテキストや音声データを体系的に収集し、分析可能な形式で保存したものです。その規模は数百万語から数十億語に及ぶこともあり、新聞記事、書籍、ウェブページ、会話記録など、様々な情報源から構成されます。

種類

言語コーパスには、いくつかの種類があります。

  • 一次コーパス: 実際に使用された言語データ(テキストや音声)をそのまま収録したもの。
  • 二次コーパス: 一次コーパスを元に、特定の目的(例えば、文法構造の分析)に合わせて加工・編集されたもの。
  • 汎用コーパス: 特定の分野に偏らず、幅広いジャンルのテキストを収録したもの。
  • 専門コーパス: 特定の分野(例えば、医学、法律)のテキストに特化したもの。

活用

言語コーパスは、言語学自然言語処理翻訳、教育など、様々な分野で活用されています。

代表的なコーパス

  • British National Corpus (BNC): イギリス英語のコーパス。
  • Corpus of Contemporary American English (COCA): アメリカ英語のコーパス。
  • 日本現代語コーパス (JCorpus): 日本語のコーパス。

SPONSORED