言語コーパス(げんごこーぱす)
最終更新:2026/4/22
言語コーパスは、特定の言語における実際の使用例を集めた大規模なテキストデータベースである。
別名・同義語 テキストコーパス言語データベース
ポイント
言語学研究において、言語の構造や使用頻度を分析するための重要な資源となる。近年、自然言語処理の分野でも活用が進んでいる。
概要
言語コーパスとは、ある言語で書かれたテキストや音声データを体系的に収集し、分析可能な形式で保存したものです。その規模は数百万語から数十億語に及ぶこともあり、新聞記事、書籍、ウェブページ、会話記録など、様々な情報源から構成されます。
種類
言語コーパスには、いくつかの種類があります。
- 一次コーパス: 実際に使用された言語データ(テキストや音声)をそのまま収録したもの。
- 二次コーパス: 一次コーパスを元に、特定の目的(例えば、文法構造の分析)に合わせて加工・編集されたもの。
- 汎用コーパス: 特定の分野に偏らず、幅広いジャンルのテキストを収録したもの。
- 専門コーパス: 特定の分野(例えば、医学、法律)のテキストに特化したもの。
活用
言語コーパスは、言語学、自然言語処理、翻訳、教育など、様々な分野で活用されています。
- 言語学: 言語の構造、語彙、文法、意味などを分析し、言語の進化や変化を研究する。
- 自然言語処理: 機械翻訳、音声認識、テキストマイニングなどの技術開発に利用する。
- 翻訳: 翻訳の精度向上や翻訳支援ツールの開発に役立てる。
- 教育: 言語学習教材の作成や、学習者の言語使用状況の分析に活用する。