言語コーパス（げんごこーぱす）

一次コーパス: 実際に使用された言語データ（テキストや音声）をそのまま収録したもの。
二次コーパス: 一次コーパスを元に、特定の目的（例えば、 文法構造 の分析）に合わせて加工・ 編集 されたもの。
汎用コーパス: 特定の分野に偏らず、幅広いジャンルのテキストを収録したもの。
専門コーパス: 特定の分野（例えば、 医学 、法律）のテキストに特化したもの。

最終更新：2026/4/22

言語コーパスは、特定の言語における実際の使用例を集めた大規模なテキストデータベースである。

別名・同義語テキストコーパス言語データベース

ポイント

言語学研究において、言語の構造や使用頻度を分析するための重要な資源となる。近年、自然言語処理の分野でも活用が進んでいる。

概要

言語コーパスとは、ある言語で書かれたテキストや音声データを体系的に収集し、分析可能な形式で保存したものです。その規模は数百万語から数十億語に及ぶこともあり、新聞記事、書籍、ウェブページ、会話記録など、様々な情報源から構成されます。

言語コーパスには、いくつかの種類があります。

言語コーパスは、言語学、自然言語処理、翻訳、教育など、様々な分野で活用されています。