LSTM（えるえすてぃーえむ）

最終更新：2026/4/25

LSTMは、再帰型ニューラルネットワーク（RNN）の一種であり、長期的な依存関係を学習する能力を持つ。

別名・同義語 Recurrent Neural NetworkRNN

ポイント

LSTMは、勾配消失問題を軽減するために設計され、時系列データの処理や自然言語処理で広く利用されている。

LSTMとは

LSTM（Long Short-Term Memory）は、1997年にSepp HochreiterとJürgen Schmidhuberによって提案された、再帰型ニューラルネットワーク（RNN）のアーキテクチャの一つです。RNNは、系列データを扱うのに適していますが、系列が長くなるにつれて勾配消失問題が発生し、長期的な依存関係を学習することが困難になるという課題がありました。LSTMは、この問題を解決するために、セル状態と呼ばれる仕組みを導入しました。

LSTMの構造

LSTMセルは、以下の主要な要素で構成されています。

セル状態 (Cell State): LSTMの核となる部分であり、長期的な情報を保持します。
入力ゲート (Input Gate): 新しい情報をセル状態に書き込むかどうかを制御します。
忘却ゲート (Forget Gate): セル状態から不要な情報を削除するかどうかを制御します。
出力ゲート (Output Gate): セル状態からどの情報を出力するかを制御します。

これらのゲートは、シグモイド関数とtanh関数を用いて、0から1の間の値を出力し、情報の流れを調整します。

LSTMの応用

LSTMは、以下のような様々な分野で応用されています。

自然言語処理: 機械翻訳、文章生成、感情分析など
音声認識: 音声データの認識と処理
時系列予測: 株価予測、天気予報など
画像キャプション生成: 画像の内容を説明する文章の生成

LSTMの派生モデル

LSTMを改良した様々な派生モデルも存在します。

GRU (Gated Recurrent Unit): LSTMよりもシンプルな構造を持ち、計算コストが低い
Bi-LSTM (Bidirectional LSTM): 系列データを双方向から処理することで、より多くの情報を活用

これらの派生モデルは、LSTMと同様に、長期的な依存関係を学習する能力を持ち、様々なタスクで高い性能を発揮しています。