深層学習から大規模言語モデル（LLM）へ

誤差逆伝播法の確立により、ニューラルネットワークは層を重ねる（ディープ化する）ことで爆発的に表現力を高めました。この「深層学習」がもたらしたブレイクスルーと、今日の生成AI（ChatGPTなど）の基盤である「Transformer」の計算アーキテクチャについて整理し、シミュレータを用いて学習プロセスを視覚的に体験します。

1. 深層学習（ディープラーニング）の革新と課題

従来の機械学習では、予測に有効なデータの特徴（特徴量）を人間が考えてモデルに与える必要がありました（例：画像から特定の輪郭線を抽出して入力するなど）。しかし、層を10層、50層と深く積み重ねた深層学習（Deep Learning）では、浅い層が「単純な点や線」を検出し、中間の層が「形状のパターン」を捉え、深い層が「物体概念」を認識するというように、ネットワーク自体がデータから自動的に多階層の特徴量を自動獲得（表現学習）します。

勾配消失問題（Vanishing Gradient Problem）

層が深くなるにつれ、逆伝播で出力側から入力側へと微分係数を掛け合わせる（チェインルール）過程において、微分値が各層の活性化関数を通るたびに縮小され、入力層に近い初期の層に届く頃には値がほぼ $0$ になってしまう問題が生じました。これが勾配消失問題です。現代の深層学習では、微分値が縮小しにくい活性化関数（ReLUなど）の採用や、入力を数層先へバイパスして直接足し合わせる接続構造（ResNetの残差接続）などを導入することで、この問題を克服しています。

2. 大規模言語モデルの核心：Transformerアーキテクチャ

2017年にGoogleの研究者らによって発表されたTransformer（トランスフォーマー）は、現在のChatGPTなどの大規模言語モデル（LLM）のほぼすべてに採用されている画期的な計算モデルです。

それまでの時系列データ（文章など）の処理モデル（RNN）は、文章を左から右へ1語ずつ順番に処理しなければならなかったため、並列計算が難しく、長い文章の文脈を記憶することが困難でした。 Transformerは、文章全体のすべての単語の相互関係を一度に並列で計算する自己注意（Self-Attention）機構を導入し、この限界を突破しました。

Self-Attention（自己注意機構）：
文章中のある単語を処理する際、他のすべての単語に対して「どれだけ関連が深いか（注意を向けるべきか）」の重みを動的に計算します。例えば「私は犬と猫を飼っていますが、彼は人懐っこい」という文における「彼」が、直前の単語の関係性（アテンションスコア）の計算を通じて、文脈上「犬」を指している可能性が高いことを数学的に同定できます。
圧倒的な並列処理能力：
時系列を順に追うループ処理を完全に排除し、行列計算として文全体の単語の関連性を一括処理するため、GPUを用いた大規模な並列計算に最適化されています。これが、Web上の膨大なテキストデータを巨大なモデルで事前学習（Pre-training）することを可能にしました。

3. ニューラルネットワークの計算シミュレータ

以下のシミュレータは、2つの入力ノード（$x_1, x_2$）、隠れ層のニューロン（$h_1, h_2$）、および出力ノード（$y$）からなるシンプルな多層ニューラルネットワークです。入力値や目標値（教師データ）を調整し、「学習を1ステップ進める」をクリックして、順伝播で値が流れ、逆伝播（赤パルス）で重みが自動更新されて「二乗誤差（Loss）」が減少していく様子を観察しましょう。

SIMULATOR

ニューラルネットワーク計算シミュレータ

入力値や接続の「重み」を調整した際の順伝播（フォワード）プロセスと、目標値との誤差から重みを自動学習する逆伝播（バックプロパゲーション）プロセスの流れを視覚的に理解します。

① 入力の調整（順伝播）

入力 1 (x₁): 0.5

入力 2 (x₂): 0.7

② 誤差逆伝播（学習）

教師データ (目標値): 0.10

現在の出力 (y): 0.00

目標値 (Target): 0.10

二乗誤差 (Loss): 0.0000

現実世界と繋ぐ：ニューラルネットワークと並列計算：なぜAI処理においてGPUが重視されるのか

近年、AI開発企業が大量のGPU（Graphics Processing Unit / 画像処理半導体）を確保しようと競い合っています。なぜ、本来は3Dゲームなどの映像描写用であるGPUが、AIの計算においてこれほど決定的な役割を果たすのでしょうか。

CPUとGPUの設計思想の違い:
- CPU（中央処理装置）は、OSの実行やプログラムの制御など、複雑で順番に行われる処理を高速にこなすために設計されています。強力な演算コアを少数（数個〜数十個）持ち、命令の逐次実行に特化しています。
- GPU（画像処理装置）は、画面上の何百万ピクセルというドットの3D座標を同時に計算するために設計されています。個々のコアは単純ですが、数千から数万という圧倒的な数の演算コアを搭載しており、同じ処理を大量のデータに対して同時に実行する「超並列計算（SIMD）」を得意とします。
AI計算との親和性: 本節で学んだ通り、ニューラルネットワークの計算の実体は、入力値と重みパラメータを束ねた巨大な「行列の積（内積）」の積み重ねです。1回の行列積は、数万回・数億回の独立した掛け算と足し算に分解できます。 CPUで順番に計算すると時間がかかりますが、GPUであれば数千のコアにこれらの演算を割り振って同時に計算できるため、処理速度が数百倍から数千倍に跳ね上がります。

AIの進化は、数学的なニューロンのモデルが、GPUという「超並列計算に適したハードウェア」と出会ったことによって加速しました。ソフトウェアのアルゴリズムと物理世界のハードウェアの調和が、現代のAI革命の駆動源となっているのです。

← 11-3. 誤差逆伝播法 (Backpropagation)

読了：ホームへ戻る →