C言語コンパイラはなぜCで書けるのか？初心者でも理解できるコンパイラの仕組み

プログラミング言語の学習を進めると、C言語のコンパイラがCで書かれているという話に出会うことがあります。一見すると自己参照のようで理解が難しいですが、実際には段階的な開発とマシンの仕組みに基づいて動作しています。この記事では、アセンブラから始まるコンパイラの進化と、機械がプログラムを理解する仕組みをわかりやすく解説します。

コンパイラとアセンブラの基本
初期のCコンパイラの作り方
なぜCコンパイラがCで書けるのか
CPUが機械語を理解する仕組み
まとめ

コンパイラとアセンブラの基本

コンパイラは高級言語で書かれたプログラムを、CPUが理解できる機械語に変換するソフトウェアです。一方、アセンブラはCPUの命令セットと1対1で対応する低級言語を機械語に変換します。

例えば、x86アセンブラで書かれた命令は、最終的にバイナリコードとしてCPUに読み込まれ、命令通りに処理が行われます。この一連の変換が、コンパイラやアセンブラが動作する基本原理です。

初期のCコンパイラの作り方

Cコンパイラは最初からCで書かれていたわけではありません。最初のコンパイラはアセンブラで書かれ、非常に簡単な機能しか持たないものでした。これを用いて、より高度なCコンパイラを少しずつ作り上げていったのです。

この段階的なアプローチを「ブートストラッピング」と呼びます。しょぼいコンパイラで基本的なCコードをコンパイルし、その出力を使って次のバージョンのコンパイラを構築する、という繰り返しで進化させます。

なぜCコンパイラがCで書けるのか

現在のCコンパイラがCで書かれている理由は、過去のブートストラッピングの歴史によるものです。初期のコンパイラがあれば、その上でC言語を使ってより高機能なコンパイラを実装できるため、Cで書かれていても問題なく機械が理解できます。

具体例として、GCC（GNU Compiler Collection）はCで書かれていますが、初期のバージョンは既存のコンパイラでコンパイルされて動作しています。この仕組みを理解すると、自己言及的に見える現状も納得できます。

CPUが機械語を理解する仕組み

CPUはバイナリの命令列を解釈して動作します。アセンブラはこれを人間が読める形に置き換えたもので、命令とバイナリが一対一で対応しています。

例えば、ADD命令は特定のビット列に対応し、CPUはこのビット列を読み込むと内部の演算回路で加算処理を行います。このように、アセンブラと機械語の対応関係を理解すれば、プログラムがどのようにCPUで実行されるかがイメージできます。

まとめ

CコンパイラがCで書かれている理由は、初期のアセンブラベースのコンパイラから段階的に高機能化してきた歴史にあります。アセンブラがCPU命令と対応しており、CPUがバイナリを読み込んで処理する仕組みを理解することで、コンパイラの自己参照的な構造も理解可能です。この仕組みを知ることで、コンパイラやプログラミング言語の動作原理をより深く理解できます。