AIが歌う動画の仕組み：声の生成と学習の違いを解説

近年、AIが歌っている動画が増えていますが、これらの多くは実際に人が歌った声を元にAIが変換している場合と、AI自体が歌を学習して生成している場合があります。本記事では、その仕組みと違いをわかりやすく解説します。

人の声を変換するAI歌声合成

多くの動画では、まず人が歌った音声を録音し、それをAIが特定の声質やスタイルに変換しています。この方法は『音声変換（Voice Conversion）』と呼ばれます。

具体例として、Aさんが歌った声を入力すると、AIがBさんの声に似せて出力することができます。ここではAIは歌を覚えているわけではなく、元の音声を加工しているだけです。

一方、AIが独自に歌を生成する場合は、『歌声合成（Singing Voice Synthesis）』技術を用います。ここでは音符や歌詞の入力から、AIが学習した声の特徴に基づき歌を生成します。

具体例として、メロディーと歌詞を入力すると、AIは過去の学習データをもとに声の高さや抑揚を生成して歌います。この場合は、人の声を録音する必要はありません。

AIが歌を覚えて生成する場合、大量の音声データと歌のパターンを学習する必要があります。これにより、自然な音程や表現力のある歌声を作ることが可能です。

例として、OpenAIのJukeboxなどは膨大な音楽データを学習し、歌詞やメロディーに沿った歌声を生成することができます。

AIが歌う動画には、大きく分けて二つのタイプがあります。1つは、人の声を入力としてAIが声を変換する方法、もう1つは、AIが歌を学習して自ら歌声を生成する方法です。視聴者は見た目は同じでも、背後の技術には大きな違いがあります。