AIがAIに指示 Google Colabで音楽を作成してみた

text to musicでチャットGPTがどんな音楽を生み出す指示をできるか提案して音楽を作ってみました。最近、text to imageから派生して様々なAIが登場しています。text to musicは3つのタグ情報から音楽を生成するものです。このタグ情報をベースに音楽を生成するため、まずはベースとなる文章をチャットGPTに作成してもらい、その文章をベースにタグ情報を決定し、音楽を生成しました。チャットGPTはopen aiが提供しており、マイクロソフトのbingでググル代わりに使われる可能性もある次世代のAIです。AI時代が楽しみで、先駆けて触ってみました。

AIにカフェっぽい曲を聞いてみた

「AIにカフェっぽい曲」を訪ねて、具体的な英文を教えてもらいました。Slackでopen AIのAPIを使い質問しました。チャットGPTに日本語対応、高速化して対応をしてもらえます。下記の記事でSlackでチャットGPTを使う方法を紹介していますのでよろしければお読みください。

SlackでチャットGPTに確認しました。

和訳すると、以下の通りです。
“カフェのようなトラックは、メローで軽く、優しいと表現することができます。通常、シンプルで繰り返しのあるメロディーを持つ、なだめるようなリラックスした雰囲気の曲です。カフェのような雰囲気を出すには、アコースティックギター、軽いシンセパッド、ビブラフォン、軽いドラムなどの楽器が考えられます。トラックは、あまり忙しく慌ただしくなく、ゆったりとしたチルな感じで、少しグルーブ感がありつつも、それほどでもないものになるでしょう。カフェの雰囲気をほのめかすような、微妙なジャズの要素を含んだビンテージな雰囲気を醸し出すことができるだろう。"

ゆったりとした軽い音楽を具体的に教えてくれました。今回は、この文字をそのままインプットの文字列として、音楽生成します。

text to music 「mubert」

text to imageが流行していますが、text to musicが作り出されています。テキストからミュージックを作り出すことができます。mubertでは3つのタグ情報を指定すると音楽を生成することができます。

よろしければお試しください。

Mubert APIを使って、get_track_by_tagsにより文章から3つのタグ情報を決定します。Google Colabでコードが公開されていました。promptにチャットGPTが出力してくれた文字をコピペして実行してみました。

音楽を生成

PromptにチャットGPTが出力した文字を入力し実行しました。

カフェっぽい曲のTagsは以下の3つでした。

  • jazz / funk
  • electro funk
  • sleepy ambient

この3つのタグから音楽を生成しました。durationは60秒です。

終わりに

チャットGPTでカフェっぽい曲を具体的にし、3のタグ情報に変換して存在しない音楽を生成してみました。音楽を実際に聴く限りは、text to musicはまだ発展途上だと思いますがすごい可能性だと思います。MIDIや歌詞連携を自動化し、NEUTORINOなどと連携して、スムーズにボーカロイドが歌うなど、自動化を発展させると統合的な音楽自動生成環境を作れると思います。これからの音楽自動生成の世界も楽しみですね。

よろしければTwitterフォローしてください。

AI