スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

NHKサイエンスZERO「ヒット連発!!あのボーカルソフトの秘密」視聴記

NHKサイエンスZERO
2011年2月5日放送 (No.334)
ヒット連発!!あのボーカルソフトの秘密
http://www.nhk.or.jp/zero/contents/dsp334.html

キャスター
・安めぐみ
・山田賢治

ゲスト
・後藤 真孝
産業技術総合研究所

・いとう せいこう
クリエイター

今、全国で大ブームとなっている歌声合成ソフト。
その裏にあるのは人間の脳の特徴をとらえた最新の歌声合成技術だ。
最先端の技術から、人間にとっての歌の深淵に迫る。

 2011年2月5日(土) [教育] 午後10:00~午後10:35
 2011年2月11日(金) [教育] 午後6:55~午後7:30
 2011年2月12日(土) [BS2] 午前3:25~午前4:00

-------------------------------------------------------
初公開!
音合成の秘密

番組では「初」と「音」が緑の色の字で、縦読み出来るようになってた。

→「昨日のNHKサイエンスZERO歌声合成特集番組ディレクターの大海寛嗣さんは、歌声合成技術、VOCALOIDシーンを深く理解した本当に素晴らしい方で、大海さんの番組に出演できて光栄でした。「初音」の縦読みは「もちろん狙ってた」そうです!(2/11再放送)」
http://twitter.com/MasatakaGoto/status/34152906517250048

いとうせいこうが熱く語ってる…

ボーカロイド紹介のパッケージ写真、初音ミクの隣が何故かボカロ先生…

ゲストの産業技術総合研究所、後藤 真孝氏はぼかりすの開発者だそうだ。

合成例で特に紹介は無かったが、VY1の声が出てた。

-------------------------------------------------------
技術の話で興味深かった所。

「あさ」と歌わせる時。

「あ」→「さ」に変化する所が非常に重要で、ここの部分が自然でないと
いわゆる「ロボット」っぽい合成結果に終わってしまうとの事

「あ」→「さ」に変化する部分を滑らかにするのが重要?
いわゆるUTAUで言う「連続音」と同じ話?

ここが
「人間が歌声や話し声を聞くとき、実は音の変わり目を脳が認識しているのだという。その特徴を活かすため、歌声合成ソフトでは事前に録音した人間の声を、音の変わり目を含むおよそ500個の音に分類し、これを元にどんな歌でも人間らしく歌えるように設計されている。」
の「音の変わり目」の部分かな?

CVC合成?
→「C」は子音、「V」は母音。
VCV,CV,CVなどの音韻連鎖を音声合成の基本単位とする音声合成での技術の話。

「あさ」を歌う時5つの素片で表現してる
#a as sa â a#

#は無音を表す
âは「アー」と延ばす音

それぞれの素片をクロスフェード(前の素片をフェードアウトし、同時に次の素片をフェードインする)で繋いでる?

そのまま素片を繋ぐとブツ切れ感があった
→周波数領域(周波数ドメイン)?で滑らかに接続するようにしたのがVocaloidのキモ?

「あさ」が上手く滑らかに接続できた時の声は、今までに聞いた事の無いボーカロイドの声だったように感じた。
研究用のもの?

■ぼかりすの話

「そして、更に人間らしい歌声を追求した新型ソフトも登場。」
→ぼかりすの事だった。

・プレパレーション
・オーバーシュート
・ビブラート

「プレパレーション」は、ある音程に到達する時、直前に?いったん準備として歌声の音高が低くなる現象
「オーバーシュート」は「プレパレーション」の後?今度は逆に歌声の音高が過剰に高くなってから目的の音程に到達する現象?
「ビブラート」はある音程で歌うときの声の揺らぎ、音高の揺らぎ。歌声の場合は音量の揺らぎも含める?

VocalListener(通称ぼかりす)の研究では初音ミクにベタ打ち?で歌わせたものと人間が歌ったものを比較?
→比較した結果、上記の従来の歌声合成ではプレパレーション・オーバーシュート・ビブラートが上手く出来てない事が分かった?

初音ミクにはビブラートの機能があるから、(既に存在するから)ここで言うビブラートはやっぱり音量の揺らぎも含めてるのかな?

演歌風の曲「大漁船」の例で人間の歌声の音高と音量を高い精度で初音ミク?で真似る(トレース)
→上記プレパレーション・オーバーシュート・ビブラートが実現出来たところ、かなり「リアル」な歌声になった

未夢(HRP-4C)が登場。未夢に人間が歌うときの表情を真似させることによってよりリアルになるかどうか、
音声だけに留まらない研究を展開。

--------------------------------------------------------


「誰の声ででも自由自在に歌わせられる歌声合成ソフトの研究も紹介。番組では安めぐみさんの声で歌う合成ソフトの制作に挑戦!」
→名古屋工業大学での研究。
MMD Agentのメイちゃんの紹介
http://sourceforge.jp/projects/sfnet_mmd-agent/

安めぐみの声で安めぐみが歌ったことの無い歌を歌わせるのは、STRAIGHT系の話のようだ?
→音声分析変換合成法STRAIGHT

Sinsyの話は出なかった。

Sinsy - HMM-based Singing Voice Synthesis System
http://www.sinsy.jp/

音声分析変換合成法STRAIGHT
http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_j.html

STRAIGHT Wiki
http://www.crestmuse.jp/cmstraight/

STRAIGHT Library
http://www.aspl.is.ritsumei.ac.jp/morise/straightlib/

「その夢の合成ソフトを作るために安さんが歌った歌の数はわずか6曲。」
→大きな古時計、森のくまさんなど、童謡が6曲だった。

安めぐみが歌ってない(収録)していない童謡(七つの子)のデモ

ポップス(大塚愛「プラネタリウム」)のデモ。
安めぐみの声に聞こえる。安めぐみが歌っているように聞こえる。

「大きな古時計、森のくまさんなど、童謡が6曲」
→この6曲の歌詞の中には「キャ・キュ・キョ」の音が入ってない

→でも「恐竜」と歌わせる事が出来る(平原綾香「Voyagers」)

--------------------------------------------------
追記。

やっぱりSinsyの話かも。
「Sinsy」の語は一言も出なかったけど。

名古屋工業大学
NHK「サイエンスZERO」で徳田教授らが開発した歌声合成システムが紹介されます
2011年01月27日掲載
http://www.nitech.ac.jp/news/2011/703.html

その技術的な解説
DTMマガジン 音楽情報処理最前線! 声質・歌い方を自動で学習・再現できる新しい歌声合成システム~Sinsy~
http://www.sigmus.jp/PAPERS/DTMM201005tokuda.pdf

「HMM(隠れマルコフモデル hidden Markov modelの略称)」は、時系列を統計的にモデル化することのできる確率モデルの一種

HMMを歌声合成に用いたのがSinsy?

HMMで音声の特徴パラメータ系列をモデル化?

→与えられた音声データに基づいてモデルを学習することにより、元歌手の声の特徴を再現する合成音声を得ることができる?
→比較的少ない量の学習データで高品質な合成音声を得ることができる?→童謡6曲でOK?

HMMのモデルパラメータを変更することにより、安めぐみ風の声の合成音声を得た?



-----------------------------------------------------


いとうせいこうが言うには
古典芸能の名人達は非常に息の吸う・吐くに気を遣ってる
→今後の歌声合成技術で考慮しなければいけない重要事項かも?との事
スポンサーサイト

テーマ : ボーカロイド
ジャンル : 音楽

コメントの投稿

非公開コメント

検索フォーム Search
プロフィール

白いりんご

Author:白いりんご
民族音楽に関するメモ。情報の信頼性は低いので注意。
検索エンジン経由で来られた方へ。
目当ての記事が見つからない場合、記事を移動している可能性があります。右上のブログ内検索を御利用下さい。

最新コメント
最新トラックバック
カテゴリ Category
RSSリンクの表示
リンク
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。