今日からしばらく音声合成技術についての記事をシリーズ形式に書いていこうと思います。
上の動画は僕の知人である各務留美さんの『僕は食虫植物』という作品の朗読音源である。
この映像が出来るまで、ちょっとした経緯があるので順を追って説明していこうと思う。先日ガジェット通信を閲覧していたら、とある記事に目がとまった。
そのとき僕は「へえ、Youtubeから収益が出る仕組みがあるんだ」と思わず声を出して呟いていた。実は、そういう収益を上げる仕組みがYoutubeにあるとは知らなくて、興味津々で読み込んでしまったわけです。へえ、ステディイカムかあ、そういや映画学校の学生の頃、スタンリー・キューブリック監督の「シャイニング」を観て、庭を動き回るカメラのその映像美に感動して、自作してみようとしたことはあったなあ。なんてこと思い出して、値段を見てみると、どうも買えない金額でもないし(昔は何百万もしたような気がする)やってみようかな、なんて思ったのだけど、出版屋がそんなのやってどうするんだ!といちおう思い直したわけだけど、しばらくこのことが気になって頭が離れなかった。ちなみにカメラを揺らさなくするには、今は手振れ補正みたいなものが普通についているんだろうけど、僕が学生時代ビデオカメラで自主製作の映画を撮っていたときはそんな機能はなくて、写生で使う画板に、カメラをセットして端で持って、同じような効果を出していたような気がする。ちなみにウエイトレスがトレイで水を運んでもこぼれないのと同じ原理。もともと人間にはそういう機能が備わっているのだ。
でその記事を見て、飯を食ってしばらくしてふと気づいた。もしかしたら朗読を収録すれば出版に結びつくんじゃないかなって。これならYoutubeで公開できる。すぐ自分にもできるかどうか可能か調べてみた。すぐに問題に行き当たる。声優さんに頼むと結構高いのだ。ネットで調べてみると、スタジオ代や声優に払う料金の他に、監督のディレクション代なんかあったりして、しかも朗読ってけっこう面倒じゃないですか? 声優さんは一人だけかもしれないけど、1時間かそこらで収録が終わるとは思えない。となるとやっぱり何十万の単位になる。原稿用紙五十枚くらいの作品だと収録にいくらぐらいかかるんだろう? そんなことを考えてちょっと自分には現実的ではないなと諦めかけた。まあアイデアが思い浮かんでも、やっぱり無理だったというのはよくあることなので、気にすることはない。僕は背もたれに体重をかけて、ちょっとため息をつこうとして、その時、ふと頭をかすめるものがあった。あ、そういや、自動読み上げソフトというものがあったな。ちょっとした思いつきだった。またキーボードをはじいて検索してみる。ただそのときは正直あまり期待はしていなかった。自分が知っていたのはロボットみたいな音質で、とてもナレーションに使えるレベルではないと思っていたからだ。でもとりあえず調べてみようってことでネットで検索してみてYoutubeで観てみると、驚いた。衝撃と言ってもいいかもしれない。本当に人が喋っているように見えた。
ちなみにこれVOICEROIDって言うらしい。まあこんな風に実際に喋ってくれるんなら文句はないだろうなと思った。声優要らずで朗読音源を作れるわけだから。で早速この「VOICEROID+民安ともえ」というものを購入してみた。いちおう「一太郎」という文書作成ソフトにも「詠太」という同じような自動読み上げソフトがついているんだけど(こちらは男性の声で結構クオリティが高い)、どうも録音保存機能がないみたいなので候補から外すことにした。
再生ボタンを押したからといってすぐにちゃんとした朗読になるわけじゃなかった。思い通りの音声にするには読み間違いを直したり、イントネーションなどを調整する必要があった。使い始めてみて、最初は操作に慣れるまで手間取ったけれど、なんとなくコツも分かってきて一つ朗読を作り終える頃には、実際の声優さんが喋っているように聞こえるようになった。そのままでもまあ聞こえないことはないけど、誤読やイントネーションでリズムが合わずなんとなく聞きづらいのである。
で音声の方がうまく出来ると、やっぱり動画も作ってみたくなる。ちなみに動画編集ソフトなんてものはなかった。気がつけば僕はネットで「Videostudio」という動画編集ソフトを見つけて購入ボタンを押していた。これを使えば動画を作成してYoutubeにアップロード、パートナーシップで広告収入に一歩近づくんだと思った。映画学校を卒業していたので、映像についていくらか勉強したことはあるんだけども、でも編集作業なんてまったくやってこなかったから、うまく出来るかどうか不安だった。けど、こっちもけっこう実用レベルだった。初心者の僕でもそれなりに使える。もっと本気でやれば、プロに負けないクオリティになりそうな予感もしたが今はこれくらいでよしておこう。で、作ってみたのが冒頭のYoutube動画である。
出来に関しては皆さんに判断をお任せします。ただ僕は十分実用化レベルだと思っている。こんなに簡単に朗読音源が出来てしまうのも嬉しい。もちろん実用化していくには、どんな作品を用意するのかという問題や、また映像素材を一から集めなくてはいけないとか、けっこう大変なのは想像できるけど、何とでもなりそうな気がした。あと制作時間だ。これを仕上げるまでどれくらい時間が掛かったのだろう。トータルで15時間ぐらいだろうか。いや20時間ぐらい掛かったかもしれない。もっとか? 結構な作業時間だ。この作業をを続けていくのは大変そうだと思った。まあ長篇はどう考えても無理だろう。作ったとしても、一つの作品を読み終えるのに10時間もかかりそうな朗読音源なんて、誰も必要としていないに違いない。
でもまあここまでやってみて、映像の表現性ってやっぱ凄いんだなと思った。20世紀頭にシネマが登場して、あっという間に世界を席巻していったのは、うん、伊達じゃなかった。世間じゃテレビ離れと言われていても、その人たちが液晶表示のPCを捨てたという話は聞かない。いたるところで人々は映像に触れていて、そしてその映像は世の中を映し続けているのだ。そしてYoutubeなら日本語を理解さえしていればどんな人にも届けることができる。再生ボタンを一つ押せば作品を読んでくれる。そう思うと僕はなんだか子供のようにわくわくした。これは面白いかも。もしかしたら、もしかするかもしれない。そう思った。
今回、僕は、僕のお気に入りのアマチュア作家である各務留美さんという方の作品を許可を得て使わせてもらった。彼女はちょっと変な話をたくさん書かれる方なのですが、どうやら彼女も気に入ってくれたみたいで、この作品以外にも朗読音源化をさせていただけることになった。そうか長篇が無理なら短編作品や童話でいいじゃないかと思った。とりあえず朗読音源を作ってみよう。そしてYoutubeのパートナーシップに申請し続けてみよう。どこまで出来るか分からないけれど、こんな面白いことはないと思った。
そうこんな風にして僕と音声合成技術の出会いが始まったのである。(つづく)
補足1
Youtubeにアップロードすると、自動的に広告収入が得られるわけじゃない。そのYoutubeで広告収入を得る方法のことをパートナーシッププログラムといって、申請して審査をクリアする必要がある。著作権に違反していないオリジナル映像であること、ある程度公開数があることなどの条件があるらしい。欧米ではすでに一般的であるらしく年間1千万以上の収益を上げている人も少なくないという、2007年に日本でも始まっていて、私が観たガジェット通信の記事の永川優樹さんもそのプログラムに入っていて、そこから収益を上げているのだそうだ。
この記事はシリーズでお送りする予定です。ご意見、感想などありましたら、コメント欄ではなくinfo@kaedebooks.comまでご連絡ください。シリーズ最後に皆様のご意見を、一つ一つ発表させていただければと思います。