テキストデータを自然に近い音声に変換してビジネス利用する
経緯と概要
自著を朗読して音声コンテンツを作成しているが案外難しい。読み間違いや言い直しの発生、また背景の雑音の問題などがどうしても起こる。滑舌の悪さや声質の問題もあり別の方法で解決できないか模索した結果、テキストから音声に変換するサービスを発見し試してみた。
利用するサービス
Text-to-Speech: 自然な音声合成 | Google Cloud
デモ
当社のKindle本「60分で読める!小規模企業IT化マニュアル」の冒頭の文章で比較してみる。
「2019年5月1日から新しい元号「令和」の時代がスタートした。
約30年続いた「平成」は、戦争のない平和な時代ではあったが、経済的には停滞した時代であった。
GDPがほとんど変わらず成長しなかったからだ。
その間、諸外国は経済成長をしたため相対的に日本経済の世界における地位は以前に比べて大きく低下した。
日本は現在も世界3位の経済大国ではあるが、平成の初めの時のような勢いは、残念ながら今は無い」
※Youtube動画では実際の読み上げ比較を紹介
自分の朗読音声と音声合成との比較
自分
- 自分の場合は非常に滑舌が悪い
- 朗読が苦手
- 声質も良いとは言えない
音声合成
- 肉声でないことは分かるが、自然に近い発声で精度は高い
- 結構早く簡単に出来る
利用場面
音声合成の利用場面を考えてみた
- 自動的な音声応答
- 雑音問題の解消
- 自分の声を使いたくない
- 音声応答システムを作る
- 音声を提供してくれる人がいない
- 大量の音声コンテンツを短時間に用意する場合
余談
ちなみに逆(音声からテキストへ変換)もできる
Speech-to-Text: 自動音声認識 | Google Cloud
こちらは今のところテキスト→音声ほどの精度はない。誤変換がある程度発生するので手直しが必要になる。
お問い合わせ
ビジネス利用に関するご相談はこちらまで