在使用高德導航的時候,你能聽到甜美的志玲在為我們播報實時路況。那麼這些是怎麼實現的呢?難道是預先一句一句地全部錄好的嗎(那得多大工作量啊)?下面就讓訊飛為大家揭開謎底
【志玲的聲音其實是合成的!】
林志玲的聲音是科大訊飛採用目前世界最先進語音合成技術合成出來的!
在導航應用中,對如」向左轉彎」、」前方攝像頭」等固定的語句可以採用原聲,而對於地名、距離、速度等文字就不可能讓志玲姐姐逐一錄製了。
於是在開始合成之前,請志玲錄了一些音頻。之後的事情就交給我們研究員啦。
這些音頻可不是隨意說說就可以的,而是科大訊飛的研究團隊為了志玲特別設計的。
除了設計均衡的發音組合、長短語句外,還專門為體現志玲的「娃娃音」增添了語氣詞,並結合導航應用做了偏向設計。所以能用最短的語料做出最好的效果。
就這樣,沒多久,「志玲」的聲音就成功合成啦。
如果你以為我們只能合成志玲的聲音,那可大錯特錯了。未來,不僅僅是明星,身邊的一切聲音幾乎皆可合成。這也就是學界所說的「個性化合成」技術。
【一切皆可合成】
沒有錄音棚錄製的音頻材料怎麼辦?沒關係,我們可以利用來自網際網路的海量音頻數據。
網路音頻往往音質差、通道不統一、多個人聲融合在一起。訊飛研究團隊提出海量數據無監督音庫製作方案(下圖),綜合運用訊飛公司全面而完備的語音技術力量,通過整合信號處理、說話人識別、語言模型、語音識別、自然語言處理等各方向成熟技術,以全自動無監督方法快速得到單個目標發音人的純凈音庫。
2012年,研究小組從新聞聯播數據里提取出康輝和李瑞英的有效音頻,並以此成功搭建兩位主播的語音合成系統。在當年3月的訊飛語音雲發布會上,此方法模擬製作的新聞聯播合成音視頻震撼了很多觀眾。
在剛剛結束的「語音點亮生活——科大訊飛智能家庭語音產品發布會」中,訊飛將個性化語音合成技術應用到靈犀3.0之中,現場用合成的語音朗讀了一段三國演義,好像真有一位評書藝術家在朗讀。逼真的合成效果再次讓小夥伴們都驚呆啦。
未來這一技術具有很多的應用前景,例如可以使用評書名家的聲音給老人們讀書講報。用評書、武俠、言情等多樣化風格為用戶們讀小說。
甚至可以通過語音交互的積累,自動定製你個人音色的語音合成系統;再比如自動處理家庭DV錄像,將孩子們的童聲童語製作成父母專屬的合成系統等等……
相信隨著技術的發展,所有的未來一定會變得更加生動、有趣!
鍾意就快D Share啦!
|
|