百度地圖推出語音定制功能人人都能成為茅十
文鄰章
2016年,《從你的全世界路過》上映,其中有一個場景頗為令人向往—在去稻城亞丁的路上,楊洋飾演的茅十八使用了自己錄制的語音導(dǎo)航包進(jìn)行導(dǎo)航,強(qiáng)烈融入的個人風(fēng)格與包含的滿懷愛意,在讓大家收獲歡聲歡笑的同時,也讓無數(shù)人開始幻想什么時候自己也能向中的茅十八那樣,為自己心愛的、在意的人錄制屬于專屬語音導(dǎo)航包。當(dāng)然,向往歸向往,但大家也都明白,這是百度地圖的植入,而身為普羅大眾的我們要像中的茅十八那樣在地圖應(yīng)用中錄制屬于自己的語音導(dǎo)航包,基本屬于不可能事件。
但科技技術(shù)的進(jìn)步卻往往能將過往的不可能變?yōu)楝F(xiàn)在的可能。
9月19日,百度地圖正式發(fā)布“語音定制功能”將此前專注于明星名人的語音定制功能開放給普通用戶群體。這讓三年前看起來怎么也不可能實現(xiàn)的事情,正式走進(jìn)普通用戶群體,讓每一個普通人都能錄制屬于自己的語音導(dǎo)航包。
普通用戶如何錄制屬于自己的語音導(dǎo)航包
作為全球首個地圖語音定制產(chǎn)品,據(jù)百度地圖介紹,用戶只需在百度地圖App 上錄制20句話,20分鐘左右即可生成個人完整語音包。從個人實際體驗來看,整個語音錄制操作可以說是非常簡單的,基本不存在使用門檻。在百度地圖中,實際上有多個路徑可以實現(xiàn)語音語音導(dǎo)航包的錄制。
首先說最簡單的方法:打開百度地圖App,語音喚醒“小度小度”后說“錄制我的語音”即可直接跳轉(zhuǎn)到語音錄制選擇界面,按照界面提升進(jìn)行操作即可。個人認(rèn)為這是最為省步驟的方法。
當(dāng)然,也還有稍微復(fù)雜的方法,具體來說是:
1、打開百度地圖App,擊百度地圖首頁的“路線”“出行助手”“個人中心”等按鈕后再選擇“語音定制”進(jìn)入相應(yīng)頁面。
3、按照規(guī)則提升,確認(rèn)后即可開啟專屬語音定制。
當(dāng)然,上述兩種方法,均需要用戶在錄入完語音文本后,在等待20分鐘左右的專屬語音包的生成時間。
背后黑科技—說話人韻律遷移技術(shù)Meitron
于是,問題隨之而來,百度地圖是如何讓這件三年前看起來怎么也不可能實現(xiàn)的事情,正式走進(jìn)普通用戶群體,讓我們普通人都能錄制屬于自己的語音導(dǎo)航包?
其背后離不開百度獨(dú)創(chuàng)的說話人韻律遷移技術(shù) Meitron這一黑科技的支撐。這個技術(shù)可以將語音中的音色、風(fēng)格、情感等要素映射到不同的子空間,在使用時,不同要素可以任意組合,靈活的控制合成語音的風(fēng)格。作為百度大腦5.0在語音技術(shù)上交出的成績單之一,事實上,這技術(shù)是專門為了解決現(xiàn)階段語音合成技術(shù)面臨的風(fēng)格遷移、音色模擬和情感擬人這三大而誕生。從相關(guān)資料來看,自2016年開始,百度就通過采用深度學(xué)習(xí)的離線參數(shù)合成、全面深度學(xué)習(xí)的EMPHASIS聲學(xué)建模、Tacotron+WaveRNN的聯(lián)合訓(xùn)練等新技術(shù)來訓(xùn)練、提升語音合成產(chǎn)品落地,時至今日已經(jīng)逐漸取得行業(yè)領(lǐng)先的語音合成產(chǎn)品體驗成果。
百度語音首席架構(gòu)師賈磊介紹:“百度地圖語音定制功能基于百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型,其特點(diǎn)主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個方面”具體來說,多情感朗讀是指通過MEITRON技術(shù),合成的語音可以注入不同的情感,韻律遷移是指同一個人的聲音可以講出不同風(fēng)格的文本,音色轉(zhuǎn)換是指可以用少量語音就可以合成一個人的專屬音庫。而這三重優(yōu)勢的加持,也使得語音合成效果變得更加逼真、豐富,用戶體驗也得到了提升。的確,從個人實際體驗來看,此言非虛。
百度為什么要在百度地圖開放“語音定制功能”
在此,我們也不得不談一下這樣一個現(xiàn)實問題:百度面向億級用戶開放語音定制功能,讓每一個普通用戶都能通過百度的語音合成技術(shù)簡單快捷的生成專屬于自己的語音導(dǎo)航包,目的何在?或者說能夠帶來什么?個人淺顯看來,大致可能有三重目的。
從用戶的角度來看,百度地圖開放語音定制功能,首先是有助于滿足用戶的個性化需求,實現(xiàn)真正的千人千面。如我們所見,百度地圖作為國民級導(dǎo)航軟件,每天都有億級用戶在使用它進(jìn)行導(dǎo)航。在此之前,百度地圖為了增添語音導(dǎo)航的人性化與趣味性,邀請了湯唯、楊洋等明星錄制語音導(dǎo)航包,以滿足用戶需求。
但是,明星雖然擁有強(qiáng)大的號召力,能夠吸引愛豆們使用,但卻也有圈層的限制,不可能人人都喜歡某一位明星的語音導(dǎo)航風(fēng)格,這是現(xiàn)實。
而此番百度面向用戶開放語音定制功能,將定制的權(quán)利下放到了用戶的手中,讓每一位用戶都能通過簡單幾步就能擁有自己的語音導(dǎo)航包,對于滿足用戶個性化需求,實現(xiàn)真正的千人千面都大有裨益。
其次,這也是百度踐行科技溫情,以技術(shù)賦能用戶的又一體現(xiàn)。百度一直認(rèn)為,真正的科技不應(yīng)是冷冰冰的存在,應(yīng)該有人文關(guān)懷融合其中。百度此次在百度地圖上開放的放語音定制功能,個人看來正是如此。
如我們所見,在語音導(dǎo)航定制包中我們不僅可以錄制自己的語音,也可以錄制父母、愛人、孩子的語音導(dǎo)航包。
想象一下,在駕車過程中,聽到的不是明星語音導(dǎo)航,而是自己父母、愛人或是孩子的語音導(dǎo)航,會是怎么樣的一種心情與體驗?可以說,相對于明星語音導(dǎo)航包,自己錄制的語音導(dǎo)航包,顯然是更能拉近更具人性溫情的存在,而這恐怕才是真正意義上的技術(shù)普惠、賦能眾生吧。當(dāng)然,這也將會進(jìn)一步拉近用戶與產(chǎn)品之間的距離。
同時,百度地圖放語音定制功能也是自身語音技術(shù)對外的一次實力展示。如上所述,語音識別與合成技術(shù),在當(dāng)下既是業(yè)界研究熱點(diǎn)也是科研難點(diǎn),百度在此領(lǐng)域也是耕耘良久,并斬獲頗豐。
而百度此番在百度地圖這一國民級導(dǎo)航平臺上開放語音定制功能,可以說就是對自家語音合成技術(shù)進(jìn)行的一次前所未有的大練兵,而這顯然離不開技術(shù)自信的底氣支撐。試想,如果沒有對自家技術(shù)能力的足夠自信,如此大規(guī)模地開放給用戶,任誰恐怕也不敢輕易嘗試,畢竟體驗不佳帶來的口碑翻車打的是自己的臉。
透過百度地圖,我們看到了百度獨(dú)創(chuàng)的說話人韻律遷移技術(shù)Meitron所帶來的科技溫情。在此,我們也不難發(fā)現(xiàn)這樣一個現(xiàn)實:基于百度大腦5.0的說話人韻律遷移技術(shù)Meitron,不僅可以落地到百度地圖上,還可以落地教育產(chǎn)品、陪伴機(jī)器人等在其他產(chǎn)品上,而這無疑為該技術(shù)帶來了更大的想象空間??梢哉f,百度地圖只是開始,未來空間不可估量。
本文相關(guān)詞條概念解析:
語音
語音即語言的聲音,是語言符號系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語言意義。語言依靠語音實現(xiàn)它的社會功能。語言是音義結(jié)合的符號系統(tǒng),語言的聲音和語言的意義是緊密聯(lián)系著的,因此,語言雖是一種聲音,但又與一般的聲音有著本質(zhì)的區(qū)別。語音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長、音色,是構(gòu)成語音四要素。