只需 15 分鍾,iPhone 就能「復制」你的聲音

史蒂芬·霍金的「機械電音」,也許是世界上其中一個最有辨識度的聲音。

但那並不是霍金自己的聲音。

只需 15 分鍾,iPhone 就能「復制」你的聲音

在霍金因漸凍症(ALS)失去說話能力的年代,技術還不足以讓他能生成自己聲音。事實上,能用上語音合成器的人都屈指可數。

到了今天,ALS 患者雖然有了更多語音合成的選擇,但總體費用和時間門檻仍然不低,普及度也有限。

最近,蘋果公布了全新無障礙功能 Personal Voice(暫未上線),不僅讓用戶能免費「備份」自己的聲音,同時還在安全地應用 AI 技術上,作出了一次有意思的嘗試。

只需 15 分鍾「調教」,就能生成你的聲音

只需 15 分鍾,iPhone 就能「復制」你的聲音

▲ 圖自 Fastcompany

在生成式 AI 可以模仿一切的時代里,用 AI 模仿一個人的聲音聽起來已經不算新奇,只是感覺有點安全隱患。

我好奇的,更多是蘋果要怎樣安全和高效地實現 Personal Voice 這一功能。

據介紹,iPhone、iPad 和 Mac 用戶只需要根據提示錄制 15 分鍾的音頻,蘋果就會基於設備端的機器學習技術來生成和用戶一樣的聲音。

相比之下,為失語群體提供專業語音合成服務的公司,可能需要採用專業設備,錄制幾小時的語音素材,價格最低都要數百美元。

另一項新無障礙功能 Live Speech,則支持用戶打電話、FaceTime 或者是和他人面對面對話的時候,輸入文字即可生成語音內容,為失語或不方便說話的用戶提供另一種「發聲」方式。

只需 15 分鍾,iPhone 就能「復制」你的聲音

結合 Personal Voice 和 Live Speech 兩項功能,失語用戶就能用接近自己原本聲音的生成聲音和他人溝通。

用起來是方便了,但怎樣避免有人用網上扒的語音素材來生成他人的聲音?

  1. 素材隨機化。

在錄制 15 分鍾語音素材的過程中,蘋果將隨機生成需要用戶朗讀的內容,減少他人猜中素材的可能性。

只需 15 分鍾,iPhone 就能「復制」你的聲音

  1. 物理距離屏障。

在錄制過程中,用戶需要在距離設備 6-10 英寸(約 15- 25 厘米)的特定空間里完成錄制。

在生成過程中,所有數據都將通過蘋果的 Neural Engine(神經引擎)在設備本地完成,不必要上傳到雲處理。

語音合成後,第三方應用如果想使用 Personal Voice,都要獲得用戶明確授權。

只需 15 分鍾,iPhone 就能「復制」你的聲音

即便第三方應用獲得授權使用時,蘋果也會採用額外的背景保護,確保第三方應用無法獲取 Personal Voice 以及用戶之前所錄制的語音素材。

如果是蘋果「全家桶」用戶,生成自己的 Personal Voice 後還能通過 iCloud 同步到不同設備上,並以端對端的方式加密。

自己的聲音,失去了才懂多重要

只需 15 分鍾,iPhone 就能「復制」你的聲音

人是感性的生物,而聲音是很強烈的情感觸發器。

有研究指出,當人在聽到母親的聲音時,身體釋放出催產素水平和跟媽媽擁抱時產生的程度很相似。另一個研究則指出,聽到自己的聲音,會增強一個人的自我能動性。

這聽起來有點抽象。

但當我們失去它時,重要性就變得顯而易見了。

2021 年 3 月,Ruth Brunton 被確診 ALS。那年聖誕,她就已經失語了。

ALS 患者中,約有 25% 的人患的是「延髓起病型」肌萎縮側索硬化症,主要表現是說話障礙或吞咽困難。這類病人說話會逐漸變得含糊、帶有鼻音,甚至失語。

Brunton 的行動很果斷,確診後馬上找公司去做語音生成。

來回花了一個月時間,錄了 3000 多個句子的語料,但最後出來的結果並不理想。

那家公司用的是一種名為「單元選擇(unit selection)」技術。

簡單粗暴來說,它就是通過「拼接」來實現語音生成,把語料拆分為大量小的語音單元,然後按需把元素拼起來。

只需 15 分鍾,iPhone 就能「復制」你的聲音

▲單元選擇技術下,「Bob」這一詞語能被拆分成不同語音元素,圖自《華盛頓郵報》

這種技術生成的語音能聽清,但會有點電音,聽起來不太自然。

結果就是,Brunton 錄制的語料結合了微軟一個名為「Heather」的聲音,不但聲音和自己毫不相似,甚至逼著這英國人「講」起了美語口音。


https://s3.ifanr.com/wp-content/uploads/2023/06/real-ruth.m4a

▲ Brunton 自己真實的聲音

https://s3.ifanr.com/wp-content/uploads/2023/06/heather.m4a

▲ 合成版 Brunton 的聲音

困在這個聲音里,Brunton「只會在必要的時候說話,不再是因為想說話而說話」。

從前和丈夫打鬧聊天的心情消失了,Brunton 也不怎麼願意參加多人對話。

即便是說「我愛你」,用一個不像自己的聲音來說,意義也似乎被削弱了。

只需 15 分鍾,iPhone 就能「復制」你的聲音

六個月後, Brunton 和丈夫爭取回了最初錄制的語音素材,找了另一家公司,用 AI 技術合成了一個更像她自己的聲音:

這聽起來也許有點傻,但重新獲得自己的聲音讓我更有自信了。

在波士頓兒童醫院負責「增強溝通」項目的 John M. Costello 留意到,那些採用了更真實生成語音的病人,似乎更能夠和親近的人建立深厚的聯結。

2022 年聖誕節,「重獲新聲」的 Brunton 還用語音錄制的一段節日祝語。

https://s3.ifanr.com/wp-content/uploads/2023/06/ruth.m4a

▲ Ruth 覺得新的合成聲音更像自己

然而,聖誕剛過,Brunton 就染上了新冠,最後在今年 2 月離世了。

她離開的那晚,丈夫 David 一整夜都握著她的手:

我們有兩年時間來告別。

我們說好了,我們要說盡一切我們想說的。

難以想像,如果 Brunton 後來沒換上更像自己的聲音,她又是否能自在地說出想說的一切。

無障礙思維點亮靈感,AI 燃起生產力

只需 15 分鍾,iPhone 就能「復制」你的聲音

我一直認為,無障礙設計所挖掘的,其實就是人類多樣性創造的想像力資源。

我們去到和自己有著截然不同生活體驗的人面前,聆聽更少被訴說的故事和體驗,創造出我們之前沒想像過,但卻能對更多人友好的的新生活方式。

Personal Voice 能讓失語的 ALS 患者重新獲得自己的聲音;也可以幫助在經歷「刀片嗓」的我用自己的聲音去和其他人對話;甚至,我也很難避免會去想像,是否應該用這為自己「備份」聲音留給親近的人,以免哪天自己會突然離世。

而 AI 技術,就是實現這些想像力生產力。

正如杜編輯之前說的,雖然不趕生成式 AI 的熱鬧,但蘋果一直都把 AI 用來提升用戶體驗 —— 提升效率,保護隱私。

只需 15 分鍾,iPhone 就能「復制」你的聲音

提升效率,在於提升本地執行的機器學習算法和模型。

除了 Personal Voice 以外,蘋果這次預覽的另一個無障礙功能 Point and Speak 也採用了本地設備端的機器學習技術。

未來,視障用戶在 iPhone 自帶的放大器里,結合 Point and Speak 和旁白功能,就能憑自己手指把 iPhone 變成「點讀機」—— 點到哪兒,讓 iPhone 給你把文字讀到哪兒。

只需 15 分鍾,iPhone 就能「復制」你的聲音

去年的「門檢測」功能道理也類似,讓設備端的機器學習幫視障用戶識別出門,並朗讀出門上面的信息和周圍的標識。

只需 15 分鍾,iPhone 就能「復制」你的聲音

至於隱私,按賈伯斯說的,就是 「如果你需要他們(用戶)的數據,那就向他們(用戶)請求。每一次都如此。」

這在無障礙設計方面也尤其重要 —— 因為這些功能設計起源就是服務被所謂「常規設計」忽略的人,常常都是更弱勢的群體,因此更有必要確保這些用戶的隱私不受侵害。

在這個語境下,我們也可開啟更多關於數據應用權和透明度的討論。

蘋果這次做 Personal Voice 時,和幫助 ALS 患者的非盈利機構 Team Gleason Foundation 合作。

只需 15 分鍾,iPhone 就能「復制」你的聲音

▲ Team Gleason Foundation CEO Blair Casey(右)

該機構的 CEO Blair Casey 一直也在推動語音生成公司設定一套標准錄制素材設定,讓用戶能直接錄這部分素材,並體驗不同公司生成出來的語音效果,而不是像現在一樣「盲賭」。

同時,Casey 也主張語音生成公司把用戶錄制的語音素材數據提供給用戶(因為很多用戶可能錄制後就失語了),以免他們未來想把這些數據用在其他技術上:

如果更好的技術出來了,你會不想試一試嗎?

如果你沒法拿回自己的語音素材,你就沒法去試。

AI 也許是我們時代最強的生產力。

但是,這力該怎麼使,也許以人為本的無障礙設計能給它不少指引。

來源:愛范兒