在使用 ChatGPT 或 Claude 的語音功能時,我們常會發現系統需要先「思考」一段時間,等文字完整生成後,語音才會緩緩播放。這種互動中的停頓感,是目前對話式 AI 難以與真人對話媲美的主要障礙。為了克服這項挑戰,AWS 最近為其語音合成服務 Amazon Polly 推出了全新的「雙向串流」(Bidirectional Streaming)API。

傳統的文字轉語音(TTS)運作模式多半採用「請求-回應」機制。這意味著開發者必須先收集完整的文字段落,才能向 API 發出合成請求。在生成式 AI 時代,大型語言模型(LLM)是逐字(Token-by-Token)產出內容的,如果必須等待整段回覆生成完畢才開始轉音訊,就會產生明顯的等待延遲。即便過去的技術能做到「邊下載音訊邊播放」,但輸入端的限制始終是效能瓶頸。

這次推出的 StartSpeechSynthesisStream API 則從根本上改變了傳輸邏輯。利用 HTTP/2 的雙向通訊特性,開發者可以在 LLM 還在產生文字的當下,就同步將這些碎片化的文字資訊傳送給 Amazon Polly。這種「邊輸入、邊合成、邊輸出」的模式,讓系統不再需要等待完整文本,進而大幅縮短了從文字生成到發出聲音之間的時差。

這項技術的進步對產業影響深遠。首先,在企業客服與虛擬助理應用中,更即時的語音反應能提升使用者的耐心與信任感,讓機器人聽起來不再機械化,而是更像在進行真正的對話。其次,對於開發者而言,這簡化了後端架構。以往為了降低延遲,工程師往往需要自行撰寫複雜的邏輯來切割語句,現在則能透過原生 API 達成更平滑的效果。

這項更新的重要性在於它補足了語音 AI 互動體驗的最後一塊拼圖。當業界不斷追求 LLM 的推理速度時,前端感知的即時性同樣關鍵。Amazon Polly 的雙向串流技術讓語音互動從「非同步的問答」轉向「同步的交流」,這對於需要高度互動性的導航系統、智慧家居、甚至是教育類 AI 應用來說,都是提升使用者經驗的關鍵指標。這並非單純的技術規格升級,而是朝向更自然的人機互動目標邁出了務實的一步。