AWS 推出 Amazon Polly 雙向串流技術：讓 AI 語音助理同步說話，告別生成文字時的尷尬沉默

AWS 針對 Amazon Polly 推出全新雙向串流 API，透過 HTTP/2 技術讓語音合成與大型語言模型生成文字同步進行，顯著降低對話延遲，打造更流暢的人機互動體驗。

在使用 ChatGPT 或 Claude 的語音功能時，我們常會發現系統需要先「思考」一段時間，等文字完整生成後，語音才會緩緩播放。這種互動中的停頓感，是目前對話式 AI 難以與真人對話媲美的主要障礙。為了克服這項挑戰，AWS 最近為其語音合成服務 Amazon Polly 推出了全新的「雙向串流」（Bidirectional Streaming）API。

傳統的文字轉語音（TTS）運作模式多半採用「請求-回應」機制。這意味著開發者必須先收集完整的文字段落，才能向 API 發出合成請求。在生成式 AI 時代，大型語言模型（LLM）是逐字（Token-by-Token）產出內容的，如果必須等待整段回覆生成完畢才開始轉音訊，就會產生明顯的等待延遲。即便過去的技術能做到「邊下載音訊邊播放」，但輸入端的限制始終是效能瓶頸。

這次推出的 StartSpeechSynthesisStream API 則從根本上改變了傳輸邏輯。利用 HTTP/2 的雙向通訊特性，開發者可以在 LLM 還在產生文字的當下，就同步將這些碎片化的文字資訊傳送給 Amazon Polly。這種「邊輸入、邊合成、邊輸出」的模式，讓系統不再需要等待完整文本，進而大幅縮短了從文字生成到發出聲音之間的時差。

這項技術的進步對產業影響深遠。首先，在企業客服與虛擬助理應用中，更即時的語音反應能提升使用者的耐心與信任感，讓機器人聽起來不再機械化，而是更像在進行真正的對話。其次，對於開發者而言，這簡化了後端架構。以往為了降低延遲，工程師往往需要自行撰寫複雜的邏輯來切割語句，現在則能透過原生 API 達成更平滑的效果。

這項更新的重要性在於它補足了語音 AI 互動體驗的最後一塊拼圖。當業界不斷追求 LLM 的推理速度時，前端感知的即時性同樣關鍵。Amazon Polly 的雙向串流技術讓語音互動從「非同步的問答」轉向「同步的交流」，這對於需要高度互動性的導航系統、智慧家居、甚至是教育類 AI 應用來說，都是提升使用者經驗的關鍵指標。這並非單純的技術規格升級，而是朝向更自然的人機互動目標邁出了務實的一步。