【CNMO科技动静】8月29日凌晨,OpenAI正式推出其开始进的语音合成模子GPT-RealTime,并同步更新多项API功效,包括长途MCP办事器撑持、图象输入及SIP德律风呼叫撑持。OpenAI将该模子定位为迄今机能最强的及时语音模子,具有笑声捕获、多语言无缝切换等能力,同时于遵照繁杂指令、挪用东西和天生更天然、富有体现力的语音方面实现显著晋升。

价格方面,通用版Realtime API和GPT-RealTime模子本日起向所有开发者开放。于订价方面,GPT-RealTime每一百万token音频输入价格为32美元(约合人平易近币228元),缓存输入每一百万token为0.4美元(约人平易近币2.85元),音频输出每一百万token为64美元(约人平易近币456元)。比拟此前推出的gpt-4o-realtime-preview,新模子价格下调20%。此外,OpenAI还有加强了对于对于话上下文的细粒度节制能力,答应开发者设置智能token限定并撑持一次性截断多轮对于话,从而显著降低长会话成本。

GPT-RealTime于音频质量与指令理解方面取患上多项冲破。该模子可以或许捕获非语言旌旗灯号(如笑声),于语句中切换语言并及时调解语气。按照OpenAI内部评估,其于差别语种(如中文、西班牙语、日语、法语)中辨认字母数字序列的正确率更高。于Big Bench Audio评估中,新模子到达82.8%的正确率,逾越去年12月发布的旧模子。于权衡指令遵照能力的MultiChallenge音频测试中,GPT-RealTime患上分30.5%,较旧模子的20.6%年夜幅晋升。

此外,OpenAI改良了模子于函数挪用方面的体现,特别于挪金年会用相干函数、机会选择和参数匹配三个维度上显著优化。于ComplexFuncBench音频评估中,新模子得到66.5%的患上分,较着高在旧版的49.7%。同时,GPT-RealTime原生撑持异步函数挪用,可于永劫间运行函数时不中止会话流程,从而维持对于话天然性。
版权所有,未经许可不患上转载
-金年会体育
© 版权所有 2019-2025 JEE 皖ICP备12010736号-1
皖公网安备 34011102000706号