很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
熟悉MiniMax的人都了解這家公司的調(diào)性——不鳴則已,一鳴驚人。
要么選擇低調(diào),要么發(fā)動技術(shù)連招,其發(fā)展路徑呈現(xiàn)出鮮明的“技術(shù)深潛”與“節(jié)點式爆發(fā)“的雙重特征。
十月的最后一周,再次進入MiniMax式技術(shù)迭代新周期。MiniMax模型“全家桶”全面向Agent方向進化,基礎(chǔ)文本模型M1升級至M2,“專為Agent和代碼而生”;視頻模型升級至Hailuo 2.3,Hailuo Video Agent迭代為“全模態(tài)全能創(chuàng)作”的Media Agent;新的語音模型Speech 2.6,重新定義下一代Voice Agent的語音模型。
MiniMax創(chuàng)始人閆俊杰在開篇引用了《老子》里的一個詞“大巧若拙”,大意是技術(shù)最高境界的“巧”,要回歸本質(zhì),解決實際問題,這幾乎奠定了本次升級的基調(diào)。
語音模型升級亦是如此,Speech 2.6并非只是單純刷模型指標,而是一次綜合性的更新。一方面是模型能力提升,涉及新增利用Lora提升流利度、特殊格式讀取等功能。另一方面是對端到端API的工程優(yōu)化,比如低延時、首包優(yōu)化等。
也是一次從技術(shù)落地到場景的再深化,其核心目標是給做智能語音助手、客服系統(tǒng)、多輪對話產(chǎn)品等B端廠商和開發(fā)者,提供一個“開箱即用”的引擎。
從誕生起,MiniMax便確定了多模態(tài)全棧自研的戰(zhàn)略,表現(xiàn)為多線并進、交叉突破。放眼望去,Speech 2.6 Agent化的背后是更廣闊的Voice Agent賽道。
有研究報告估測,2030年Voice Agent市場規(guī)模保守估計,可達百億美元級別,若技術(shù)發(fā)展超預(yù)期,可能進一步上漲。
Voice Agent可以理解為“語音交互代理人”,它是連接用戶語音指令與后端服務(wù)的核心橋梁。與傳統(tǒng)語音指令識別不同,不只是簡單將語音轉(zhuǎn)成文字,而是具備完整的交互能力。
小到智能音箱日常問答,大到企業(yè)客服系統(tǒng)的智能應(yīng)答,幾乎所有需要“用說話代替打字”的場景,都依賴Voice Agent來承接需求、理解意圖并給出反饋??梢哉f,Voice Agent是當前覆蓋范圍最廣、用戶需求最迫切的語音交互形態(tài),對其優(yōu)化就是直接提升所有語音場景的效率和體驗。
如果把Voice Agent 比作行駛的汽車,那么語音模型就是發(fā)動機。語音模型的性能直接決定了Voice Agent的場景化效果,Voice Agent的背后必須擁有一個強大的語音模型底座。
Speech 2.6正是延續(xù)了上述思路,在繼續(xù)提高語音模型性能的基礎(chǔ)上,全面升級突破Voice Agent場景,實現(xiàn)超低延時,專業(yè)格式無障礙和更高自然度。
用戶對語音的敏感度遠高于文字,快一毫秒或遲一毫秒,效果相去甚遠。在日常語音交互中最煩人的就是“卡殼”,Speech 2.6這回把“首包響應(yīng)時間”壓到了250毫秒,體感相當于眨一下眼三分之一的時間。據(jù)我們了解,雖然國外部分頂流模型宣稱可達到75毫秒,但實際場景測試過程中平均保持在200-300毫秒。MiniMax的250毫秒響應(yīng)速度,已經(jīng)達到了語音賽道絕對頭部的水平。
用戶最直觀的感受就是幾乎感覺不到卡頓,像真人聊天一樣流暢。像這個案例就是最常見的客服咨詢場景,在音色上已經(jīng)分辨不出人和AI的區(qū)別,AI能精準、連續(xù)識別用戶的意圖,比如“你是不是助理”“有什么新功能”“有沒有優(yōu)惠”等。在無縫銜接作出回答的同時,完成了反問和留資,具備了人類對話中的精髓——“有來有往”。
第二個升級的點是,模型變得“更聰明”和“更懂行”。以前用語音模型,遇到電話、郵箱、網(wǎng)址、數(shù)學公式這類專業(yè)內(nèi)容,得手動改寫輸入,比如要讀出“guang-zi@tech.com”必須要寫成“guang dash zi at tech dot com”,否則AI可能會讀錯。時間識別也是同樣問題,要正確讀出“2025-10-29”,就得嚴格輸入“二零二五年十月二十九日”。而升級后的Speech 2.6無需人工教學,直接就能解碼讀出來。
別看這個點細微,但卻有大用處。試想一下所有涉及語音交互的場景,最重要的就是獲取信息和建聯(lián),如果在關(guān)鍵環(huán)節(jié)出錯,那之前所有都淪為了無效溝通。對開發(fā)者來說省事又高效,尤其是智能客服、日程管理、教育類語音代理團隊,不用再花精力調(diào)prompt或改文本,相關(guān)的技術(shù)棧都能簡化,
還有一個亮點功能是“化腐朽為神奇”,做音色克隆時,最怕用戶提供的錄音素材不完美,比如說話結(jié)巴、帶口音、非母語不流利等。Speech 2.6新增的“Fluent Lora”功能,哪怕素材是“磕磕巴巴”的,也能復(fù)刻出流暢自然的聲音。
舉個例子,你想復(fù)刻一位外國友人的中文語音,但他中文說得慢且有口音,以前生成的AI語音可能也跟著結(jié)巴?,F(xiàn)在Speech 2.6直接用他的原始錄音,但生成的語音依然流暢自然。這對需要大量用戶自定義音色的場景,例如有聲書、個性化語音助手非常實用。
回顧MiniMax Speech系列模型的自我演進歷程,某種意義上也是國內(nèi)AI語音技術(shù),從模仿擬人逐漸走向交互智能的縮影。
今年5月份,MiniMax發(fā)布語音模型MiniMax Speech 02,創(chuàng)新的“Zero-Shot”能力,通過一個模型,提供任意“語言×任意口音×任意音色”的無限組合,豐富了語音生成的多樣性。
彼時,Speech 02一經(jīng)推出,就登頂“Artificial Analysis Speech Arena”和“Hugging Face TTS Arena”兩大權(quán)威榜單,力壓ElevenLabs、OpenAI等國際頂尖競爭對手。
8月份,MiniMax Speech 2.5上線,進一步把各項技能點滿,實現(xiàn)三大新突破:多語種表現(xiàn)力更強、音色復(fù)刻更像、40個語種覆蓋更廣。多語種能力直接瞄準國際市場,為MiniMax出海奠定了基礎(chǔ)。
最后來到剛更新的Speech 2.6,揭開Voice Agent新篇章,開始針對實用場景進行綜合提升,反映其背后商業(yè)化的清晰戰(zhàn)略。大模型與語音技術(shù)深度融合,正在推動AI語音從工具屬性向與場景綁定的智能體演進,從前一階段的能聽懂升級為會思考、善溝通。
在商業(yè)世界,入口是一個極具吸引力的詞語。大模型之戰(zhàn)開啟之后,語音交互再次被認為是具有增長前景長的新入口。落地到許多人力密集的傳統(tǒng)行業(yè),很多都可以用Voice Agent來重新做一遍。這里面有兩條邏輯貫穿始終,一是“成本歸零”,二是“服務(wù)擴展性”。
To B場景中,Voice Agent可以替代大量重復(fù)性的人工溝通工作,如客服、外呼銷售、員工培訓等。理論上,若AI成本可以持續(xù)下降,上述行業(yè)的人工成本也可以無限趨近于零,這將是一次重要的降本增效革命。一旦成本結(jié)構(gòu)轉(zhuǎn)變,商業(yè)模式將迎來重構(gòu),身處于這些行業(yè)的企業(yè)有機會追求更高的價值,從以成本為中心向以利潤為中心轉(zhuǎn)型。
價值鏈的重塑體現(xiàn)在企業(yè)級服務(wù),Voice Agent的價值在于它能直接切入業(yè)務(wù)核心。一個可靠的Voice Agent可以直接嵌入這些工作流,成為用戶與SaaS系統(tǒng)交互的首要觸點。協(xié)同內(nèi)外部系統(tǒng),Voice Agent可以將整個業(yè)務(wù)流程打穿,推動全鏈路效率革命。例如,在汽車試駕場景,用戶說“想試駕新款SUV”,Agent立即匹配庫存數(shù)據(jù),若車型有現(xiàn)車則直接推薦最近門店,否則自動調(diào)整推薦其他車型或時間,整個過程無需人工介入。
回到現(xiàn)實,Voice Agent市場發(fā)展仍在早期,還處于從技術(shù)驗證期向企業(yè)級落地的轉(zhuǎn)型階段。盡管行業(yè)已經(jīng)有了基建層向應(yīng)用層過渡的趨勢,但整體呈現(xiàn)出“倒金字塔式”競爭格局,上層垂直行業(yè)應(yīng)用層企業(yè)眾多,既有傳統(tǒng)又有新玩家,最底層能夠穩(wěn)定向上輸出技術(shù)能力的基建企業(yè)數(shù)量較少。
毫無疑問,MiniMax就是其中典型的“基建狂魔”。其Speech系列語音模型,不綁定特定行業(yè)場景,而是通過底層技術(shù)和工程優(yōu)化,為B端廠商和開發(fā)者提供可復(fù)用的技術(shù)模塊。通過開源模型和API服務(wù),將音色模仿、語音生成等能力封裝為標準化的工具,以降低企業(yè)接入門檻。技術(shù)能力向上下游延伸,與文本、視頻、音樂等多模態(tài)能力形成協(xié)同效應(yīng)。
語音領(lǐng)域始終是MiniMax的技術(shù)主場,早在行業(yè)初期就達成了多個“國內(nèi)首個”成就。國內(nèi)首個使用大模型語音技術(shù)開放多角色配音商用接口,首個開設(shè)語音模型海外API服務(wù),以及首個與聲網(wǎng)、騰訊和即構(gòu)科技聯(lián)合研發(fā)Realtime API實時交互服務(wù)方案。這導(dǎo)致一段時間內(nèi),客戶對其語音模型的認可度一度超越了文本大模型。
得益于此,MiniMax目前進入了海內(nèi)外客戶語音模型選型的核心廠商名單,包括一些大廠。市場反饋尤為直觀,很多人向我們反映,在同期產(chǎn)品中,MiniMax語音模型更具性價比。不少客戶對MiniMax的小語種功能印象深刻,特別是粵語的表達,“標準到接近電視臺播報水平”。
海外客戶主要為開發(fā)者平臺和AI語音代理基礎(chǔ)設(shè)施提供商,以技術(shù)驅(qū)動和生態(tài)集成為導(dǎo)向,這些客戶大多追求快速集成、高自定義性和全球部署能力。其中,MiniMax語音模型的超低延遲、情感語言控制和多語言優(yōu)化等功能,成為被采納的主要參考。目前海外最流行的兩家Voice Agent開源平臺,Livekit與Pipecat已接入MiniMax Speech TTS Model,展現(xiàn)了MiniMax在高性能語音代理生態(tài)中的適配性。
國內(nèi)客戶覆蓋領(lǐng)域則更廣闊,包括教育硬件、智能玩具等C端消費級產(chǎn)品,銷售、搜索等B端行業(yè)解決方案以及通過開發(fā)者平臺賦能技術(shù)型客戶,以高自然度的語音技術(shù),滿足不同場景下更人性化、更高效的交互需求。
教育類客戶中,愛小伴AI奶龍作為IP衍生玩具,利用MiniMax還原角色聲線,支持故事講述和情感互動,體現(xiàn)“寓教于陪”的定位;聽力熊學習機基于自研TeeniGPT大模型,集成MiniMax語音能力進行自然對話,增強學生學習的互動體驗。
面向C端的智能助手與硬件,MiniMax利用語音技術(shù)幫助企業(yè)提升用戶體驗,增強用戶粘性,其客戶涉及了榮耀、魅族、小米等硬件廠商。在B端銷售領(lǐng)域,MiniMax與“Megaview AI助手”達成合作,語音生成與情感識別能力其提供底層支持,提高業(yè)務(wù)效率。
不難看出,除了技術(shù)升級外,MiniMax的語音模型已經(jīng)進入了商業(yè)驗證期。對比同行,MiniMax在B端業(yè)務(wù)的風格呈現(xiàn)出輕交付、重質(zhì)量特點。通過標準化、模塊化的API輸出技術(shù)能力,降低合作伙伴的集成成本,優(yōu)點是周期短和風險小,靠用戶的正向反饋將帶來后期穩(wěn)定增長。這種模式使其能夠快速擴大覆蓋業(yè)務(wù)范圍,但又能保持技術(shù)研發(fā)的聚焦性,這點對一家資源有限的創(chuàng)業(yè)公司極其重要。
短期內(nèi),Voice Agent市場還卡在技術(shù)環(huán)節(jié)。這意味著具備核心技術(shù)標準制定能力的企業(yè)將主導(dǎo)底層生態(tài),而率先完成行業(yè)場景深度適配的解決方案商將贏得上層市場。
未來,語音交互可能成為企業(yè)數(shù)字化轉(zhuǎn)型的標配接口,但真正的贏家將是那些能同時駕馭技術(shù)深度與場景廣度的生態(tài)構(gòu)建者。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
                    
                                        
                                                
                                
                                
                                
                    
                                                
                                
                                    
                                    
                                    
                                    
                                    
                                    
                                    
                                    
                                    
                                    
            
        
            
            
                    
        
    
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)