9.1成人免费看片,大地影视mv高清视频在线观看

chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作

聯系“鳥哥筆記小喬”

很可惜 T 。T 您現在還不是作者身份，不能自主發(fā)稿哦～

如有投稿需求，請把文章發(fā)送到郵箱tougao@appcpx.com，一經錄用會有專人和您聯系

咨詢如何成為春羽作者請聯系：鳥哥筆記小羽毛（ngbjxym）

點擊《春羽計劃》可查看春羽作者權益！

我知道了

首頁 > 用戶運營 > AI開卷數學模型，哪家強？

發(fā)布文章

聯系我們

運營相關

市場推廣

品牌營銷

行業(yè)綜合

AI開卷數學模型，哪家強？

王智遠

2024-11-26 13:39:32

文：王智遠 | ID:Z201440

Kimi這兩天悄悄推出數學版，名字叫：k0-math。

知道模型前，已經有不少外部不少信息說對標OpenAI o1系列，還有人放出了在MATH、中考、高考、考研4個數學基準測試中的數據。

結論是，Kimi數學版成績均超過了OpenAI o1-mini和o1-preview模型。

對于這種評測肯定有各種說法。有些人認為，Kimi 在處理幾何、代數和計算準確性方面表現不錯，還能提供多種解題思路。即使遇到一時解不出的題目，它也會“回爐”重新分析，最終給出正確答案。

但也有人指出，國內大模型推出數學版的同時，也暴露了自身的真實水平；以前，數學能力不是大家關注的重點，但隨著 Kimi 推出這個新模型，人們逐漸意識到：數學才是衡量大模型底層能力的核心。

既然如此，大模型卷數學哪家更強呢？紙上得來終覺淺，絕知此事要躬行；所以，和團隊伙伴一口氣測了8個模型。

01

模型包括：主流的Kimi、ChatGPT（o1 和 o1-preview）、豆包、通義千問 2.5、訊飛星火、夸克和知乎直答。

問題來了，該怎么測試這些模型的數學能力？剛好前兩天發(fā)完小綠書后，有位朋友留言推薦了一道題。他說，試試這個問題：

正方形ABCD繞B逆時針旋轉任意角度得正方形 BPQR ，連 QD ，連 CP 交 QD 于 E 。已知CE =5V2, ED =4，求AB的邊長。

說實話，我不是專業(yè)的數學博主，只能從評測的角度來還原這個過程。先說明一點，這里面有些模型可能并沒有對外宣傳自己能做數學題，但這沒關系，測一測或許會發(fā)現一些意想不到的表現。

我把問題給Kimi數學版，這是它給的結論：

準確嗎？

說實話，我不知道。畢竟這些幾何知識早就還給老師了，為了避免答得太離譜，我順便問了 Kimi 一個問題：這道題屬于什么范疇、什么難度？

它告訴我：這是一道正方形旋轉、勾股定理、以及三角形組成的題，主要在初中、高中的幾何課程中，反復被討論更復雜的幾何變換使用。

好吧，先不糾結我自己的數學水平，接著測試豆包。為了閱讀方便，這里就不放截圖了。豆包的計算速度很快，結論和 Kimi 數學版完全一致。這么看來，這兩個模型在答案上還是比較統(tǒng)一。

通義千問2.5模型怎么樣呢？它的第一個答案是 √33，但當我再次測試時，它給出的結果變成了 √66。這個結果讓我有點懵。

事情總是按照英雄之旅的模式發(fā)展，測試訊飛星火時，它的計算速度比其他幾個模型明顯慢了一些。

更離譜的是，它得出的結論是正方形 ABCD 的邊長是 9，而我問的是 AB 的邊長；于是，我指出了這個錯誤，要求重新計算，這才得到一個和通義千問類似的答案。

接下來是夸克的測試。

它提供了三個不同的計算過程，但結論并不一致，帶著疑惑，我又測了知乎直答，結果更不一樣，答案五花八門，讓人有點摸不著頭腦。

心里帶著疑惑，轉向 ChatGPT 4o。

這個模型很有意思，它一開始幾乎快解完了，卻突然刪掉了；更有趣的是，它解完又刪，又重新計算，像在“反思”自己的解題思路。最終，它的答案和 Kimi 數學版一致。

切換到 ChatGPT o1-preview 模型后，答案和通義千問、訊飛星火類似。

8個模型最終測試下來，豆包、Kimi、ChatGPT 4o計算方式和答案一致；通義千問、訊飛星火、ChatGPT o1-preview答案另一個答案；夸克和知乎直答，提供了不同的結果。‍

02‍

有句話，被人經常說起，即：如果給我一個小時來解決問題，我會用55分鐘來思考問題，再用5分鐘來思考解決方案。

雖然，無法證明是不是愛因斯坦說的，至少告訴我們，思考比答案更重要，問題被定義，答案也就很好解決。

于是乎，我們來了一波反向操作，把問題又給了8個大模型，讓它來糾正錯誤。

首先，拿ChatGPT4o和ChatGPT o1-preview進行對比，果然，統(tǒng)一大模型下測試語言類和數學類就能看出它真正的能力。

ChatGPT4o邏輯性比較明顯，回答也很干脆，它說：

一，旋轉角度不明確，比如“繞 B 點逆時針旋轉任意角度”，這個角度到底是多少？需要明確。二，已知條件和幾何關系不匹配，導致計算困難。

三，因為有前兩個問題存在，求 AB 角度會很靈活，結果容易變化。

ChatGPT 0.1-preview 的回答方式有點不同。它會先分析，等梳理完再給出完整答案。雖然內容和ChatGPT4o一致，但思路展開得更全面些。

Kimi呢？表現如何？

它更懂中國人一些，我雖然做數學題的能力早蛻化完了，但能看懂解題思路；它分析了三個關鍵問題，最后建議直接設定一個具體角度（比如 90°）或補充幾何信息，這樣能避免理解偏差；總體來說，Kimi 的回答簡單明了。

豆包回答更注重細節(jié)。它明確指出旋轉角度模糊、缺少等量關系線索等問題，給出具體修改建議，比如將“繞 B 點逆時針旋轉任意角度”改為“旋轉 45°”，或者增加三角形面積比等條件。

它的回答怎么評價呢？

Kimi結構化清晰，列出幾點就沒了；豆包，則會在條目上進行一步展開動作，內容更豐富一些。

通義千問 2.5 的表現有些矛盾。它一開始說問題沒有邏輯錯誤，但又指出條件中 CE 和 ED 的長度與旋轉角度不匹配。這種前后不一致讓我有點困惑。

再說說訊飛星火模型，它在糾錯方面表現一般，會直接還原解題思路，但幾乎沒有排查問題，即使調整提示詞，結果還是一樣，和其他模型的表現有明顯差距。

對于夸克，體驗感受是這樣，它網頁版只有搜題、上傳圖片來解題這倆功能，不像其他智能體能直接把問題發(fā)給它，再給提示詞讓幫忙解題。

缺了過程就限制了互動性。只能換種形式，對著電腦拍張圖片給它；不過它的解題能力很強，能根據缺少的條件生成多個答案，并還原出對應的解題思路。

知乎知答倒是挺意外，雖然它沒宣傳解題功能，但它不僅能解決問題，還能糾錯。

一部分答案依賴搜索，另一部分通過生成完成，它還能直接指出題目中模糊的地方，加入修正設想。不過它的回答沒有 Kimi 或豆包那樣條理清晰，可能是訓練數據不足的原因。

8個模型，整體糾錯下來，ChatGPT 4.o和Kimi水平相當，回答清晰，ChatGPT o1-preview和豆包細節(jié)更豐富，展開更多。

通義千問 2.5 表現模糊，訊飛星火在糾錯方面還需提升，夸克解題能力強，但互動性差。知乎知答算是意外之喜，能解題糾錯，但條理性稍弱。

以上是我和團隊另一位伙伴測試中的個人體驗，如果認為不準，也可以親自測試一下模型中的表現。

測試完后，我查了一下，這道題如果出現在試卷里通常會明確說明旋轉角度。但在我的測試中，這個條件沒有給出，所以問題本身確實有些模糊。

也正因如此，我更覺得，明確和梳理清楚問題才能找到答案。

03‍

大模型卷數學能力蠻重要，為什么重要？理由有很多，不過，從我的感受上認為有兩個值得關注下。

第一點：教育‍

家長們輔導孩子做作業(yè)已經夠費勁了，尤其是數學題，將來你有了孩子，遇到難題想用AI幫忙，結果幾個模型給出的答案都不一樣，那得多讓人焦慮？

從大方面看，解題思路可以有很多種，但答案必須準確無誤。因為數學是嚴格按照邏輯規(guī)則來的學科，從公理到定理，每一步推導都要精確，數學結論出錯了，接下來的推導可能全錯。

我們可以想象一個實際場景。比如：工程設計。

某天我們用 AI 模型幫忙計算關鍵數據，結果有偏差，那施工時是不是會直接釀成事故？

還有一點，我感覺數學模型的實際應用場景比語言模型更多，從金融分析到天氣預測，從自動駕駛到工程設計，哪一樣離得開精確的數學運算？

第二點：模型本身

過去幾年，大語言模型學了不少東西，比如語言、語義和情感表達。這就像一個剛出生的孩子，最初大腦充滿了對情感、語言和人際交流的敏感性。

但接下來，模型要進入更高層次的認知發(fā)展階段，就像孩子逐漸開始上學，學習數學、科學等邏輯性更強的東西。

這個階段，好比大腦的“系統(tǒng)2”，更高級的理性思考能力。系統(tǒng)2的作用是什么？深入理解、推理和解決復雜問題的基礎。

如果模型在理科上不夠精準，那怎么能指望它在復雜的任務中表現得好呢？所以，數學是對系統(tǒng)2的極限測試，因為數學不容模糊，要么對，要么錯，沒有中間地帶。

更進一步說，大語言模型不能只會講故事、安慰人，它得成為一個會計算的“科學家”或者“工程師”，這樣才能解決更高層次的問題，而這一切都要靠數學能力。

04‍

我注意到除Kimi外，還有不少大公司推出了專門提升數學能力的大模型。

比如：好未來的MathGPT，它主要為全球的數學愛好者和科研機構服務的，主要做搜題和答題，屬于千億級別的大模型。

百川智能的Baichuan 4，主要關注金融行業(yè)，能做風險評估和交易策略分析，已經和用友、軟通動力、新致軟件、達觀數據、華勝天成等伙伴合作了。

阿里云的Qwen2-Math是個開源模型，專門用來解數學題。雖然它還沒公布具體客戶，但在學術研究和競賽培訓中經常看到它的影子。

除此之外，還有云從科技的從容大模型和MiniMax的abab6.5等等。它們有的專注政府領域，有的更偏向制造業(yè)，以前，這些公司大多通過大模型或者某個具體應用場景來讓大家了解。

現在AI在個人用戶端應用競爭，已經變得有些局限了。

因為主要集中在搜索、對話、寫作、代碼生成這幾個領域，AI的極致體驗，更多是從搜索開始，然后逐步建立起搜集、應用、輸出的完整流程。

這種局限讓AI的潛力還沒有完全發(fā)揮出來，實際上數學模型的應用場景要比文科類、代碼生成要廣泛得多；不信，只要思考一個場景就夠了：

上班時，無論是財務、運營還是市場決策，幾乎所有公司每天都離不開數據。

管理者們關注的是什么？是各種報表上的ROI指標，是增長率、轉化率，是用數字來衡量業(yè)務健康狀況的關鍵指標。

這些數字背后，靠強大的數學分析、預測和建模能力。

進一步來說，這種能力在更大的層面甚至關系到供給側的優(yōu)化。比如，企業(yè)如何通過數據優(yōu)化供應鏈，降低庫存成本，同時提升交付效率？

如何用數學模型分析市場需求波動，及時調整生產計劃？這些都是企業(yè)面臨的核心問題，而解決問題的關鍵，正是強大的數學建模能力。

所以，數學模型意義早已超越學科本身，它是推動經濟發(fā)展，加速商業(yè)效率的支柱，AI模型卷數學，無疑能讓能力邁向新高度。

總結

未來，誰更勝一籌呢？

不太好定義，不過，我認為，在比能力這件事上，不如多思考一下，如何進入某個領域拿到數據，畢竟數據是訓練模型重要的語料。

本文系作者：王智遠授權發(fā)表，鳥哥筆記平臺僅提供信息存儲空間服務。

本文為作者獨立觀點，不代表鳥哥筆記立場，未經允許不得轉載。

《鳥哥筆記版權及免責申明》如對文章、圖片、字體等版權有疑問，請點擊反饋舉報

關鍵詞

競速低空經濟，天和防務亮出“殺手锏”

華為“四界”集結，154只核心概念股誰最“?！?？

文章推薦

AI繪畫升溫、AI寫作降溫，AIGC玩“變臉”

金融外參 2022-09-28

47984

虛擬人四大難題：技術、產品、市場、中之人 | 虛擬人專欄

突破AI“成本紅線”，打造AI企業(yè)新基本盤

摩根商研所 2022-08-07

89619

2022年中國人工智能產業(yè)生態(tài)圖譜

王智遠

關注

公眾號二維碼

分享到朋友圈

評分

綜合評分：

我的評分

Xinstall 15天會員特權

Xinstall是專業(yè)的數據分析服務商，幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導等，廣泛應用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。

20羽毛

立即兌換

一書一課30天會員體驗卡

領30天VIP會員，110+門職場大課，250+本精讀好書免費學！助你提升職場力！

20羽毛

立即兌換

順豐同城急送全國通用20元優(yōu)惠券

順豐同城急送是順豐推出的平均1小時送全城的即時快送服務，專業(yè)安全，準時送達！

30羽毛

立即兌換

王智遠

發(fā)表文章597篇

暢銷書《復利思維》作者；關注新電商零售、品牌、營銷和認知學科等內容；陪你做穿越周期的成長者。

作者最近文章查看更多

行業(yè)動態(tài) 2025-02-27

熱門文章

網紅（KOL）營銷推廣怎么做？4000字干貨獻上

三維推 2021-01-19

產品游戲化框架：八角行為分析法

首席吹牛官 2021-01-07

這類家具很賺錢，匯森家居半年賣了15億，又一波造富潮

藍海億觀網 2021-01-13

小紅書攻略 | 打造美食爆款筆記的三大方法

拼多多的自殺式公關和華與華的“品牌失靈論”

Nicole 2021-01-12

賬戶體系：一文助你看透賬號體系與賬戶體系的區(qū)別

熱門標簽查看更多

運營推廣美團數據統(tǒng)計藍月亮職場搜索熱度打開率整合營銷海外營銷中視頻

推薦回答查看更多

大家能說說都是怎么理解社群運營這個崗位的嗎？直播團隊的組織結構是怎樣的？如何才能做好社群運營工作？微信視頻號的審核機制是怎樣的？微信視頻號的變現途徑有哪些？

確認要消耗羽毛購買
AI開卷數學模型，哪家強？嗎？

考慮一下

立即下載

很遺憾，羽毛不足

我知道了

去賺羽毛

我們致力于提供一個高質量內容的交流平臺。為落實國家互聯網信息辦公室“依法管網、依法辦網、依法上網”的要求，為完善跟帖評論自律管理，為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍，我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容，同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。

一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī)，對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息，主要表現為：
1)反對憲法所確定的基本原則；
2)危害國家安全，泄露國家秘密，顛覆國家政權，破壞國家統(tǒng)一，損害國家榮譽和利益；
  3)侮辱、濫用英烈形象，歪曲、丑化、褻瀆、否定英雄烈士事跡和精神，以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽；
  4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動；
  5)煽動民族仇恨、民族歧視，破壞民族團結；
  6)破壞國家宗教政策，宣揚邪教和封建迷信；
  7)散布謠言，擾亂社會秩序，破壞社會穩(wěn)定；
  8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪；
  9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序；
  10)侮辱或者誹謗他人，侵害他人名譽、隱私和其他合法權益；
  11)通過網絡以文字、圖片、音視頻等形式，對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的；
  12)危害未成年人身心健康的；
  13)含有法律、行政法規(guī)禁止的其他內容；

2. 不友善：不尊重用戶及其所貢獻內容的信息或行為。主要表現為：
  1)輕蔑：貶低、輕視他人及其勞動成果；
  2)誹謗：捏造、散布虛假事實，損害他人名譽；
  3)嘲諷：以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述，以此來激怒他人；
  4)挑釁：以不友好的方式激怒他人，意圖使對方對自己的言論作出回應，蓄意制造事端；
  5)羞辱：貶低他人的能力、行為、生理或身份特征，讓對方難堪；
  6)謾罵：以不文明的語言對他人進行負面評價；
  7)歧視：煽動人群歧視、地域歧視等，針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊；
  8)威脅：許諾以不良的后果來迫使他人服從自己的意志；

3. 發(fā)布垃圾廣告信息：以推廣曝光為目的，發(fā)布影響用戶體驗、擾亂本網站秩序的內容，或進行相關行為。主要表現為：
  1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式：
  2)單個帳號多次發(fā)布包含垃圾廣告的內容；
  3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容；
  4)多次發(fā)布包含欺騙性外鏈的內容，如未注明的淘寶客鏈接、跳轉網站等，誘騙用戶點擊鏈接
  5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光；
  6)購買或出售帳號之間虛假地互動，發(fā)布干擾網站秩序的推廣內容及相關交易。
  7)發(fā)布包含欺騙性的惡意營銷內容，如通過偽造經歷、冒充他人等方式進行惡意營銷；
  8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。

4. 色情低俗信息，主要表現為：
  1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述；
  2)涉及色情段子、兩性笑話的低俗內容；
  3)配圖、頭圖中包含庸俗或挑逗性圖片的內容；
  4)帶有性暗示、性挑逗等易使人產生性聯想；
  5)展現血腥、驚悚、殘忍等致人身心不適；
  6)炒作緋聞、丑聞、劣跡等；
  7)宣揚低俗、庸俗、媚俗內容。

5. 不實信息，主要表現為：
  1)可能存在事實性錯誤或者造謠等內容；
  2)存在事實夸大、偽造虛假經歷等誤導他人的內容；
  3)偽造身份、冒充他人，通過頭像、用戶名等個人信息暗示自己具有特定身份，或與特定機構或個人存在關聯。

6. 傳播封建迷信，主要表現為：
  1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br />   2)求推薦算命看相大師；
  3)針對具體風水等問題進行求助或咨詢；
  4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失，包括通過占卜方法問婚姻、前程、運勢，東西寵物丟了能不能找回、取名改名等；

7. 文章標題黨，主要表現為：
  1)以各種夸張、獵奇、不合常理的表現手法等行為來誘導用戶；
  2)內容與標題之間存在嚴重不實或者原意扭曲；
  3)使用夸張標題，內容與標題嚴重不符的。

8.「飯圈」亂象行為，主要表現為：
  1)誘導未成年人應援集資、高額消費、投票打榜
  2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
  3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
  4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
  5)通過「蹭熱點」、制造話題等形式干擾輿論，影響傳播秩序

9. 其他危害行為或內容，主要表現為：
  1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的；
  2)不當評述自然災害、重大事故等災難的；
  3)美化、粉飾侵略戰(zhàn)爭行為的；
  4)法律、行政法規(guī)禁止，或可能對網絡生態(tài)造成不良影響的其他內容。

二、違規(guī)處罰
本網站通過主動發(fā)現和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時，本網站將依據相關用戶違規(guī)情節(jié)嚴重程度，對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號，或者濫用多個帳號發(fā)布違規(guī)內容時，本網站將加重處罰。

三、申訴
隨著平臺管理經驗的不斷豐富，本網站出于維護本網站氛圍和秩序的目的，將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議，可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)

我知道了