同日,蘋果中國區(qū)應(yīng)用商店免費(fèi)榜顯示, DeepSeek成為中國區(qū)第一。
馮驥:“震撼的突破”
1月26日,游戲科學(xué)創(chuàng)始人、CEO, 《黑神話:悟空》制作人馮驥評價(jià)DeepSeek:可能是個(gè)國運(yùn)級別的科技成果。
馮驥表示:“希望DeepSeek R1會讓你對當(dāng)前最先進(jìn)的AI祛魅,讓AI逐漸變成你生活中的水和電。太幸運(yùn)了!太開心了!這樣震撼的突破,來自一個(gè)純粹的中國公司。知識與信息平權(quán),至此又往前邁出了堅(jiān)實(shí)的一步。”
DeepSeek是啥?
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月17日,是一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。
去年12月DeepSeek-V3發(fā)布后,AI數(shù)據(jù)服務(wù)公司Scale AI創(chuàng)始人Alexander Wang就發(fā)帖稱,DeepSeek-V3是中國科技界帶給美國的苦澀教訓(xùn)。“當(dāng)美國休息時(shí),中國(科技界)在工作,以更低的成本、更快的速度和更強(qiáng)的實(shí)力趕上。”
不到一個(gè)月之后,今年1月20日,DeepSeek正式開源R1推理模型。
據(jù)DeepSeek介紹, 其最新發(fā)布的模型DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。
這一模型發(fā)布后,引發(fā)了海外AI圈眾多科技大佬的討論。例如,英偉達(dá)高級研究科學(xué)家Jim Fan就在個(gè)人社交平臺上公開發(fā)表推文表示:“我們正身處這樣一個(gè)歷史時(shí)刻:一家非美國公司正在延續(xù)OpenAI最初的使命——通過真正開放的前沿研究賦能全人類??此撇缓铣@?,但最有趣的結(jié)局往往最可能成真。”
DeepSeek寫春聯(lián) 圖源:證券時(shí)報(bào)
為什么DeepSeek能出圈?
在硅谷, DeepSeek很早就被稱作“來自東方的神秘力量”,也是網(wǎng)上熱議的“杭州六小龍”之一。
真正讓DeepSeek火出圈的是2024年12月26日,這家公司宣布上線并同步開源的 DeepSeek-V3模型,并公布了長達(dá)53頁的訓(xùn)練和技術(shù)細(xì)節(jié)。
它以1/11的算力、僅2000個(gè)GPU芯片訓(xùn)練出性能超越GPT-4o的大模型。 其總訓(xùn)練成本只有557.6萬美元,而GPT-4o的約為1億美元,使用25000個(gè)GPU芯片。雙方的成本至少是10倍的差距。
在性能上,DeepSeek-V3在數(shù)學(xué)、代碼能力和中文知識問答方面還超過了ChatGPT-4o。