2023年11月6日,由創(chuàng )新工場(chǎng)董事長(cháng)兼CEO李開(kāi)復成立的AI公司“零一萬(wàn)物”發(fā)布了首款開(kāi)源中英雙語(yǔ)大模型“Yi”。與此同時(shí),36氪從知情人士處獲悉,零一萬(wàn)物已完成新一輪融資,由阿里云領(lǐng)投。目前,零一萬(wàn)物估值已超10億美元,躋身獨角獸行列。
此前,“Yi”于11月2日已經(jīng)在Hugging Face低調上傳了兩個(gè)參數規模分別為6B和34B的基礎模型。截至11月5日,Yi-34B分別在Hugging Face LLM Leaderboard(pretrained)(預訓練大語(yǔ)言模型)和中文大模型榜單C-Eval排行榜已經(jīng)爬升到1位。
上下文窗口,意味著(zhù)模型的“記憶力”。據介紹,Yi目前擁有200K上下文窗口,可處理約40萬(wàn)字的文本——這也是目前全球大模型中最長(cháng)的上下文窗口。
李開(kāi)復提到,由于GPU緊缺,當模型尺寸從6B推向更大的尺寸時(shí),團隊需要把握好規模減少試錯成本,不能一味追求“大”。通過(guò)打磨AI Infra,Yi-34B將訓練成本下降了40%,“別的友商如果要用2000張GPU,我們只要1200張?!?/p>
Yi的訓練數據主要來(lái)源于公開(kāi)語(yǔ)料的爬取和數據庫。李開(kāi)復介紹,訓練數據的難點(diǎn)在于重復率高、質(zhì)量低。通過(guò)清晰,團隊從100多T的數據中篩選出了3T。由于中文語(yǔ)料的質(zhì)量較低,目前,Yi的訓練數據中英文語(yǔ)料的比例高于中文語(yǔ)料。
那么Yi的能力究竟幾何?在測評中,零一萬(wàn)物參考了Meta開(kāi)源模型Llama2能力測評中所用到的PIQA、SIQA、HellaSwag、WinoGrande等多個(gè)數據集,來(lái)評估Yi的“常識推理能力”“閱讀理解能力”“數學(xué)與代碼能力”等多維度能力。
結果顯示,Yi-6B在常識推理能力和閱讀理解能力上達到了國內外開(kāi)源模型的平均水平,但在數學(xué)與代碼能力上還較弱。Yi-34B在常識推理能力和閱讀理解能力上均大幅領(lǐng)先國內外開(kāi)源模型,在數學(xué)與代碼能力上處于領(lǐng)先水平。
相較于市面上常見(jiàn)的參數規模7B、13B,零一萬(wàn)物給出的是6B和34B的方案。李開(kāi)復認為,34B的尺寸屬于開(kāi)源大模型稀缺的“黃金比例”尺寸,達到“涌現”門(mén)檻、滿(mǎn)足精度要求的同時(shí),對廠(chǎng)商而言能夠采用高效率單卡推理,訓練成本友好。
李開(kāi)復坦言,在完成融資前,零一萬(wàn)物為了覆蓋算力等訓練成本已經(jīng)負債幾千萬(wàn)美元。這也側面反映出李開(kāi)復All in AI的決心。
作為零一萬(wàn)物的發(fā)起人,李開(kāi)復也可謂是中國人工智能的領(lǐng)軍人物之一。他曾先后擔任微軟全球副總裁、谷歌全球副總裁兼大中華區總裁,并在2009年創(chuàng )立了天使投資和企業(yè)孵化平臺創(chuàng )新工場(chǎng)。
2023年3月,李開(kāi)復躬身入局大模型賽道,為籌建新公司零一萬(wàn)物廣發(fā)“英雄帖”:“零一萬(wàn)物歡迎有AI 2.0技術(shù)實(shí)力和AGI信仰的優(yōu)秀人才加入,一起打造AI2.0全新平臺,加速AGI到來(lái)?!钡?月,零一萬(wàn)物已有來(lái)自阿里、百度、谷歌、微軟等國內外公司的數十位核心成員到位。發(fā)布會(huì )上,李開(kāi)復介紹,“(團隊)在6、7月份寫(xiě)的第一行代碼?!?/p>
如今,零一萬(wàn)物已經(jīng)集結了國內外一批人工智能領(lǐng)域的大牛:
比如零一萬(wàn)物AI Infra副總裁戴宗宏,曾是阿里達摩院機器智能技術(shù)資深算法專(zhuān)家,以及華為云人工智能領(lǐng)域CTO。在阿里期間,他構建了阿里巴巴搜索引擎平臺,后帶領(lǐng)團隊研發(fā)了圖像搜索應用拍立淘。
再比如,零一萬(wàn)物預訓練負責人黃文灝來(lái)自智源人工智能研究院,曾擔任健康計算研究中心技術(shù)負責人。加入智源前,他曾任微軟亞洲研究院研究員,負責自然語(yǔ)言理解、實(shí)體抽取、對話(huà)理解以及人機協(xié)同等研究工作。加入零一萬(wàn)物后,黃文灝團隊主要負責Yi的訓練。
李開(kāi)復認為,AI 2.0時(shí)代,最大的商機將出現在To C/消費級的超級應用。他提到,互聯(lián)網(wǎng)時(shí)代的Super App微信和抖音的第一個(gè)版本并不是Super App,而是準確捕捉了用戶(hù)的需求。而零一萬(wàn)物的目標是在A(yíng)I 2.0時(shí)代再做一款微信、抖音。
具體到零一萬(wàn)物的商業(yè)規劃,李開(kāi)復告訴36氪,AI 1.0時(shí)代無(wú)法商業(yè)化的公司很早被淘汰,而商業(yè)化的公司的最大挑戰是能夠可持續、可增長(cháng)——這意味著(zhù)AI 1.0的不少公司需要人頭規模,不是高質(zhì)量的收入。
他強調,收入的規?;粦撚萌祟^推動(dòng),而應該用技術(shù)推動(dòng)?!耙源藶樵瓌t,零一萬(wàn)物將朝著(zhù)Consumer(消費級)應用發(fā)力?!笨紤]到國內用戶(hù)的付費意識和意愿尚在培養階段,零一萬(wàn)物將同時(shí)考慮應用的本地化和出海。
目前,零一萬(wàn)物已經(jīng)啟動(dòng)100B以上參數規模的模型訓練,而多模態(tài)大模型團隊已經(jīng)集結了十多個(gè)人?!皫字苤畠任覀兙陀行碌陌l(fā)布和大家分享?!崩铋_(kāi)復透露,“Yi”的定位是通用底座,同時(shí),Yi系列量化版本、對話(huà)模型、數學(xué)模型、代碼模型、多模態(tài)模型將以快節奏推出。