五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”
每经记者 郑雨(yǔ)航 每(měi)经实习记者(zhě) 岳楚鹏 每(měi)经编辑 兰素(sù)英
传说中(zhōng)的(de)“草莓”模型今天在(zài)没有任何预告下忽然上线了!
OpenAI最(zuì)新发布的模型名为(wèi)o1,是系列推理模型的首批(pī)版本,现阶段(duàn)推出的是o1-preview(预览版)和o1-mini(迷你版)。
目前,o1-preview和o1-mini已(yǐ)经面向ChatGPT Plus和Team订阅用户开放,而Enterprise和Edu用户(hù)将于下(xià)周(zhōu)初获得访问权限。OpenAI表示,它计划向ChatGPT的所有免费用户提供o1-mini访问权限,但尚(shàng)未确定发布(bù)日期(qī)。
据(jù)OpenAI介绍(shào),在解决问(wèn)题的能力方面,o1模型比以往任何模型都更接(jiē)近人类思维,并且能够“推理(lǐ)”数学、编码和科学任务。
为了验证(zhèng)新(xīn)模型的能力是否正如OpenAI所宣称的那么强大,《每日经济新闻》记者从经典“草(cǎo)莓测试”、代码编写、小游戏制作(zuò)、数学与经济学(xué),以及事实性(xìng)知(zhī)识这五大维度对(duì)o1-preview模型进行(xíng)了测试(shì)。
结 果显示,o1-preview表现出了(le)超越OpenAI之前发布(bù)的(de)大模型的(de)编程和数学推理能力。例如(rú),o1-preview能够编写出流畅运行(xíng)的代码,并(bìng)且在(zài)复杂环境中依(yī)然能够自行推理出(chū)解决方案。而且,记者在测试过程中也感觉(jué)到,o1-preview在人(rén)性(xìng)化方面也有很大的提升,表现(xiàn)出了真人般(bān)的(de)思考。不过,新模(mó)型也并非毫无缺点(di五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”ǎn),在事(shì)实性知识测试就“翻(fān)车”了。
当地时间9月12日,OpenAI发布了一款名为o1的新模(mó)型,这是(shì)其计(jì)划中一(yī)系列“推理”模型中的第(dì)一个版本(běn),也是此前业界盛传(chuán)已久的“草莓”模型。
对(duì)于OpenAI来说,o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为,o1代(dài)表着一种(zhǒng)全新的能力,这一(yī)能力被认为如(rú)此重要,以至于公司决定从当前的GPT-4模型重新开始,完全放弃了“GPT”品牌,从(cóng)1开始(shǐ)命名。
OpenAI表示,将从当前的GPT-4模型重新开始,“将计数器 重置为(wèi) 1”,甚(shèn)至放弃了迄今(jīn)为止(zhǐ)定义了聊天(tiān)机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过(guò)一系列离(lí)散步骤(zhòu),谨(jǐn)慎而合乎逻辑地解决问题的(de)系统(tǒng),每个步骤都建立在上一个步(bù)骤的(de)基础上,类似于人类的(de)推理(lǐ)方式。
OpenAI首席科学家Jakub Pachocki表示,之前(qián)的模(mó)型在收到用户问询时会立即开始回(huí)答。“而这个模型(指的是o1)会慢慢来。它思(sī)考问题,并尝试分解问题,寻找角(jiǎo)度(dù),努力提(tí)供最佳答案。”这就像大多数人在幼(yòu)年时被父(fù)母所要求的那样,先想好再说话。
OpenAI表示,o1在竞(jìng)赛编程(chéng)问(wèn)题(Codeforces)中排(pái)名第89个百分点(diǎn),在美国数学(xué)奥林匹克竞(jìng)赛(AIME)预选(xuǎn)赛中位列美国前500名学生之列,并且在物理、生物和化学问(wèn)题的基(jī)准测试(GPQA)中超(chāo)过了人类博士水平的准确度。
在OpenAI发布的研究和博客文章中,o1看起来“推理”能力十分强(qiáng)大,不仅可解决高级数学和编码问(wèn)题,还能解密复杂的密码,以及解答来自专(zhuān)家学者们关(guān)于遗传学、经济学和量子物理学的复(fù)杂问(wèn)题。大(dà)量图表显示(shì),在内(nèi)部评估(gū)中,o1在编(biān)码、数学 和各个(gè)科学领域的问题上已(yǐ)经超(chāo)越了公 司最先(xiān)进的语言模型GPT-4o,甚至可能超越了(le)人类。
为了(le)深入了解(jiě)o1模型的强大能力,《每日经济新闻》记者从经典草莓测试(shì)、代(dài)码编写、小游戏制作、数学与经济学,以及事实性知识这五大维度对(duì)o1-preview模型进行了测试。
1)草莓测试
首先,记(jì)者用之前几乎所有大模(mó)型(xíng)都“翻车”的一道简单题目进行了测试,即“单词strawberry里面到底有几个r”。从生成的结果看,五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”o1-preview还是带来了一点小惊喜(xǐ)的。
2)代码编写
记者首先向o1-preview询(xún)问了一个(gè)在线编程平台leetcode里最有名的简单算法题:Two Sum(两数之和)问题。o1给出了很详尽(jǐn)的推理过程和答案。
随后记者故意要求优化答案,o1在思考(kǎo)9秒后意识到自己提供(gōng)的已经是最优解(jiě)法了,并就此进行了说明(míng),另外还很“贴心”地提(tí)供了一个次优解。而在之前记(jì)者对其他模型的测试中,这些模型只会道(dào)歉然后将答案更改(gǎi)为次(cì)优解。
3)小游戏制作
在o1模型的演示(shì)中(zhōng),OpenAI演示过“用(yòng)一(yī)句话编(biān)写小游戏”的功能(néng)。测试过程中,记者(zhě)让o1-preview帮忙介绍好用的(de)代码工(gōng)具,并(bìng)协助编写(xiě)一个乒乓小游戏(xì)。
o1-preview仅用(yòng)了19秒就给出了一份能够流(liú)畅运行(xíng)的(de)代码,并且附上了学习指南和鼓励的话语,非常(cháng)地人(rén)性(xìng)化。
为(wèi)避免(miǎn)o1-preview作弊,使用的(de)是记忆能力,而不(bù)是使用推(tuī)理能力进行回答,记(jì)者还请求o1-preview更换了一个代(dài)码运(yùn)行环境:jupyter note。这一运行环境(jìng)是针对数据分析进行特化(huà)的(de)python环境,开发人员基本不会使用此环境开发(fā)小游戏。
经过思考(kǎo)后,o1依然给出了(le)一个可以(yǐ)运行的代码(mǎ)。不过(guò),相较于之前的代码,这份答案有着不少的bug,但这(zhè)也从(cóng)侧面说明这确(què)实是思考出来的答案,而(ér)不是训练过程中加入的(de)标(biāo)准答案。
为进一步验证o1-preview的创(chuàng)新推理能力,记者(zhě)随后又要求(qiú)模型在这(zhè)个(gè)小游(yóu)戏的基础上开发一个(gè)更复杂有趣的小游戏。
这下,o1的表现真的有点惊喜(xǐ)。根(gēn)据乒乓游戏的碰(pèng)撞(zhuàng)机制,该模型(xíng)自行(xíng)迭(dié)代出了(le)一个向(xiàng)上登高的跳跃(yuè)游戏。一般(bān)其他大模型需要用户把需求描述清楚才会输出一个比较好的答案,但记者在这次测试中没有进行(xíng)任(rèn)何(hé)的额外提(tí)示,o1就输出了一(yī)个能流畅运行,并且在(zài)记者眼(yǎn)中看来也足够有(yǒu)趣(qù)的小游戏。
4)科学类测试
在科学类测 试方面,记者(zhě)重点测试了o1-preview在数学和经济学上的表(biǎo)现。
首先 ,记者抛出的(de)是一个数学推理问 题,向o1-preview询问解决欧拉方(fāng)程(chéng)有限(xiàn)时(shí)间爆破的可能方法(这是著名(míng)华裔数学家、菲尔(ěr)兹奖得主陶哲轩教授本(běn)周才发表的讨论文章)。
o1虽然没有给出明确解法,但却提供了一个(gè)解题思路,这一思路和陶(táo)哲轩教授 文章部分吻合(虽然很少)。
经济学方向上,记者向o1-preview询问了一个复杂的经济系统问题。从给出的反馈看,基本没有什么太大(dà)的问题,整体逻辑清晰,思考(kǎo)维(wéi)度也是多样化的(de),给(gěi)出的数学(xué)公式虽然有一点小差错但是无(wú)伤大体。
5)事实性知识与(yǔ)语言理解(jiě)
在这(zhè)一环节,记者向o1-preview询问了明朝(cháo)第(dì)一(yī)任皇帝的趣事,但(dàn)o1就将趣(qù)事理解成了历史上实际发生(shēng)过的事(shì)情,将朱元璋的历史故(gù)事整(zhěng)个(gè)叙述了(le)出(chū)来。
同时,记者也将这(zhè)一问题丢给了(le)GPT-4o模(mó)型,作为(wèi)对比,GPT-4o能很好地理解记者的问题,并讲了两个流传很广的民间小故事。
总体来看(kàn),OpenAI宣称o1模型能接近人类水平在某些方(fāng)面(miàn)上看起来并不是虚话。
最(zuì)让记者惊喜(xǐ)的是,OpenAI将模型思考(kǎo)的过程用文字展示给了用户(hù),文字思(sī)考过程中,大模型(xíng)大量使用了“我正(zhèng)在”“我认为”“我打算(suàn)”等话语,感觉更(gèng)加拟人化,就像一个真人在用(yòng)户面前阐述自己的(de)思考逻辑一般。
但这也并不意味着o1模型就是完美的。OpenAI也承认,在设计(jì)、写作(zuò)、编辑文字等方面上,o1远不如GPT-4o。o1也没有浏览网页或处理文件和图像的(de)能力。
而最让记者(zhě)感到头疼的是(shì),即使(shǐ)是一个很简单的请(qǐng)求,比如说将输出结果转换(huàn)为中文,o1都会(huì)消耗十几秒钟的(de)时间(jiān)来思考,而GPT4o就(jiù)会很快处理好(hǎo)这一请求。
就算在OpenAI的优势领(lǐng)域中,o1模型也会突然(rán)出现性能下降,模型输出懒惰的情况(kuàng)。已离职(zhí)的OpenAI创始人Karpathy就吐(tǔ)槽道(dào):“它一直拒绝为我解决黎(lí)曼假说。模型懒(lǎn)惰仍然是一个(gè)主要问题。”
OpenAI表示,公司会在之后的更新中解决这些问题,毕竟现在这只是推理模型的早期预览。
责(zé)任编(biān)辑:刘明(míng)亮
未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了