五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

　　每经记者郑雨(yǔ)航每(měi)经实习记者(zhě) 岳楚鹏每(měi)经编辑兰素(sù)英

　　传说中(zhōng)的(de)“草莓”模型今天在(zài)没有任何预告下忽然上线了！

　　OpenAI最(zuì)新发布的模型名为(wèi)o1，是系列推理模型的首批(pī)版本，现阶段(duàn)推出的是o1-preview（预览版）和o1-mini（迷你版）。

　　目前，o1-preview和o1-mini已(yǐ)经面向ChatGPT Plus和Team订阅用户开放，而Enterprise和Edu用户(hù)将于下(xià)周(zhōu)初获得访问权限。OpenAI表示，它计划向ChatGPT的所有免费用户提供o1-mini访问权限，但尚(shàng)未确定发布(bù)日期(qī)。

　　据(jù)OpenAI介绍(shào)，在解决问(wèn)题的能力方面，o1模型比以往任何模型都更接(jiē)近人类思维，并且能够“推理(lǐ)”数学、编码和科学任务。

　　为了验证(zhèng)新(xīn)模型的能力是否正如OpenAI所宣称的那么强大，《每日经济新闻》记者从经典“草(cǎo)莓测试”、代码编写、小游戏制作(zuò)、数学与经济学(xué)，以及事实性(xìng)知(zhī)识这五大维度对(duì)o1-preview模型进行(xíng)了测试(shì)。

　　结果显示，o1-preview表现出了(le)超越OpenAI之前发布(bù)的(de)大模型的(de)编程和数学推理能力。例如(rú)，o1-preview能够编写出流畅运行(xíng)的代码，并(bìng)且在(zài)复杂环境中依(yī)然能够自行推理出(chū)解决方案。而且，记者在测试过程中也感觉(jué)到，o1-preview在人(rén)性(xìng)化方面也有很大的提升，表现(xiàn)出了真人般(bān)的(de)思考。不过，新模(mó)型也并非毫无缺点(di五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”ǎn)，在事(shì)实性知识测试就“翻(fān)车”了。

　　当地时间9月12日，OpenAI发布了一款名为o1的新模(mó)型，这是(shì)其计(jì)划中一(yī)系列“推理”模型中的第(dì)一个版本(běn)，也是此前业界盛传(chuán)已久的“草莓”模型。

　　对(duì)于OpenAI来说，o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为，o1代(dài)表着一种(zhǒng)全新的能力，这一(yī)能力被认为如(rú)此重要，以至于公司决定从当前的GPT-4模型重新开始，完全放弃了“GPT”品牌，从(cóng)1开始(shǐ)命名。

　　OpenAI表示，将从当前的GPT-4模型重新开始，“将计数器重置为(wèi) 1”，甚(shèn)至放弃了迄今(jīn)为止(zhǐ)定义了聊天(tiān)机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过(guò)一系列离(lí)散步骤(zhòu)，谨(jǐn)慎而合乎逻辑地解决问题的(de)系统(tǒng)，每个步骤都建立在上一个步(bù)骤的(de)基础上，类似于人类的(de)推理(lǐ)方式。

　　OpenAI首席科学家Jakub Pachocki表示，之前(qián)的模(mó)型在收到用户问询时会立即开始回(huí)答。“而这个模型（指的是o1）会慢慢来。它思(sī)考问题，并尝试分解问题，寻找角(jiǎo)度(dù)，努力提(tí)供最佳答案。”这就像大多数人在幼(yòu)年时被父(fù)母所要求的那样，先想好再说话。

　　OpenAI表示，o1在竞(jìng)赛编程(chéng)问(wèn)题（Codeforces）中排(pái)名第89个百分点(diǎn)，在美国数学(xué)奥林匹克竞(jìng)赛（AIME）预选(xuǎn)赛中位列美国前500名学生之列，并且在物理、生物和化学问(wèn)题的基(jī)准测试（GPQA）中超(chāo)过了人类博士水平的准确度。

　　在OpenAI发布的研究和博客文章中，o1看起来“推理”能力十分强(qiáng)大，不仅可解决高级数学和编码问(wèn)题，还能解密复杂的密码，以及解答来自专(zhuān)家学者们关(guān)于遗传学、经济学和量子物理学的复(fù)杂问(wèn)题。大(dà)量图表显示(shì)，在内(nèi)部评估(gū)中，o1在编(biān)码、数学和各个(gè)科学领域的问题上已(yǐ)经超(chāo)越了公司最先(xiān)进的语言模型GPT-4o，甚至可能超越了(le)人类。

　　为了(le)深入了解(jiě)o1模型的强大能力，《每日经济新闻》记者从经典草莓测试(shì)、代(dài)码编写、小游戏制作、数学与经济学，以及事实性知识这五大维度对(duì)o1-preview模型进行了测试。

　　1）草莓测试

　　首先，记(jì)者用之前几乎所有大模(mó)型(xíng)都“翻车”的一道简单题目进行了测试，即“单词strawberry里面到底有几个r”。从生成的结果看，五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”o1-preview还是带来了一点小惊喜(xǐ)的。

　　2）代码编写

　　记者首先向o1-preview询(xún)问了一个(gè)在线编程平台leetcode里最有名的简单算法题：Two Sum（两数之和）问题。o1给出了很详尽(jǐn)的推理过程和答案。

　　随后记者故意要求优化答案，o1在思考(kǎo)9秒后意识到自己提供(gōng)的已经是最优解(jiě)法了，并就此进行了说明(míng)，另外还很“贴心”地提(tí)供了一个次优解。而在之前记(jì)者对其他模型的测试中，这些模型只会道(dào)歉然后将答案更改(gǎi)为次(cì)优解。

　　3）小游戏制作

　　在o1模型的演示(shì)中(zhōng)，OpenAI演示过“用(yòng)一(yī)句话编(biān)写小游戏”的功能(néng)。测试过程中，记者(zhě)让o1-preview帮忙介绍好用的(de)代码工(gōng)具，并(bìng)协助编写(xiě)一个乒乓小游戏(xì)。

　　o1-preview仅用(yòng)了19秒就给出了一份能够流(liú)畅运行(xíng)的(de)代码，并且附上了学习指南和鼓励的话语，非常(cháng)地人(rén)性(xìng)化。

　　为(wèi)避免(miǎn)o1-preview作弊，使用的(de)是记忆能力，而不(bù)是使用推(tuī)理能力进行回答，记(jì)者还请求o1-preview更换了一个代(dài)码运(yùn)行环境：jupyter note。这一运行环境(jìng)是针对数据分析进行特化(huà)的(de)python环境，开发人员基本不会使用此环境开发(fā)小游戏。

　　经过思考(kǎo)后，o1依然给出了(le)一个可以(yǐ)运行的代码(mǎ)。不过(guò)，相较于之前的代码，这份答案有着不少的bug，但这(zhè)也从(cóng)侧面说明这确(què)实是思考出来的答案，而(ér)不是训练过程中加入的(de)标(biāo)准答案。

　　为进一步验证o1-preview的创(chuàng)新推理能力，记者(zhě)随后又要求(qiú)模型在这(zhè)个(gè)小游(yóu)戏的基础上开发一个(gè)更复杂有趣的小游戏。

　　这下，o1的表现真的有点惊喜(xǐ)。根(gēn)据乒乓游戏的碰(pèng)撞(zhuàng)机制，该模型(xíng)自行(xíng)迭(dié)代出了(le)一个向(xiàng)上登高的跳跃(yuè)游戏。一般(bān)其他大模型需要用户把需求描述清楚才会输出一个比较好的答案，但记者在这次测试中没有进行(xíng)任(rèn)何(hé)的额外提(tí)示，o1就输出了一(yī)个能流畅运行，并且在(zài)记者眼(yǎn)中看来也足够有(yǒu)趣(qù)的小游戏。

　　4）科学类测试

　　在科学类测试方面，记者(zhě)重点测试了o1-preview在数学和经济学上的表(biǎo)现。

　　首先，记者抛出的(de)是一个数学推理问题，向o1-preview询问解决欧拉方(fāng)程(chéng)有限(xiàn)时(shí)间爆破的可能方法（这是著名(míng)华裔数学家、菲尔(ěr)兹奖得主陶哲轩教授本(běn)周才发表的讨论文章）。

　　o1虽然没有给出明确解法，但却提供了一个(gè)解题思路，这一思路和陶(táo)哲轩教授文章部分吻合（虽然很少）。

　　经济学方向上，记者向o1-preview询问了一个复杂的经济系统问题。从给出的反馈看，基本没有什么太大(dà)的问题，整体逻辑清晰，思考(kǎo)维(wéi)度也是多样化的(de)，给(gěi)出的数学(xué)公式虽然有一点小差错但是无(wú)伤大体。

　　5）事实性知识与(yǔ)语言理解(jiě)

　　在这(zhè)一环节，记者向o1-preview询问了明朝(cháo)第(dì)一(yī)任皇帝的趣事，但(dàn)o1就将趣(qù)事理解成了历史上实际发生(shēng)过的事(shì)情，将朱元璋的历史故(gù)事整(zhěng)个(gè)叙述了(le)出(chū)来。

　　同时，记者也将这(zhè)一问题丢给了(le)GPT-4o模(mó)型，作为(wèi)对比，GPT-4o能很好地理解记者的问题，并讲了两个流传很广的民间小故事。

　　总体来看(kàn)，OpenAI宣称o1模型能接近人类水平在某些方(fāng)面(miàn)上看起来并不是虚话。

　　最(zuì)让记者惊喜(xǐ)的是，OpenAI将模型思考(kǎo)的过程用文字展示给了用户(hù)，文字思(sī)考过程中，大模型(xíng)大量使用了“我正(zhèng)在”“我认为”“我打算(suàn)”等话语，感觉更(gèng)加拟人化，就像一个真人在用(yòng)户面前阐述自己的(de)思考逻辑一般。

　　但这也并不意味着o1模型就是完美的。OpenAI也承认，在设计(jì)、写作(zuò)、编辑文字等方面上，o1远不如GPT-4o。o1也没有浏览网页或处理文件和图像的(de)能力。

　　而最让记者(zhě)感到头疼的是(shì)，即使(shǐ)是一个很简单的请(qǐng)求，比如说将输出结果转换(huàn)为中文，o1都会(huì)消耗十几秒钟的(de)时间(jiān)来思考，而GPT4o就(jiù)会很快处理好(hǎo)这一请求。

　　就算在OpenAI的优势领(lǐng)域中，o1模型也会突然(rán)出现性能下降，模型输出懒惰的情况(kuàng)。已离职(zhí)的OpenAI创始人Karpathy就吐(tǔ)槽道(dào)：“它一直拒绝为我解决黎(lí)曼假说。模型懒(lǎn)惰仍然是一个(gè)主要问题。”

　　OpenAI表示，公司会在之后的更新中解决这些问题，毕竟现在这只是推理模型的早期预览。

责(zé)任编(biān)辑：刘明(míng)亮

未经允许不得转载：天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”