天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

  每(měi)经记者 郑雨航    每经实习记者 岳(yuè)楚鹏(péng)    每经编辑 兰素英    

  传说中(zhōng)的(de)“草莓”模型今天在没有任何预告下忽然上线了!

  OpenAI最新发布的模型名为o1,是系(xì)列(liè)推理模型的首批版本,现阶(jiē)段推出的是o1-preview(预览版)和o1-mini(迷你版

  目(mù)前,o1-preview和o1-mini已经面向ChatGPT Plus和Team订阅(yuè)用户开放,而Enterprise和(hé)Edu用户将于下周初获得访问权限。OpenAI表示(shì),它计划向ChatGPT的所有免费用户提供o1-mini访(fǎng)问权限,但尚未五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”确(què)定发布日期。

  据OpenAI介(jiè)绍,在解决问题的能力(lì)方面(miàn),o1模型(xíng)比(bǐ)以(yǐ)往任何模型都(dōu)更接近人类思维,并且能够“推理”数学、编码和科学任(rèn)务。

  为了验证新模型(xíng)的能(néng)力是否正如(rú)OpenAI所宣称的那么强大,《每日经济新闻》记(jì)者从 经典“草莓测(cè)试、代码编写、小游戏制作、数学与经济学,以及(jí)事实(shí)性知识这五大(dà)维度(dù)对o1-preview模型进(jìn)行了测试(shì)。

  结果显示,o1-preview表现出了(le)超越(yuè)OpenAI之前发布的大模型的编程和数学推理能力。例如,o1-preview能够编写出流(liú)畅运(yùn)行的代 码,并且在复(fù)杂环境中依然能够自行推理出解决方案。而(ér)且,记者在测试过程中也感觉到,o1-preview在人性化方面也有很大(dà)的提升(shēng),表现出了真人般的思考。不过,新模型也并非毫无缺点,在事实性知识测试就“翻车”了。 

  当地时间9月(yuè)12日,OpenAI发布了一款(kuǎn)名为(wèi)o1的新模型,这是其计划(huà)中一(yī)系列“推理”模型中的第一个版本,也是此前业界盛传已久的“草莓”模型。 

  对于OpenAI来说,o1代表(biǎo)着它朝着(zhe)类人AI的目标又迈出了(le)一步。OpenAI认为,o1代表着(zhe)一(yī)种全新的能力,这一能力被认为如此重要,以至于(y五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”ú)公司决定(dìng)从(cóng)当前的 GPT-4模(mó)型重新开(kāi)始(shǐ),完全放弃了“GPT”品牌(pái),从1开始命(mìng)名。 

  OpenAI表示,将从当前的(de)GPT-4模型重(zhòng)新开始,“将计数 器重置为 1”,甚至放(fàng)弃了迄今为 止(zhǐ)定(dìng)义了聊天机器人乃至整个生成式AI热潮的“GPT”品(pǐn)牌。o1建(jiàn)立了一个能够通过一系列离散步骤,谨慎而合乎逻(luó)辑(jí)地解决(jué)问题的系统,每个步骤都建(jiàn)立在上一个步骤的基础上(shàng),类似于人类的推理方式。

  OpenAI首席科学家Jakub Pachocki表示,之前的(de)模型在收(shōu)到用户问(wèn)询时会立即(jí)开始回答(dá)。“而这个模型(指的是o1)会慢慢来。它思考问题(tí),并尝试分解问题,寻找角度,努力提供最(zuì)佳(jiā)答(dá)案(àn)。”这就像大多(duō)数人在幼年时被父母所要求的(de)那样,先想好再说话。

  OpenAI表(biǎo)示,o1在(zài)竞赛编程问题(Codeforces)中排名第89个百分点,在美(měi)国数(shù)学(xué)奥林匹克竞赛(AIME)预选赛中位(wèi)列美国前500名学生(shēng)之 列,并且在(zài)物(wù)理、生(shēng)物(wù)和化(huà)学问题(tí)的基准测(cè)试(GPQA)中超过了人类博士水平(píng)的准确度(dù)

  在OpenAI发布的(de)研究和博客文章中,o1看起来“推(tuī)理”能力十分(fēn)强大,不仅可(kě)解决高级数学和编码问题(tí),还能(néng)解密复(fù)杂的密码,以及解答来自专家学者们关于遗传学、经济学和量子物理学的复杂问题。大量图表显(xiǎn)示,在内(nèi)部评估中,o1在(zài)编码、数学和各个科学领域的(de)问题上已经超越了公司最先进 的语言模 型GPT-4o,甚至可(kě)能超越了人类。

  为了深入(rù)了解 o1模型的强(qiáng)大能力,《每日(rì)经济新闻》记者从经典(diǎn)草莓测试、代码编(biān)写、小游戏制作、数学与经济学,以(yǐ)及事实性知识这五(wǔ)大维度对o1-preview模型进行(xíng)了测试。 

  1)草莓(méi)测试

  首先,记者用之(zhī)前几乎所有大模型都“翻车”的一道简单题目进行了测试(shì),即“单(dān)词strawberry里面到底有几个r。从生成的结果看,o1-preview还(hái)是带来了 一 点小惊喜(xǐ)的。

  2)代码编写

  记者 首先向o1-preview询问了一个在线编程平(píng)台leetcode里最有 名的简单算(suàn)法题:Two Sum(两数之(zhī)和)问题。o1给出了很详尽的推理过程和答案。

  随后记(jì)者故意要求优化(huà)答案,o1在思考9秒后意识到自己提供的已(yǐ)经(jīng)是最优解法(fǎ)了,并就(jiù)此进行了说明,另(lìng)外还很“贴心(xīn)”地提(tí)供了一个次优解。而在之前记者对(duì)其他模型的测试中,这些模型只会道歉然后将答案(àn)更(gèng)改为次优解。

  3)小游(yóu)戏制作(zuò)

  在o1模型的演示中,OpenAI演示过“用一句话编(biān)写小游戏”的功能。测试过(guò)程中,记者让o1-preview帮忙介绍好用的代(dài)码工具,并协助编写一个乒乓小游戏。

  o1-preview仅用了19秒就给出了(le)一份(fèn)能够流畅运行的代(dài)码,并且(qiě)附上了学(xué)习指南和鼓励的话语,非常地人性化。

  为避免o1-preview作弊,使(shǐ)用的是记忆能力,而不是使用推理能力进行(xíng)回答,记者还(hái)请求(qiú)o1-preview更换了一(yī)个代码运行环境:jupyter note。这一运行环境是(shì)针对数据分析进行特(tè)化(huà)的(de)python环境,开发人(rén)员基本不会 使用此环境(jìng)开发小游(yóu)戏。

  经过思考后,o1依(yī)然给出(chū)了一(yī)个可以(yǐ)运(yùn)行的代码(mǎ)。不过,相较于(yú)之前的代码,这份答案有(yǒu)着不少的(de)bug,但这(zhè)也从(cóng)侧面说 明这确实是思考出来的(de)答案 ,而不是训练过程(chéng)中加入的标准答案。

  为进一步验(yàn)证(zhèng)o1-preview的创新(xīn)推理能力,记者随后又要(yào)求模型(xíng)在这个小(xiǎo)游戏(xì)的基础上开(kāi)发一个更复杂(zá)有趣的小游戏。

  这下,o1的表现真 的有点惊喜。根据乒乓游戏的碰撞机制(zhì),该模型自行迭代出了(le)一(yī)个向上登高的(de)跳跃游戏。一般(bān)其他大模型需要用户把需求描述清楚才会输出一个比较好的(de)答案(àn),但记者在这次测试中没有进行任何的额外提示(shì),o1就输出了(le)一个能流畅运行,并且在(zài)记(jì)者眼中(zhōng)看来也足够有(yǒu)趣的小游戏(xì)。

  4)科(kē)学类测试

  在科学类(lèi)测试方面,记(jì)者(zhě)重(zhòng)点测试了(le)o1-preview在(zài)数 学和经(jīng)济学(xué)上(shàng)的表现。

  首先,记者抛(pāo)出的是(shì)一个数学推理问题,向(xiàng)o1-preview询问解决欧(ōu)拉方程有限时间爆破的可能(néng)方法(这是著名华裔数学家、菲尔兹奖得主陶哲轩(xuān)教(jiào)授本周才发表的讨论文章(zhāng))。

  o1虽然没有给(gěi)出明 确解法,但(dàn)却提供了一个(gè)解(jiě)题思路,这一思路和陶哲轩教授 文章部分吻合(虽然很少)

  经济学方向上,记(jì)者向(xiàng)o1-preview询(xún)问了一个复(fù)杂(zá)的经济系统(tǒng)问题 。从(cóng)给出的反馈看(kàn),基本(běn)没有什么太大的问题,整体逻辑清晰,思考维度 也(yě)是多样化的(de),给出的数(shù)学公式(shì)虽然有一点小差错但是无伤(shāng)大体

  5)事实性知识与语言理(lǐ)解

  在这一环节,记 者向o1-preview询问了(le)明朝第一任皇帝的趣事(shì),但o1就将(jiāng)趣事理解成了历史上实际发生过的事(shì)情,将朱(zhū)元(yuán)璋的历(lì)史故事整个叙述(shù)了出来。

  同(tóng)时,记者也将这一问题丢(diū)给了GPT-4o模型,作为 对比,GPT-4o能很好地理解记者的问 题,并讲了两个流传 很广的民间小故事。

  总体来看,OpenAI宣称o1模型能接近人类水平(píng)在某些方面上看起(qǐ)来并不(bù)是虚话

  最(zuì)让记者惊喜的是,OpenAI将模型(xíng)思考(kǎo)的过程(chéng)用文字展示给了用户,文(wén)字思 考过程中,大模(mó)型大量使用(yòng)了“我正在(zài)“我认为”“我打算”等话语,感觉更加拟人化,就像一(yī)个真人(rén)在用户(hù)面前阐述(shù)自己的思考逻辑一(yī)般。

  但(dàn)这也并不意味着o1模(mó)型就是完美的。OpenAI也承(chéng)认,在设计、写作、编辑文字(zì)等方面上,o1远不如GPT-4o。o1也没有(yǒu)浏览网页或处理文件和图像的能(néng)力。

  而最让(ràng)记者感到头疼(téng)的是,即使是一个很简单的请求,比(bǐ)如说(shuō)将输出结果转换为(wèi)中文,o1都会(huì)消耗十几秒钟的时间来思考,而GPT4o就会很快处理好这一请求。

  就算在OpenAI的优势(shì)领域(yù)中,o1模型也会突然出(chū)现性能(néng)下(xià)降,模型输(shū)出懒惰的情况。已离职的OpenAI创始(shǐ)人Karpathy就吐槽道:“它一直拒绝(jué)为我解决黎曼假说。模型懒惰仍然是一个主(zhǔ)要(yào)问题。”

  OpenAI表示,公司会在之后的更(gèng)新中解决这些问题,毕竟现在这只是(shì)推理模型(xíng五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”)的早期预(yù)览。

责任编辑:刘明亮

未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

评论

5+2=