惊喜!我成功通过OpenAI预览版的四项AI编码测试

   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

  

一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的。

尽管OpenAI在5月中旬推出了全新的gpt - 40模型,但该公司依然忙碌不已。早在去年11月,路透社就曾报道OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们再次确认,正在以“草莓”(Strawberry)的代号进行Q*的开发。

实际上,“草莓”是一个名为“01 -preview”的模型,现在ChatGPT Plus的用户可以选择使用它。您可以从下拉菜单中选择模型:

如您所料,如果有新的ChatGPT模型可用,我会进行测试。这正是我在这里所做的。

新的“草莓”模型专注于推理,将提示和问题分解为多个步骤。OpenAI通过在每个答案前展示推理摘要来体现这种方法。

当01 -preview被问到问题时,它会进行思考,并显示思考所花费的时间。如果您切换下拉菜单,您会看到一些原因。以下是我进行编码测试的一个例子:

AI知道添加错误处理是个好主意,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。

我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一次测试中,我创建了一个WordPress插件,该模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比之前的模型提供了更多的信息。

然而,真正的效果还需实践验证。让我们对这个新模型进行标准测试,看看它的表现如何。

1. 编写一个WordPress插件

这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须将重复的条目分开,以确保它们不相邻。

01 -预览版表现出色。它首先以输入字段的形式呈现用户界面:

一旦输入数据并点击Randomize Lines,AI就会生成一个带有随机输出数据的输出字段。您可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:

在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。

2. 重写字符串函数

我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。

01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。

3. 寻找恼人的bug

这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。

提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。

并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。

01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。这非常有帮助。

4. 编写一个s图书馆的

这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。

回答这个问题需要理解这三种技术,以及它们是如何协同工作的。

再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。

一个非常健谈的聊天机器人

用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。

ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能显得有些冗长。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:

这是o1-preview对相同测试的反应:

我想说,哇,对吧?这是来自ChatGPT的大量聊天内容。您也可以打开推理下拉菜单,获取更多信息:

所有这些信息都很棒,但有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。

然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。

您试过用01 -preview编码吗?您的经历是什么?请在下面的评论中告诉我们。

您可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本文来自作者[尚安波]投稿,不代表策马奔腾立场,如若转载,请注明出处:https://wap.jiaren7852.cn/wiki/202508-9767.html

(4)

文章推荐

  • BTIG预测:标普500指数在FOMC会议后将面临虚假突破

      周五股市收盘后,即将召开的联邦公开市场委员会(FOMC)会议降息50个基点的几率徘徊在50%左右,与本周早些时候低至12%的概率相比大幅上升。尽管降息50个基点可能在短期内提振股市,但BTIG策略师预计,无论降息决定如何,标普500指数本周都将触及5700点上方的历史新高。策

    2025年08月29日
    0
  • 士兵们成功挫败恐怖分子对约贝电力设施的袭击

      尼日利亚军队在约贝州成功阻止了博科圣地恐怖分子对该州高压电塔的攻击,展现了其反恐行动的有效性。近期,针对电力设施的袭击事件有所增加,导致多个地区出现停电现象。在2023年12月28日,恐怖分子在博尔诺州利用简易爆炸装置摧毁了三座

    2025年08月29日
    0
  • 全面解析日本虎杖株式会社入侵植物处理指南

      一家位于罗姆西的公司发布了应对入侵植物的建议。日本Knotweed有限公司指出,入侵植物在英国的城市和自然环境中越来越普遍,成为大多数景观的一部分。一个被忽视的问题是,如果不加以控制,这些植物会对本地物种造成威胁,并可能导致严重的生态破坏

    2025年08月29日
    0
  • 俄罗斯与乌克兰前线账目互相矛盾,真相何在?

    (路透社)——俄罗斯和乌克兰在周末对该地区前线的情况给出了相互冲突的说法,莫斯科说它已经阻止了基辅的反攻,而乌克兰军队说它仍在继续推进。自今年6月开始反攻以来,乌克兰已经夺回了东南部地区的几个小村庄,但进展甚微,乌克兰东部和南部广阔的前线在过去一年中几乎没有变化。

    2025年08月29日
    0
  • 乔治·威尔呼吁共和党人拒绝特朗普2024年提名

    1968年竞选总统时,阿拉巴马州州长乔治·华莱士认为他发现了一个问题:“我们在政府中获得了太多的尊严。”13次总统选举之后,选民们解决了这个问题。现在,他们可以通过关闭美国历史上的唐纳德·特朗普括号来弥补。第一个,几乎可以肯定是最后一个,他真正要负责的公共服务是他

    2025年08月29日
    0
  • 哈马斯新领导人辛瓦尔策划10月7日加沙袭击的背后

    路透迪拜8月11日电---周二,哈马斯(Hamas)领导人辛瓦尔(YahyaSinwar)策划了自大屠杀以来单日针对犹太人的最血腥袭击,他毫不掩饰要严厉打击以色列的愿望。他成年后近一半的时间都被以色列囚禁。2022年12月,这位激进分子领导人在加沙的一次集会

    2025年08月29日
    0
  • 博尔德县法官裁定学生可在Ash House暂留以解决业主问题

    科罗拉多州博尔德市——周五,博尔德县地方法院的一名法官表示,在业主解决博尔德市“违反安全规定”的问题期间,居民可以留在大学山上的一栋学生大楼里。周一,由于“违反安全规定”,市政府官员关闭了AshHouse,以前被称为MarpaHouse,只给60名科罗拉多大学博

    2025年08月29日
    0
  • 内塔尼亚胡与拜登会晤,共商加沙地区和平协议

    华盛顿,(美联社-乌尔都点/巴基斯坦点新闻-2024年7月25日)周四,美国总统乔·拜登将敦促本雅明·内塔尼亚胡达成加沙停火协议,尽管美国总统出人意料地退出大选可能会限制他对以色列总理的影响力。内塔尼亚胡还将于周四在白宫会见副总统卡玛拉·哈里斯——可能成为新的民主党总

    2025年08月29日
    0
  • 克鲁兹称特朗普欺诈指控“鲁莽”,承诺提供证据反击

    在许多共和党人对唐纳德·特朗普(DonaldTrump)在2020年大选后的选民欺诈指控保持谨慎态度的人中,也许没有人比德克萨斯州参议员特德·克鲁兹(TedCruz)走得更好了。他提出在最高法院为特朗普的案子辩护,甚至在1月6日的暴动发生之前,在国会批准拜登获

    2025年08月29日
    0
  • 尹光雄、拜登与岸田文雄将在戴维营举行重要首脑会谈

    2日,尹锡烈总统(右一)正在日本访问,与美国总统拜登和日本首相岸田文雄合影。(美联社)尹锡悦总统将于今年8月18日在华盛顿附近与美国总统拜登和日本首相FumioKishida举行三边峰会。(消息人士透露)今年5月,在日本广岛举行的七国集团(G7)峰会

    2025年08月29日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • 尚安波
    尚安波 2025年08月28日

    我是策马奔腾的签约作者“尚安波”!

  • 尚安波
    尚安波 2025年08月28日

    希望本篇文章《惊喜!我成功通过OpenAI预览版的四项AI编码测试》能对你有所帮助!

  • 尚安波
    尚安波 2025年08月28日

    本站[策马奔腾]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 尚安波
    尚安波 2025年08月28日

    本文概览:   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

    联系我们

    邮件:策马奔腾@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们