常州家具封边胶厂家 强牛马狙击编程之, OpenAI和Anthropic夜同发大招
发布日期:2026-02-14 03:43 点击次数:80

2026年的这天注定会被写入AI发展史。
Claude Opus 4.6和GPT-5.3 Codex在相隔不到个小时的时间里先后发布。
两公司似乎都憋着口气,要在同个时间节点上交出自己的答卷。
“撞车”的背后,是场关于资本、技术和市场话语权的较量。
就在两周前,英伟达刚刚宣布向Anthropic投资100亿美元,这笔钱让Anthropic的估值飙升到3500亿美元。
消息传出后不到72小时,英伟达转身又向OpenAI注资200亿美元。
黄仁勋的盘得很清楚:两边都押注,谁赢都不亏。
但对Anthropic和OpenAI来说,这不只是拿到钱那么简单。
两公司都计划在2026年下半年到2027年左右启动上市程序,现在正是证明自己技术实力、争夺市场定价权的关键时刻。
投资人要看的不是PPT上的承诺,而是能拿出手的产品。
谁的模型强,谁在实际应用中有说服力,谁就能在IPO时要到的价格,拿到多的筹码。
山容不得二虎,Anthropic和OpenAI须得让对明白,谁才是老大。
因此,这种产品节奏不是巧,而是卡好了表的对轰。
两公司都清楚,在这个时间点上,每次产品发布都是次融资路演,每个技术突破都会直接影响投资人的判断和市场的预期。
不过从产品本身来看,两公司确实都拿出了真本事。
01
Claude Opus 4.6
Anthropic这次对 Claude Opus 系列的升,核心放在了“聪明地思考”这件事上。
Opus 4.6显著的变化是它学会了“adaptive thinking”,模型会根据任务的复杂程度自动调整思考度。在困难问题上花多时间思考,而在简单任务上快速通过。
在代码能力面常州家具封边胶厂家,Opus 4.6在Terminal-Bench 2.0这个评测中拿到了分。
这个测试门考察AI在终端环境下的操作能力。模型需要知道什么时候该用哪个命令,如何组不同的工具,以及怎么从错误信息里找到问题所在。
这就像是考察个程序员会不会熟练使用各种开发工具。不只是写代码,还要会调试、会部署、会看日志找bug。
重要的是,Opus 4.6是Anthropic个提供100万token上下文窗口的Opus别模型。这个数字意味着模型可以次处理相当于两本中等厚度小说的文本量。
在长文本处理的测试中,Opus 4.6在MRCR v2的8-needle 1M 变体上得分76,而上代的Sonnet 4.5只有 18.5。
简单点来理解,就是给模型大堆文档,然后问它个需要综多处信息才能回答的问题。
以前的模型看着看着就“忘了”前面的内容,或者找不到关键信息。Opus 4.6能在海量文本里准确定位需要的信息,而且不会因为文档太长就表现下降。
在知识工作能力的评测GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2出约144Elo分,比自己的前代Opus 4.5出190分。这个测试涵盖了金融、法律等域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。
Anthropic还在产品层面做了不少配套新。
Claude Code现在支持“agent teams”,可以同时启动多个AI代理,让它们各自负责不同的子任务,然后自动协调工作。
对于那些大型的代码库,这个特别有用,可以把工作拆分给不同的代理并行处理。
在办公软件集成面,Anthropic出了Claude in PowerPoint的研究预览版,并大幅升了Claude in Excel。
现在Claude可以直接在Excel里处理复杂的任务,支持数据透视表编辑、图表修改、条件格式化等。在 PowerPoint 里,Claude 能读懂现有的版式、字体和母版设计,然后按照这个风格创建新的幻灯片。
就是让AI真正进入你日常工作的工具里。不用来回复制粘贴,直接在Excel或PowerPoint的侧边栏跟Claude对话,它就能帮你改表格、做图表、生成演示文稿。
而且它会学习你的风格,做出来的东西不会显得格格不入。
在API层面,Anthropic引入了“effort”参数,提供低、中、、四个档位。
开发者可以根据任务的复杂度选择适的档位,在成本、速度和质量之间找平衡。还有“context compaction”,当对话接近上下文窗口限制时,会自动总结并替换较早的内容,让长时间运行的任务不会因为出限制而中断。
可以理解为给开发者多的控制权。
简单任务用低档位常州家具封边胶厂家,省钱又快;复杂任务用档位,保证质量。对话太长了系统会自动压缩前面的内容,这样就能直聊下去。
在安全面,Anthropic这次做了他们有史以来的安全评估。
Opus 4.6在自动化行为审计中显示出较低的不当行为率,包括欺骗、阿谀奉承、鼓励用户妄想和配滥用等。
由于 Opus 4.6在网络安全面的能力有显著提升,Anthropic门开发了六个新的网络安全“探针”来检测潜在的滥用行为。
同时,他们也在用这个模型帮助开源软件查找和修补漏洞,希望让御也能用上AI的力量。
02
Advancing Finance:
金融域的度应用
Anthropic门发布了篇文章,详细介绍Claude Opus 4.6在金融域的应用。
在金融工作中,业人士需要AI做三件事:研究、分析和创建交付物。Opus 4.6在这三个维度上都达到了业内先水平。
在研究能力上,Opus 4.6在BrowseComp和DeepSearchQA两个基准测试中都有提升。
这两个测试考察的是模型从大量非结构化数据中提取特定信息的能力。
对金融分析师来说,这意味着可以把堆公司财报、行业报告、新闻文章扔给AI,然后问个很具体的问题,AI能给出针对的答案,而不是泛泛的总结。
你丢给它份财报,以前问AI“这公司的盈利能力如何”,万能胶厂家它可能给你的是大段话,然后再把财报内容复述遍。
现在它能直接告诉你关键指标是什么,跟行业平均水平比怎么样,有哪些风险因素。
在分析能力上,Opus 4.6在 Finance Agent这个外部基准测试中达到60.7的准确率,比Opus 4.5提升了5.47个百分点。
在税务评估TaxEval 上,Opus 4.6也达到了76的业内水平。
Anthropic用个商业尽职调查任务做了对比,他们让Claude Opus 4.6去评估个潜在的收购目标。这种工作通常需要个资分析师花两到三周时间才能完成。
但是Opus 4.6的次输出在结构、内容和格式上都比Opus4.5接近可以直接使用的标准。
也就是说,现在做出来的东西你小改下就能用。这对于需要快速产出报告、演示文稿的金融从业者来说,率提升是实实在在的。
Anthropic的内部“真实世界金融”评估涵盖了约50个投资和财务分析用例常州家具封边胶厂家,包括电子表格、幻灯片和文档的生成与审阅。
这些是投资银行、私募股权、公开市场投资和企业财务域分析师的常见任务。Opus 4.6比几个月前的Sonnet 4.5提升了过23个百分点。
配Cowork这个新,金融团队可以同时启动多个分析任务。Cowork让Claude可以访问你指定的本地文件夹,直接在里面读取、编辑和创建文件。
对金融团队来说,这意味着可以次布置几个分析任务,同时监督 Claude 创建每个交付物的过程,确保符自己的标准。
03
GPT-5.3 Codex:
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
自己训练自己的模型
在Claude Opus 4.6发布的几十分钟后,奥特曼突然发了条X,宣布GPT-5.3 Codex。
我在这里也是代表字母AI,给奥特曼和阿莫迪点面子,给他们分别点了喜欢和转发。
GPT-5.3 Codex牛的地在于,它能像真人同事样干活,而且可以边干活边跟你商量。
以前的AI是“你说句我做句”,GPT-5.3 Codex是“有问题随时问你”。
你给它个复杂任务,它能自己琢磨几个小时甚至几天,中途还会主动跟你汇报进度、问你意见,你随时可以插话调整向。
有意思的是,OpenAI用GPT-5.3 Codex的早期版本来帮忙开发后续版本。也就是说,让AI帮着调试AI的训练过程、修bug、优化系统,OpenAI团队说这让开发速度快得惊人。
GPT-5.3 Codex在多个基准测试中创造了新的行业纪录。在SWE-Bench Pro上,它达到了56.8的准确率,这是个严格的真实世界软件工程评估。
与只测试Python的SWE-bench Verified不同,SWE-Bench Pro涵盖四种编程语言,抗污染、具挑战、多样化,也贴近行业实际。
在Terminal-Bench 2.0上,GPT-5.3 Codex达到77.3,远之前的64。
这个测试衡量的是代码代理需要的终端技能,也就是在命令行环境下完成各种操作的能力。值得注意的是,GPT-5.3 Codex用的token数量比之前任何模型都少,这意味着用户可以用同样的成本做多事情。
在 OSWorld-Verified 这个测试中,GPT-5.3 Codex得分 64.7,而GPT-5.2-Codex只有38.2。
这是个代理计机使用基准测试,AI需要在可视化的桌面计机环境中完成生产力任务。人类在这个测试中的得分约为72,GPT-5.3 Codex已经接近人类水平。
在网页开发面,OpenAI展示了个对比案例:让GPT-5.3 Codex和 GPT-5.2-Codex分别创建个 SaaS 产品的落地页。
GPT-5.3 Codex自动把年度套餐显示为折扣后的月度价格,让优惠看起来清晰、有意图,而不是简单地把年度总价乘出来。
GPT-5.3 Codex
GPT-5.2 Codex
它还做了个自动切换的用户评价轮播,包含三条不同的用户评价,而不是只有条,让整个页面感觉完整、接近可以上线的状态。
简单来说,就是它会考虑用户体验和营销果。不是机械地实现,而是会想“怎么做好”。这种对细节的把握和对终果的理解,让它做出来的东西接近业水平。
GPT-5.3 Codex的能力不仅限于编码。
它支持软件生命周期中的所有工作,比如调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。
在GDPval测试中,GPT-5.3 Codex的表现与GPT-5.2持平,达到70.9的胜率或平局率。这个测试衡量的是模型在 44 个职业的明确知识工作任务上的表现,包括制作演示文稿、电子表格和其他工作产品。
个有趣的细节是,两公司都强调了“自己用自己的产品”。Anthropic 说“我们用 Claude 来构建 Claude”, OpenAI说“GPT-5.3 Codex在自己的开发中发挥了关键作用”。
这其实是好的广告,如果自己的工程师都不愿意用,怎么能指望别人用?
而且从技术演进的角度看,两个模型都代表了 AI 从“回答问题”到“完成工作”的转变。
它们不再满足于生成段文字或段代码,而是要能够执行完整的工作流程,产出可以直接使用的交付物。这种转变对 AI 的要求得多:不仅要懂技术,还要懂业务;不仅要能做,还要做得好;不仅要快,还要稳。
值得注意的是,两公司都没有回避 AI 能力提升带来的风险。Anthropic 做了“有史以来的安全评估”, OpenAI 部署了“的网络安全护措施”。
从用户角度看,两公司的竞争是好事。不同的需求可以找到不同的解决案,不同的工作式可以选择不同的工具。重要的是,竞争会动双继续创新,让AI能力的边界不断扩展。
而且这两个产品的发布也标志着AI进入了个新阶段。不再是“能不能做”的问题常州家具封边胶厂家,而是“怎么做得好”的问题。
相关词条:铝皮保温 隔热条设备 钢绞线厂家玻璃棉 泡沫板橡塑板专用胶
山东护角专用胶厂 新荐豆奶短app下载地址ios(刚刚新)
舟山防火门专用胶厂家 特朗普刚下令禁用Anthropic 美
泡沫板胶厂家 今天,茶山灵龟墓园迎来扫墓峰!
大兴安岭pvc排水管专用胶水 052期赵灵芝快乐8预测号:八
上饶PVC管道管件粘接胶 压哨避税!Shams:凯尔特人将蒂
延边泡沫板胶 全网唯敢艳压刘亦菲的人,洗白了?
