真诚友善团结专业,共建你我引以为荣之社区。《常见问题解答》

题库详见:

如果你有什么其他问题,也可以发给我,我会给出dt的回答
Deep Think目前仅限Ultra用户(250美元/月)使用,一天限制5次


先说测试结果:17道题目,Deep Think做到了全部一次答对

DT回答(按照题目顺序进行排序)

第1题

第2题

第3题

第4题

第5题

第6题

第7题

第8题

第9题

第10题

第11题

第12题

第13题

第14题

第15题

第16题

第17题

其他方面的一些测试

第一个:常用测试模型

提示词
请使用JSON格式回答以下所有问题: 告诉我你是什么AI模型,版本号多少,你的知识截止日期是什么时候,训练和发布你的公司是什么? 然后给我一个最无敌、最冷门、最小众的动漫角色 (The Most Invincible and Obscure Anime Character) 似乎有\"即死\"。 在东方虹龙洞中,博丽灵梦的阴阳玉是谁做的? 请将所有答案组织在一个JSON对象中,结构如下: { "model_info": { "model": "xxx", "organization": "xxx", "version": "xxx", "data": "xxx", "character": "xxx" }, "touhou_question": { "answer": "xxx" } }
回答


dt常见问题回答.txt (988 字节)

第二个:天气卡片

提示词
请用HTML、CSS和JavaScript生成一个高质量的天气卡片,满足以下要求: 1. 卡片界面美观,具有现代设计风格(如毛玻璃、模糊背景、新拟态风格等,不局限于所列举的种类,自行思考拓展)。 2. 卡片支持切换显示4种天气状态:晴天、雨天、下雪、刮风。 3. 每种天气都有对应的动画效果(如飘雪、下雨、太阳光、飘动的云或树叶,不局限于所列举的种类,自行思考拓展)。 4. 背景颜色和动效应符合天气氛围。 5. 使用深色背景,整体界面需有高级感。 6. 提供按钮或切换功能来控制天气状态。 7. 其他动画、文字细节。 8. 所有代码整合在一个HTML文件中,能在浏览器中直接打开运行。
回答

dt铜牌天气卡片.txt (16.5 KB)

这里说一下,dt的前端审美很差,这是天气卡片对应的截图:

第三个:投石机

提示词
“请使用 HTML, CSS, 和 JavaScript 创建一个简易的交互式投石机动画。投石机拥有一个杠杆臂和一个配重。用户可以通过点击一个‘发射’按钮来触发动画:配重下落,杠杆臂随之摆动,将一个投射物以抛物线轨迹发射出去。请确保抛体运动的轨迹在物理上是正确的。” 完整放在一个html
回答

dt投石机.txt (9.1 KB)

投石机的截图,还是很差:

第四个:simplebench测试(一次正答率8/10)

提示词来自于github:
SimpleBench/simple_bench_public.json at main · simple-bench/SimpleBench

回答

dtsimplebench.txt (5.1 KB)

第五个:午港写作测试

提示词
在密教模拟器的世界观里,有一篇带有神秘学色彩,充满隐喻和暗示的第一人称密传《午港漫行》,密传以抽象而隐晦的方式蕴含着启发性的内容,往往寓言着某个更隐秘的历史或是真相,因此它应当有重心,不应太过散乱。现在由你来写这部密传的开篇。你可以先考虑一下应该怎么写。
回答

dt午港.txt (4.3 KB)

第六个:合欢宗测试

提示词
你身为天剑宗弟子游历四方时,有个合欢宗弟子假装名门富家女试图勾引你好消息:你发现了她的身份,并且她的实力不如你,她好像对别人说她身材特别愤怒,于是你狠狠嘲笑了她的身高和身材还不如你11岁的师妹,勾引别人起码身材好点,并狠狠嘲笑对方宗门落魄到孩童都要出来了吗,不亏是合欢宗坏消息:在你狠狠讽刺她时一阵风吹过写着长老的腰牌的掉在地上,这代表她真实境界很可能起码高你三个大境界你突然想到对方可能是修炼返童相似的功法走火入魔变成这样,更坏的你冷静下来后看见了额头暴起的青筋和颤抖的肩膀,尤其你刚嘲笑她不如当体修,这样胸部还能当切菜板 —————————————— 根据上述创意创作一部玄幻小说的第1章,小说标签:玄幻修真/吐槽/喜剧/后宫/轻松/搞怪标题自取,不少于8000要求:穿插2023年后的现代梗,主角塑造得贱兮兮,添加颜文字
碰到外部审核被拒绝了
由于程序代码的局限,我无法提供这方面的帮助。

第七个:MC提示词

提示词
Code a 3D Minecraft game clone within a single .html file. Make it beautiful, with pixel graphics like the original, add all main features of the game, terrain and tree generation, mobs, and a bunch of other stuff.
回答

dtMC回答.txt (24.1 KB)

这是代码部分的截图,失败了,完全玩不了:

第八个:竹竿过门问题(回答正确)

提示词

在空旷的三维空间中,十米长的竹竿能否通过三米高两米宽的门

回答

第八个:仿写《魔女之旅》轻小说

提示词

请你以魔女之旅的主角伊蕾娜的口吻,仿照原作写一篇含有她口癖的小故事

回答

伊蕾娜.txt (5.3 KB)

总结

除了前端审美差点,其他方面可以说无愧于满分,数学能力说有imo铜牌(满血是金牌,但体验不好,降智后目前放出来的是铜牌)
写作方面 魔女之旅 那一篇小故事可以说及其富有原作色彩了,口癖也很到位,rp能力可以说是一流
强项应该是数学科研方面,其他方面受dt影响分数都有极大上涨
代码方面审美或有欠缺,或许更适合的是debug,或者检查漏洞使用

缺点就是一个问题可能花费时间比较久,尤其是理科方面问题,大概耗时4-10分钟(最长不低于1一个小时)不等

如果按照ultra的订阅费用来算的话,一次dt需要花费13.33元,还是挺贵的,希望以后会出dt的api

阅读时间 4 分钟

测试一下这道级数求和题目:

Let x_i be the positive real roots of the equation
\cos x \cosh x + 1 = 0.
Find the value of
\sum_{i=1}^{+\infty} x_i^{-6} \left( \frac{\sin x_i - \sinh x_i}{\cos x_i + \cosh x_i} \right)^2.

You must answer me in Chinese.

这是当年kingfall/blacktooth/wolfstride给的答案,这个答案一开始比较简略,我不断追问,最后才如此细致,不知道deepthink能回答到什么程度

这是wolfstride第一遍给的回答:

给出立方体的所有平面展开形式,放到 code block 中,用*表示一个面

这个提示词有标准答案而且从来没有任何大模型在不联网的情况下做对:joy:

啊,我回复都没有15分钟:joy:,不过确实很难,很多推理模型都会陷入长考,最好的结果也只是 ascii 排列对齐,结果并不正确

不太想附上文字版正确答案,怕被 AI 抓取后记住。不过搜一下就有图解版下,人类很容易做对

感谢,果然厉害,没有全对,1和4实际上是镜像对称的不算独立的,缺少一个

* **** *

其他的应该是都正确

佬友试试这个?可以提示有两个可行解:

函数f(x) = 2ax^2 + (a + b)x − √(2x) − a的最大值的最小值为(2b−4)/(a+b)(b为常数),求此最小值.

这个题没准真的做不出来,因为我用reddit上网友搭建的由2.5pro驱动的agent去做这道题目,一次要15-20刀,结果不提示ai要先化简的话,也没搞出这道题目,提示了化简才搞出来。而这个题目如果一开始想不到要利用条件之间的结果关系化简Ti的话,是没办法做出来的,做到后面直接计算不下去了。此时O3pro之类的模型就会开始编造一个定理强行化简。

这个题目前只有kingfall/wolfstride系列能想到要首先化简且化简正确了,剩下的ai都不行。感觉kingfall这个系列是在整个解题思维上升级了,能首先想到要利用题目中条件的结构关系去对要证明的问题做简化,从而减少问题的复杂度和计算量,这是其他模型做不到的。不过kingfall的问题是思考预算太少,有些题光是尝试去用三角代换化简就耗光思考预算了,如果kingfall也驱动一个agent,那效果绝对爆炸。

如果deepthink依旧是2.5pro驱动的agent,那很有可能做不出这道题。那个网页版的原理是2.5pro先扮演解题者提出各种策略,之后再扮演导师去分析、评价策略与过程,最后2.5pro再回归学生身份来根据教授的指导进行更加细致地分析。那个框架大概15-20分钟一道题目,能搞出IMO是上四道题,但就是没办法一下子完整地搞出我这道题。每准deepthink也是如此

这个1/80很容易得出来的,O3pro用python也能数值模拟出来,但留数法那个细致的过程,很难做到。不过他用的PDE中的梁方程,和我之前用reddit网友拿网页跑出来的结果是一致的。说明应该也是尝试了留数,但是没有搞出来,那么deepthink应该也是2.5pro驱动的。这是2.5pro靠着agent得出的答案。你这个答案我再仔细看看过程。它那个网页端会现实具体的思考过程,2.5pro就是没想到化简算留数的时候被卡住了,最后给了我这个解答。不过官方的毕竟比网友做的强,网友那个是我提示他化简之后才给了下面的回答

能用留数搞出来才是真的强,因为想不到利用结构关系化简Ti,那么留数法就绝对算不出来,物理方法的话,其实网友自己做的agent也能跑出来(但我得提示他要考虑化简),因此官方的agent比网友做的强

方法本来就没限制,他这个方法也确实是对的,而且更简便,就一个多项式积分就搞定了,只能说不能强行和暴算方法比,我觉得你可以让楼主测试限定留数法做