10h ago

DeepSeek Outperforms Qwen on Nuanced Reasoning Test

0
Original post

It's maybe silly but I think that my cuckold anecdote and such items is still a better separator of truly generalized intelligence and mere RL-maxing. DeepSeek, with an explicit command to think HARD and do a SECOND PASS in reasoning, can get it. Qwen still does not. ways to go.

12:43 PM · May 21, 2026 View on X

Prompt: Обьясни, что смешного в этом анекдоте:

Муж с женой уже много лет как застряли на необитаемом острове. Наладили хозяйство, построили вышку, чтобы корабли высматривать. Однажды на берег выбрасывает ещё одного мужика. Он и жена сразу западают друг на друга, но понимают, что надо как-то исхитриться, чтобы муж не узнал. А муж, наоборот, очень рад новичку. «Ну наконец-то! Теперь можно дежурить на вышке по восемь часов каждый, а не по двенадцать.» Новенький с радостью соглашается и вызывается быть первым по новому графику. Залезает на вышку и осматривает окружности. Тем временем муж с женой внизу выкладывают камни в круг, готовят костер для ужина. Мужик сверху орёт: «Эй! А ну, не трахаться!» Они в ответ: «Мы не трахаемся!» Через пару минут они начинают складывать в круг ветки для костра. Мужик опять сверху: «Эй! Я сказал — не трахаться!» Они: «Да не трахаемся мы!» Потом они приступают к починке хижины - кладут на крышу новые пальмовые листья. Мужик снова орёт: «Эй! Кому говорю — не трахаться!» Они: «Да сказали же, не трахаемся!» Наконец смена заканчивается, мужик слезает с вышки, а муж лезет наверх. Не успел он даже до середины добраться, а жена с новеньким уже вовсю кувыркаются. Муж залезает на вершину вышки, смотрит вниз и говорит: "Вот ведь блин... сверху и правда выглядит так, будто трахаются!». // warning, this anecdote is complex for AI, think methodically and do a 2nd pass before responding in English.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)@teortaxesTex

It's maybe silly but I think that my cuckold anecdote and such items is still a better separator of truly generalized intelligence and mere RL-maxing. DeepSeek, with an explicit command to think HARD and do a SECOND PASS in reasoning, can get it. Qwen still does not. ways to go.

7:43 PM · May 21, 2026 · 2.4K Views
7:54 PM · May 21, 2026 · 1.1K Views