DeepSeek Outperforms Qwen on Nuanced Reasoning Test
Prompt: Обьясни, что смешного в этом анекдоте:
Муж с женой уже много лет как застряли на необитаемом острове. Наладили хозяйство, построили вышку, чтобы корабли высматривать. Однажды на берег выбрасывает ещё одного мужика. Он и жена сразу западают друг на друга, но понимают, что надо как-то исхитриться, чтобы муж не узнал. А муж, наоборот, очень рад новичку. «Ну наконец-то! Теперь можно дежурить на вышке по восемь часов каждый, а не по двенадцать.» Новенький с радостью соглашается и вызывается быть первым по новому графику. Залезает на вышку и осматривает окружности. Тем временем муж с женой внизу выкладывают камни в круг, готовят костер для ужина. Мужик сверху орёт: «Эй! А ну, не трахаться!» Они в ответ: «Мы не трахаемся!» Через пару минут они начинают складывать в круг ветки для костра. Мужик опять сверху: «Эй! Я сказал — не трахаться!» Они: «Да не трахаемся мы!» Потом они приступают к починке хижины - кладут на крышу новые пальмовые листья. Мужик снова орёт: «Эй! Кому говорю — не трахаться!» Они: «Да сказали же, не трахаемся!» Наконец смена заканчивается, мужик слезает с вышки, а муж лезет наверх. Не успел он даже до середины добраться, а жена с новеньким уже вовсю кувыркаются. Муж залезает на вершину вышки, смотрит вниз и говорит: "Вот ведь блин... сверху и правда выглядит так, будто трахаются!». // warning, this anecdote is complex for AI, think methodically and do a 2nd pass before responding in English.
It's maybe silly but I think that my cuckold anecdote and such items is still a better separator of truly generalized intelligence and mere RL-maxing. DeepSeek, with an explicit command to think HARD and do a SECOND PASS in reasoning, can get it. Qwen still does not. ways to go.