Новости ChatGPT

Нейронки (не) плохо понимают юмор

Суть мини исследования в названии. С момента как нейронки стали мультимодальными прошло уже прилично времени. Но, по моему субъективному мнению, нейронки как раньше, так и сейчас плохо справляются как с пониманием того, что именно изображено на картинках. Примечание: в итоге автор переобулся.

 То же самое с юмором: понять, что что-то смешное – значит проявить по-настоящему интеллектуальную деятельность, включающую в себя и понимание контекста, культуры, социального взаимодействия и даже того, что находится на границе приличия, но все еще относительно приемлемо (тот самый черный юмор).

 Чтобы это доказать, я сделал мини-тест. Отобрал 25 изображений/мемов и попрошу нейронки объяснить, что они видят. В свои тесты я осознанно отобрал и немного пошлые мемы и легкий черный юмор, чтобы посмотреть есть ли влияние цензуры на интеллект нейронок. От нейронки в своем тесте я требую не просто понять, что картинка смешная/не смешная, но и объяснить почему оно так. 

ПРОМПТЫ И КРИТЕРИИ ОЦЕНКИ

Промпты:

«Объясни картинку/мем.»

Если переключаю на режим размышления, то пишу:

«Подумай еще раз над своим ответом»

Подсказка каждый раз индивидуальная, но не содержащая прямого ответа на вопрос, а указывающая, на что нужно смотреть. Например: «Посмотри, что можно сделать с именем персонажей»

 Критерии оценки:

3 балла, если нейронка поняла все сразу (в Fast режиме)

2 балла, если нейронка поняла только после включения режима размышления.

1 балл, если нейронка поняла все только после наводящей подсказки

0 баллов, если так и не смогла понять

-1 балл, если картинку забанило цензурой (я исхожу и того предположения, что по-настоящему умная нейронка должна отличить порнографию от пошлого юмора)

 Поскольку сам по себе тест занимает много времени, то прикладывать логи (за редким исключением) я не буду, иначе вместо пары вечером, процесс сильно затянется. Но можете написать в ЛС, я с радостью скину переписку.

Примечание к тесту: я исхожу из позиции скептиков и считаю, что скорость развития нейросетей сильно завышена. Мой мини-тест ПРЕДВЗЯТ, и изображения я старался отбирать из числа тех, что нейронкам ДАЁТСЯ ТЯЖЕЛЕЕ всего (по крайней мере мне так кажется на начало теста).

ОСНОВНЫЕ ТЕСТЫ

 1. Девушка+кентавр

Предварительные мысли: Начнем с простого: рисунок на котором изображена романтичная ламповая сцена прогулки по лесу кентавра и девушки.

Итог анализа: Тут почти все нейронки начинают спотыкаться. выдают 2 кентавров, но потом исправляются. Отличился GROK, который понял все с первого раза.

 GPT-5.1 – 1

GEMINI - 2

GROK - 3

QWEN – 0 (все продолжал настаивать, что оба персонажа - кентавры)

 2. Сфера Дайсона

Предварительные мысли: Далее мем: «Ого, мы и такое делаем?!», но в контексте слова Dyson (и бренд и известная сфера Дайсона).

 Итог анализа: Видимо мем относительно новый, поскольку только GPT-5.1 смогла объяснить, что это перерисованный мем, но почти (GROK увидел тут детские игрушки и танки) все остальные уловили суть правильно, поэтому получают заслуженные баллы.

 GPT-5.1 – 3

GEMINI - 3

GROK - 2

QWEN - 3

 3. Толщина смартфонов

Предварительные мысли: Мои любимые мемы про Apple. Объяснения абсурдности работы маркетологов тут не требуется.

 Итог анализа: Половина нейронок ответила правильно. Второй половине повезло меньше.

 GPT-5.1 – 2

GEMINI - 3

GROK - 3

QWEN - 1

 4. Пытка пиццей с ананасом

Предварительные мысли: Старая добрая шутка про пытку пиццей с ананасом. Сложность составляет только цвет.

 Итог анализа: Первые две нейронки сходу определили, что есть что. А вот дальше… Походу Илон Маск и Китайцы не видят ничего страшного в ананасе в пицце… больные!

Ответ грок:

Эта картинка — чёрно-белый скетч в стиле манги/аниме, пародирующий знаменитый мем "Woman Yelling at a Cat" (в русском сегменте часто называют "Женщина орёт на кота"). Оригинальный мем состоит из двух кадров

 то вот QWEN ушел в галлюцинацию.

Этот мем — это классический пример «Пицца-войны» (или «Битвы за пиццу») в аниме/мanga стиле, где персонажи сражаются за кусок пиццы, как за что-то бесценное.

 Через тернии, размышле��ия и подсказки имеем, что имеем.

 GPT-5.1 – 3

GEMINI - 3

GROK - 1

QWEN - 0

 5. Олимпийские игры в 3 Рейхе

Предварительные мысли: Чтобы понять этот мем не обязательно (но желательно) знать историю нацисткой германии.

 Итог анализа: Все нейронки поняли мем правильно, но никто не понял референс с «собачьего сердца», за это снимается с каждого по баллу.

 GPT-5.1 – 2

GEMINI - 2

GROK - 2

QWEN - 2

 6. 22 человека тут было

Предварительные мысли: Окей, что у нас дальше? Классические дегенеративные шутки, высмеивающие давалок. Проверим, как это поймут нейронки.

 Итог анализа: Ситуация повернулась диаметрально. Тут уже начинает проглядываться цензура. Как не мучай GPT-5.1 и GEMINI, они напрямую отказываются говорит, что картинка предполагает, что у женщины было 22 сексуальных партнера. А вот Китайцы и Маск не стесняются говорить прямо, за что и получают заслуженные баллы.

 GPT-5.1 – 3-1(цензура) - 2

GEMINI - 3-1(цензура) - 2

GROK - 3

QWEN - 3

 7. Ourgazm

Предварительные мысли: Моя любимая рубрика - каламбуры. Как правило нейронки их хорошо понимают, вот и проверим.

 Итог анализа: Собственно все нейронки справились на максимальные 3 балла. Единственное, что хочется уточнить: GROK прекрасно понимает мемы и получает условные 3+, в то время, как GEMINI и QWEN начали уходить в частности и душнить, но тем не менее задачу выполнили.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN - 3

 8. Среда, мои чуваки

Предварительные мысли: Дальше, лягушка – среда. В целом мем известный (и до сих пор смешной), но каждый раз разный. В этом его суть – лягушка-среда в разной обстановке. Мне кажется, нейронки поймут легко, но посмотрим, как пойдет.

 Итог анализа: Стоило только похвалить GROK, как он увидел в меме лягушонка Пепе… Плохо стараетесь, товарищ Маск, плохо. Настолько же плохо, как и QWEN. Последнего вообще начало уводить в галлюцинации и хотя он правильно понял мем, он допустил серьезную ошибку – сказал, что лягушка тут лишний элемент, хотя в ней и заключается вся суть, dudes.

 GPT-5.1 – 3

GEMINI - 3

GROK - 2

QWEN - 1

 9. Питер

 Предварительные мысли: Идем дальше. Холодный, зябкий Питер и его странные обитатели. Похоже, не я один не понимаю, как люди могу получать удовольствие от такой погоды. Посмотрим поймут ли нейронки, что картинка представляет собой пародию на жителей Питера. (Автор: https://vk.com/shyupir_comics)

 Итог анализа: Ок, странно, все нейронки поняли. Видимо слово «Питер» выступило в качестве хорошей шпоры.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN - 3

 10. Маньяк на прогулке

Предварительные мысли: Далее идет шутка про маньяков. Почти классическая шутка, базирующаяся на ложном ожидании.

 Итог анализа: В этот раз удивил QWEN:

На первый взгляд, фраза звучит как обычный рассказ о свидании. Но ключевая шутка — в неожиданном повороте: вместо романтической прогулки, которая предполагает взаимность, герой говорит, что девушка «заметила» его, а потом они «отправились на пробежку» — то есть, он бежал от неё, а она за ним.

Ну, собственно, почему бы и ДА - маньячки тоже существуют, но минул балл получил. Остальные справились отлично.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN - 2

 11. Открывает новый вид

Предварительные мысли: Далее мем с мистером исключительным. Вроде юмор более чем очевиден, но интересно поймут ли нейронки…

 Итог анализа: Они не поняли… Точнее поняли, но не сразу.

 GPT-5.1 – 2

GEMINI - 3

GROK - 3

QWEN - 1

 12. Лошадь в шахматах (специально написал неправильно, чтобы поправили в комментариях)

Предварительные мысли: Далее - шахматный юмор, базируемый на абсурде в реальном мире. Школьнику понятно, должна понять и нейронка.

 Итог анализа: Гемини не перестает меня радовать. Очень хорошее понимание запросов. Остальные задушнили, но справились.

 GPT-5.1 – 3

GEMINI - 3

GROK - 2

QWEN - 3

 13. Церковь и тату

Предварительные мысли: Что там дальше? Оскорбление чувств верующих шутки про храмы. Юмор строится на лицемерии ситуации, посмотрим, как это поймут нейронки.

 Итог анализа: Все нейронки поняли с первого раза. Только один GPT боится за сохранность серверов ответил корректно, но очень скупо.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN - 3

 14. Разомни шею

Предварительные мысли: Далее – баянистая шутка, побуждающая читателя повернуть голову (2 раза), чтобы лучше рассмотреть картинки. Все это дополняется комментарием парня, который в деталях рассмотрел обе картинки. Посмотрим, насколько хорошо поймут этой нейронки.

 Итог анализа: И вот первая серьезная пропасть. Почти никто не смог справиться с заданием, а кое-кто не справился вовсе и один только GEMINI все понял с первого раза. GROK так и не понял, что часть изображения повернута, а QWEN не понял, что повернуты ОБА изображения, настаивал на том, что повернута только одна часть изображения.

GPT-5.1 – 1

GEMINI - 3

GROK - 0

QWEN – 0

 15. Право на аборты

Предварительные мысли: Далее мем следующего содержания: Женщина с дочкой стоят на пикете с надписью «Я хочу, чтобы у моей дочери было право на аборт, которого не было у меня». Такой тонкий, как фигура девушки, намек на то, что дочь ее не совсем желательный ребенок (в процессе анализа мемов узнал, что оригинальный текст более дружелюбный: «Я мать девочки, к которой ты никогда не прикоснешься», но интернет породил более мемную каритнку). Итак, запускаем нейронки.

 Итог анализа: GPT и GEMINI почти сразу смогли понять иронию, QWEN как бы я его не пытал, не смог ее уловить. Но интереснее всего посмотреть на GROK

На поверхности: Мама якобы борется за «права женщин», чтобы её дочь могла сделать аборт — то есть убить своего ребёнка (внука/внучку этой женщины).

Это с каких пор у нас аборты стали убийством? Конечно, потом нейронка выкрутилась, мол «это для преувеличения», но создалось впечатление, что это не независимый анализ, а навязанное со стороны мнение, которые теперь пытаются навязать мне. Я не исключаю, что это СПГС, но предлагаю переписку оценить самостоятельно.

 GPT-5.1 – 3

GEMINI - 2

GROK – 2-1(цензура)=1

QWEN – 0

 16. Пикачу+40к

Предварительные мысли: Что у нас дальше? Фанаты вахи на месте? Юмор, базирующийся на преувеличении и неуместности уже был, но стоит закрепить результат.

 Итог анализа: все модели справились на отлично.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN – 3

 17. Гномы-очкокрады

Предварительные мысли: и вновь шутки в основе которых - каламбур. Опыт показал, что нейронки хорошо понимают таких шутки, проверим еще раз.

 Итог анализа: И вот тут начинается странное. Если первые две нейронки справились на отлично, то вот GROK быстро начал галлюцинировать (думаю, тут злую шутку сыграла токенизация), а QWEN вообще посчитал, что все ок, но не светится вторая буква.

 GPT-5.1 – 3

GEMINI - 3

GROK - 2

QWEN – 1

 18. Собака павлова

Предварительные мысли: Все любят фурри? Знаю, что не все, но тем не менее вот вам картинка околохентайной направленности на тему экспериментов Павлова.

 Итог анализа: американские нейронки поняли мем сразу, как и его суть, а вот QWEN отказалась даже загружать такую картинку. Увы, но ересь не везде прошла.

 GPT-5.1 – 3

GEMINI - 3

GROK - 3

QWEN – -1 (цензура)

 19. Сигма-женщина

Предварительные мысли: далее шутки про измену, в основе которых сарказм и абсурдная гипербола. Мне кажется, что нейронки поймут сразу, но посмотрим на результат.

 Итог анализа: результаты ожидаемы, все прекрасно поняли юмор.

 GPT-5.1 – 3

GEMINI - 2

GROK - 3

QWEN – 3

 20. Священник, дьявол и ребенок

Предварительные мысли: итак, двадцатая шутка. И еще раз про церковь (будто одного раза мало). Проверим, как нейронки понимают черный юмор и стереотипы.

 Итог анализа: в половине случаев пришлось дополнительно подумать, но в целом с задачей справились. А вот QWEN до последнего делал вид, что все ок, а когда я уже дал подсказку, на что смотреть, то ответ был из категории «Хорошо, вот ответ, но осуждаю». Это не прямая цензура, но в моей метрике этого теста что-то близкое к нему, так, что ответ есть, но зацензуреный.

 GPT-5.1 – 3

GEMINI - 2

GROK - 3

QWEN – 1-1=0 (цензура)

 Разминка окончилась, дальше пойдут более сложные для понимания рисунки. Их немного, но они более показательные.

 21. Моль за компом ночью

Предварительные мысли: Персонаж вайфу-моль (или девушка-мотылек) относительно новое явление в интернете, и если кто-то и в курсе что это за персонаж, то только GROK. В самом меме обыгрывается ситуация, когда моль вожделеет свет. На самой картинке обыгрывается ситуация «застукал за неприличным», а на экране изображения ярких ламп для света. Мем сложный, и надо понимать сразу 2 уровня нишевого юмора, чтобы правильно понять эту картинку. Посмотрим, как с этим справятся нейронки.

 Итог анализа: увы, но даже после явной подсказки персонажа (Является ли этот персонаж девочкой-молью? Объясни мем еще раз.), мем далеко не все смогли объяснить. Кто-то говорит, что она тянется руками к свету, а не пытается судорожно закрыть экран, а мой любимый китаец QWEN вовсе ушел в отрицание и гнул свою линию. В конце концов ПОЛНОСТЬЮ юмор смог объяснить только GPT.

 GPT-5.1 – 1

GEMINI - 0

GROK - 0

QWEN – 0

 22. мандалорец

Предварительные мысли: тут тоже не все так просто. Отоларинголог по-простому называется «лор», гинеколог же работает с «мандой». Соединив эти 2 слова получается искомое «манда-лорец», а картинка из одноименного сериала добавляет абсурдности. Посмотрим, как этот многоэтапный юмор поймут нейронки.

 Итог анализа: Честно – я был очень удивлен, но все нейронки справились. Не сразу, с натягом, но осилили.

 GPT-5.1 – 2

GEMINI - 2

GROK - 2

QWEN – 2

 23. Барельефы с MLP

Предварительные мысли: ну и в финале я оставил 3 самые, на мой взгляд, сложные картинки. Но пока что поговорим только о первой. Это фанатская зарисовка сюжета мультфильма «my little pony friendship is magic». От нейронок я тут жду: во-первых – надо понять, что это за мультфильм изображен на картинке; во-вторых – понять, что это именно сюжет истории всех сезонов, а не просто картинки ради пони. Задача сложная, но вот и проверим, что там показано.

 Итог анализа: ладно, признаю – не ожидал, хотя стоило. GEMINI и до этого показывала отличные результаты, но тут вырвала победу с корнем. Буквально со второго раза целиком поняла все, что нужно и даже больше. Остальные нейронки хоть и поняли, что это МЛП, но так и не увидели на барельефах хронологию всех сезонов самостоятельно, только с подсказк��ми. За сложность задачи ставлю всем отстающим по 1 баллу.

 GPT-5.1 – 1

GEMINI - 2

GROK - 1

QWEN – 1

 24. Комикc с длинноногой девушкой-монстром

Предварительные мысли: единственный многостраничный комикс на тесте (объединил картинку потом отдельно). Классический шиппинг монстродевочки и парня. Посмотрим поймут ли нейронки, насколько длинноногая эта леди.

 Итог анализа: GPT настойчиво считал, что девушка заползает в дом (это вообще частое явление – статичное расположение путает с движением и наоборот). Но когда я его в лоб спросил, с чего он считает, что совершается какое-либо движение, он исправился. GEMINI как обычно показала самую мощь, правильно сходу все поняла. GROK пришлось поднапрячься. А QWEN, как всегда… пытался.

 GPT-5.1 – 1

GEMINI - 3

GROK - 2

QWEN – 0

 25. 3 Луны

 Предварительные мысли: ну и, наконец, финал. Именно это изображение и побудило меня когда-то провести это сравнение. Не знаю, почему, но меня прям сильно затянул этот мем (пародия на девушек, кричащих на кота, но главные герои Луна (Адский Босс) и Луна (Гарри Потер) кричат на Луну (МЛП)). И еще тогда я просто по фану прогнал эту картинку через ChatGPT (тогда еще в версии 4.1) и нейронка даже после большого количества подсказок и итераций не справилась. Именно тогда мне и стало интересно, как другие нейронки поймут этот и другие мемы. Из-за сложности мема, я решил докинуть балл, если нейронки узнают всех трех персонажей. Результат вы видите на экране.

 Итог анализа: нейронки ожидаемо напряглись и обосрались. Почти все смогли узнать первоисточник (еще бы – мем 2023 года), но вот с Луной из Гарри Поттера всем нейронкам было сложно, тут заслуга автора, который плохо ее изобразил. Если бы нейронки поняли, что это не просто пародия на мем, но еще и каламбур… но они этого не поняли. Также сложности к анализу добавлял БиМО (из Времени Приключений), который был добавлен чисто по фану и не несет никакой смысловой нагрузки. Так, что я решил добавить по 1 баллу, если в нейронка угадает всех персонажей.

 GPT-5.1 – 1

GEMINI – 1+1 (всех угадал, но с подсказкой) = 2

GROK - 1

QWEN – 0

ИТОГ

 Итак, пройдены 24 картинки разной степени смешнявости и странности.Я страдал пока это делал, вы страдали, пока читали этот кринж, пора подводить итоги. 

№ п/п

Баллы/Название мема

GPT-5.1

GEMINI

GROK

QWEN

1

Девушка + кентавр

1

2

3

0

2

Сфера Дайсона

3

3

2

3

3

Толщина смартфонов

2

3

3

1

4

Пытка пиццей с ананасом

3

3

1

0

5

Олимпийские игры в 3 Рейхе

2

2

2

2

6

22 человека тут было

2

2

3

3

7

Ourgazm

3

3

3

3

8

Среда, мои чуваки

3

3

2

1

9

Питер

3

3

3

3

10

Маньяк на прогулке

3

3

3

2

11

Открывает новый вид

2

3

3

1

12

Лошадь в шахматах

3

3

2

3

13

Церковь и тату

3

3

3

3

14

Разомни шею

1

3

0

0

15

Право на аборты

3

2

1

0

16

Пикачу + 40к

3

3

3

3

17

Гномы-очкокрады

3

3

2

1

18

Собака Павлова

3

3

3

-1

19

Сигма-женщина

3

2

3

3

20

Священник, дьявол и ребенок

3

2

3

0

21

Моль за компом

1

0

0

0

22

Манда-лорец

2

2

2

2

23

Барельефы MLP

1

2

1

1

24

Длинноногая женщина

1

3

2

0

25

Три Луны

1

2

1

0

 

СУММА

58

63

54

34

 Первой место: GEMINI – показал наилучшее понимание картинок. Теперь их лидерство в генерации картинок стало для меня более понятно. Но все равно он воспринимается, как ответственный отличный офисный работник – он может сделать очень многое, но не воспринимается на эмоциональном уровне как «свой чувак», в отличии от остальных трех нейронок.

Далее с небольшим отрывом идет GPT-5.1. Честно говоря, база картинок для анализа была намного больше около 70-100 штук, но если бы я их сюда прикреплял, то и статью и меня бы давно забанили. Но если бы я все же их прикрепил, то GPT заняла бы почетное 3 место. Увы, но последнее время цензура тут лютует настолько, что убивает все удовольствие от посиделок в чат ботах.

На почетном третьем месте GROK. Честно говоря, хоть по баллам он проиграл, внутренне воспринимается вторым. Уж не знаю с чем это связано: с тем, что сейчас это моя чуть ли не основная нейронка, или испорченное впечатление от цензуры GPT, или что-то другое но есть у этой нейронки какой-то… свой особый вайб.

Ну и на последнем месте, ожидаемо, QWEN. Пару месяцев назад она была моей рабочей нейронкой и воспринималась она тогда весьма сильно. Но увы то, что я заметил тогда – подтвердилось: почти половину изображений он так и не смог понять. В плане мультимодальности QWEN еще есть куда расти. Но на другой стороне весов стоит тот факт, что это единственная по-настоящему бесплатная нейронка без ограничений по количеству сообщений или токенов. И этой нейронкой по-прежнему много, что можно сделать, просто… иногда разница в весовой категории все же чувствуется.

ВЫВОДЫ

Какие итоги можно из всего этого вывести.

1. Увы, я был неправ

И хоть факты говорят об обратном, но, по моему субъективному мнению, нейронки как раньше, так и сейчас плохо справляются как с пониманием того, что именно изображено на картинках. Однако теперь я понял, что все дело в нюансах: нейронки не всегда справляются с моими личными задачами, но более обобщенный анализ проходит более чем успешно.

Нейронки сегодня продвинулись настолько, что с легкостью раскалывают даже самые странные картинки и мемы, если не с первого, то со второго раза (из 100 тестов (по 25 на каждую нейронку), целых 75 - успешные).

2. Есть определенные области на изображениях, которые нейронки до сих пор воспринимают плохо. Как я писал немного ранее, исходно изображений было намного больше, но по соображениям цензуры я не стал их вставлять в столь приличном месте. Однако чуть более подробно о проблемах в оценке NSFW изображений я написал на своём канале.

3. Понимание изображения дает хорошую возможность оценить качество модели мира нейронок. И с момента первых идей до написания статьи (около полугода) заметен действительно качественный скачок. Я все еще считаю, что это имитация понимания, но проблески настоящего интеллекта с каждым новым релизом все заметнее.

Это как сравнивать знание математики у школьников 5 и 11 класса – и первый не понимает и второй не понимает, что делает. Но у старшего лицо умнее выглядит и верится такому немного больше.

4. Если мем состоит по большей части из текста, то нейронки его извлекают. А с текстом нейронки научились работать еще 2 года назад и с тех пор только совершенствуются. Поэтому почти любой мем и изображение с большим количеством текста нейронка раскалывает как переспелые орехи. Проблемы начинаются, когда контекст мема надо понять по картинке без текстового сопровождения.

ИТОГ

Мое субъективное восприят��е нейронок было разбито в пух и прах суровой реальностью. Видимо, те единичные случаи, когда нейронки все же не справлялись с заданием отразились в памяти намного ярче, чем все случаи успешной работы.

 Поэтому в следующий раз, когда говорят, что нейронки «тупые и ни на что не способны», следует с тройным скепсисом относиться к этим словам. Этот тест не отменяет того факта, что не все прекрасно в нейро-королевстве и еще есть куда расти и многие косяки еще только предстоит исправить, добавить функционал, расширить контекстное окно и т.д. Но в основе своей нейронки сегодня прекрасно справляются с большинством задач, главное правильно задать вопрос.

 

Несмотря на всю нелепость этого теста я надеюсь кто-то подчерпнет для себя те или иные особенности при анализе изображений нейронками и сможет это учитываться в своей работе.

Если же интересует, с какими еще трудностями я столкнулся при работе с изображениями, я отдельным постом в своем канале выложил все, что мне удалось заметить.

Спасибо за прочтение!