Что нового в GPT-4 — от обработки снимков до асовских тестов

Во вторник OpenAI анонсировала GPT-4, свою языковую модель ИИ следующего поколения. Хотя компания предупредила, что различия между GPT-4 и его предшественниками «незаметны» в обычном разговоре, система по-прежнему обладает множеством новых возможностей. Он может обрабатывать изображения для одного, и OpenAI говорит, что в целом лучше справляется с творческими задачами и решением проблем.

Оценить эти утверждения сложно. Модели ИИ в целом чрезвычайно сложны, а такие системы, как GPT-4, растянуты и многофункциональны, со скрытыми и пока неизвестными возможностями. Проверка фактов также является проблемой. Например, когда GPT-4 уверенно сообщает вам, что он создал новое химическое соединение, вы не узнаете, правда ли это, пока не спросите нескольких настоящих химиков. (Хотя это никогда не остановит распространение некоторых напыщенных заявлений в Твиттере.) Как ясно заявляет OpenAI в своем техническом отчете, самым большим ограничением GPT-4 является то, что он «галлюцинирует» информацию (выдумывает ее) и часто «уверенно ошибается в своих прогнозах». ”

Помимо этих предостережений, GPT-4 определенно интересен с технической точки зрения и уже интегрируется в крупные массовые продукты. Итак, чтобы понять, что нового, мы собрали несколько примеров его подвигов и способностей из новостных агентств, Twitter и самого OpenAI, а также провели собственные тесты. Вот что мы знаем:
Он может обрабатывать изображения вместе с текстом!

Как было сказано выше, это самое большое практическое отличие GPT-4 от его предшественников. Система является мультимодальной, то есть она может анализировать как изображения, так и текст, тогда как GPT-3.5 может обрабатывать только текст. Это означает, что GPT-4 может анализировать содержимое изображения и связывать эту информацию с письменным вопросом. (Хотя он не может генерировать изображения, как DALL-E, Midjourney или Stable Diffusion.)