Созданные искусственным интеллектом тексты уже проникли в интернет. Как их узнать?

Такие инструменты, как DALL-E 2 или Stable Diffusion, или ChatGPT позволяют создавать изображения на основе текстового описания, отвечать практически на любой вопрос или сгенерировать пользовательский текст. И они уже появляются в интернете, выдаваемые за создание человека, сообщает new-science.ru.

Эти технологии настолько совершенны, что иногда трудно поверить, что их результат не является делом рук человека. Однако обилие «искусственных» текстов может быть более проблематичным, чем кажется. Так, ChatGPT — своеобразная энциклопедия, которая доступна 24 часа в сутки и имеет ответы на вопросы из разных областей в рекордно короткие сроки.

Но разговорный агент, основанный на языковой модели GPT-3 от OpenAI, особенно выделяется в генерации текста. Будь то вымышленная история, электронное письмо, шутка, газетная статья и т. д., он может написать четкий, понятный и достоверный текст на любую тему. Менее чем за месяц его существования им уже воспользовались более миллиона человек.

К примеру, эта функция потенциально может позволить студентам писать эссе без особых усилий, она может иметь и гораздо более серьезные последствия для читателей. Ведь генерируются, к примеру, и советы по здоровью, без участия настоящих специалистов в этой области.

Системы ИИ также могут способствовать созданию большого количества дезинформации, злоупотреблений и спама, искажая информацию, которую мы потребляем, и даже наше чувство реальности, считают специалисты.

Сегодня наибольшее беспокойство вызывает не столько тот факт, что невозможно определить происхождение текста (человеческое или искусственное), но прежде всего то, что Сеть может очень быстро наполниться преимущественно неверным содержанием. Ведь ИИ обучаются на контенте, полученном из Интернета… который другие ИИ создали сами! Первоначально компьютерные языковые модели обучаются на наборах данных (тексты и изображения), найденных в Интернете. Среди них может быть как хороший контент, так и вводящая в заблуждение и вредоносная информация, размещенная некоторыми людьми. ИИ, обученный на основе этих данных, в свою очередь, создает ложный контент, который распространяется в сети… и используется другими ИИ для создания еще более убедительных языковых моделей, которые люди могут использовать для создания и распространения дальнейшей ложной информации, и так далее.

Из всего этого можно сделать вывод, что будет все сложнее найти хорошие, не созданные искусственным интеллектом данные для обучения будущих моделей искусственного интеллекта. «Очень важно задаться вопросом, нужно ли нам тренироваться на всем Интернете или есть способы отфильтровать высококачественный материал, который даст нам нужную языковую модель», — сказала Дафна Ипполито, старший научный сотрудник Google Brain, исследовательского подразделения Google, занимающегося глубоким обучением, в интервью MIT Technology Review. Как обнаружить текст, созданный искусственным интеллектом? Поэтому становится необходимым разработать инструменты для обнаружения текстов, созданных ИИ.