Сенсация: искусственный интеллект OpenAI o1 рассуждает и решает очень сложные задачи

В OpenAI разработали новую серию моделей ИИ, предназначенных для того, чтобы тратить больше времени на размышления, прежде чем отвечать. Они могут рассуждать о сложных задачах и решать более сложные проблемы, чем предыдущие модели в науке, программировании и математике.

Как это работает

OpenAI: Мы обучили эти модели тратить больше времени на обдумывание проблем, прежде чем они ответят, как это делает человек. Благодаря обучению они учатся совершенствовать свой мыслительный процесс, пробовать разные стратегии и распознавать свои ошибки.

В тестах следующее обновление модели работает так же, как аспиранты, на сложных контрольных задачах по физике, химии и биологии. Также было обнаружено, что оно преуспевает в математике и кодировании. На отборочном экзамене Международной математической олимпиады (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83%. Их способности к кодированию оценивались на соревнованиях и достигли 89-го процентиля в соревнованиях Codeforces.

Как ранняя модель, она пока не обладает многими функциями, которые делают ChatGPT полезным, например, просмотр веб-страниц для поиска информации и загрузка файлов и изображений. Для многих распространенных случаев GPT-4o станет более способным в ближайшем будущем.

OpenAI: Но для сложных задач рассуждения это значительный прогресс и представляет собой новый уровень возможностей ИИ. Учитывая это, мы сбрасываем счетчик обратно на 1 и называем эту серию OpenAI o1.

Безопасность

В рамках разработки этих новых моделей был придуман новый подход к обучению безопасности, который использует их способности к рассуждению, чтобы заставить их придерживаться правил безопасности и выравнивания. Способность рассуждать о наших правилах безопасности в контексте позволяет применять их более эффективно.

OpenAI: Один из способов измерения безопасности — это проверка того, насколько хорошо наша модель продолжает следовать своим правилам безопасности, если пользователь пытается обойти их (это называется «джейлбрейк»). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 (по шкале от 0 до 100), а наша модель o1-preview набрала 84.

Чтобы соответствовать новым возможностям этих моделей, была усилена работу по безопасности, внутреннее управление и сотрудничество с федеральным правительством. Это включает в себя тщательное тестирование и оценку с использованием нашей Рамочной основы готовности (открывается в новом окне), лучшая в своем классе команда экспертов и процессы обзора на уровне совета директоров, в том числе Комитетом по безопасности и защите.

OpenAI: Для продвижения нашей приверженности безопасности ИИ мы недавно оформили соглашения с Институтами безопасности ИИ США и Великобритании. Мы начали реализовывать эти соглашения, включая предоставление институтам раннего доступа к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, помогающий наладить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.

Для кого это?

Эти расширенные возможности рассуждения могут быть особенно полезны, если вы решаете сложные проблемы в науке, кодировании, математике и подобных областях. Например, o1 может использоваться исследователями в области здравоохранения для аннотирования данных секвенирования клеток, физиками для генерации сложных математических формул, необходимых для квантовой оптики, и разработчиками во всех областях для создания и выполнения многоэтапных рабочих процессов.

OpenAI o1-мини

Серия o1 отлично подходит для точной генерации и отладки сложного кода. Чтобы предложить разработчикам более эффективное решение, также выпускается OpenAI o1-mini — более быструю и дешевую модель рассуждений, которая особенно эффективна при кодировании. Как более мелкая модель, o1-mini на 80% дешевле o1-preview, что делает ее мощной и экономически эффективной моделью для приложений, требующих рассуждений, но не широких знаний о мире.

Источник: openai | Теги: OpenAI, искусственный интеллект