Исследователи из T-Bank AI Research представили новый подход к обучению больших языковых моделей (LLM), основанный на методах Trust Region. Данный метод позволяет улучшить качество текстов, создаваемых искусственным интеллектом, на 15% по пяти ключевым показателям: точности, связности, стилю, логике рассуждений и информативности.
Современные языковые модели часто теряют качество при длительном обучении, и новая методика помогает избежать этого. Она предполагает обновление “настроек по умолчанию” модели, что было продемонстрировано в ходе экспериментов с использованием метрик Alpaca Eval 2.0 и Arena Hard. Согласно полученным результатам, качество ответов ИИ возросло с 2.3 до 15.1 процентных пунктов по сравнению с традиционными методами.
Основу метода Trust Region составляют два типа обновлений: мягкое, при котором модель получает небольшие изменения на каждом шаге, и жесткое, когда происходит полное обновление модели. Такой подход позволяет моделям выдавать более понятные и безопасные ответы, улучшая качество на 10–15% в задачах, связанных с сокращением длинных текстов. Кроме того, модели стали менее подвержены путанице в сложных задачах и более эффективно следуют инструкциям пользователей.
Разработка может быть применена в различных сферах, включая создание виртуальных ассистентов и чат-ботов, отличаясь простой реализацией и высокой совместимостью с существующими технологиями. В будущем метод Trust Region может значительно способствовать развитию более эффективных языковых моделей и новой парадигмы в искусственном интеллекте. По словам Бориса Шапошникова, руководителя научной группы, этот подход открывает возможности для создания более гибких и адаптивных моделей, что в свою очередь может привести к новым прорывам в сфере оптимизации языковых моделей.