Чтобы большая языковая модель отвечала качественно и быстро, требуется множество дорогостоящих мощных графических процессоров. Решение Яндекса позволяет уменьшить модель в несколько раз. Это сокращает количество необходимых для работы процессоров и позволяет запустить её на устройствах с меньшей вычислительной мощностью. То есть делает внедрение нейросетей и обслуживание оборудования дешевле для бизнеса. При использовании других методов сжатия значительно теряется качество ответов нейросети. Метод, разработанный учёными Яндекса, решает эту проблему.