“FFF — это FF, только быстрее”

Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.

Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.

Читать дальше

Подписывайтесь на телеграм-канал «ProAI»

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type