DeepSeek предлага нов метод за обучение на AI модели
Китайската компания DeepSeek обяви нова концепция, която цели да преосмисли основната архитектура за обучение на AI модели. Документът, в който е изложена идеята, е подписан от Лианг Уенфън, ръководител на компанията.
Предложението включва метод, наречен „хипервръзки с огранчение на многообразието“ (mHC). Този подход е насочен към повишаване на икономическата ефективност на AI моделите, като същевременно им позволява да не изостават от американските решения, които разполагат с по-големи изчислителни ресурси. DeepSeek е известна със своята отворена култура на изследвания, като значителна част от работата им е достъпна публично.
Група от 19 изследователи е тествала метода mHC на AI модели с различен брой параметри – 3, 9 и 27 милиарда. Резултатите показват, че новият метод не увеличава значително изчислителното натоварване в сравнение с традиционния подход на хипервръзките, разработен от ByteDance през септември 2024 година.
Основният метод Hyper-Connections, предложен от ByteDance, е модификация на ResNet, архитектура, която позволява запазването на ключова информация при увеличаване на слоевете. Въпреки това, ResNet има ограничения, свързани с представянето на сигналите за обучение. Хипервръзките предлагат решение, но увеличават натоварването на паметта, което затруднява мащабирането на големи модели.
DeepSeek смята, че mHC може да преодолее тези ограничения и да открие нови възможности за развитие на AI архитектури от следващо поколение. Очакванията са компанията да представи нов основен AI модел през февруари.
