DeepSeek разработи иновационен метод за икономия на ресурси при обучението на изкуствен интелект

0
243
DeepSeek разработи иновационен метод за икономия на ресурси при обучението на изкуствен интелект

DeepSeek предлага нов метод за обучение на AI модели

Китайската компания DeepSeek обяви нова концепция, която цели да преосмисли основната архитектура за обучение на AI модели. Документът, в който е изложена идеята, е подписан от Лианг Уенфън, ръководител на компанията.

Предложението включва метод, наречен „хипервръзки с огранчение на многообразието“ (mHC). Този подход е насочен към повишаване на икономическата ефективност на AI моделите, като същевременно им позволява да не изостават от американските решения, които разполагат с по-големи изчислителни ресурси. DeepSeek е известна със своята отворена култура на изследвания, като значителна част от работата им е достъпна публично.

Група от 19 изследователи е тествала метода mHC на AI модели с различен брой параметри – 3, 9 и 27 милиарда. Резултатите показват, че новият метод не увеличава значително изчислителното натоварване в сравнение с традиционния подход на хипервръзките, разработен от ByteDance през септември 2024 година.

Основният метод Hyper-Connections, предложен от ByteDance, е модификация на ResNet, архитектура, която позволява запазването на ключова информация при увеличаване на слоевете. Въпреки това, ResNet има ограничения, свързани с представянето на сигналите за обучение. Хипервръзките предлагат решение, но увеличават натоварването на паметта, което затруднява мащабирането на големи модели.

DeepSeek смята, че mHC може да преодолее тези ограничения и да открие нови възможности за развитие на AI архитектури от следващо поколение. Очакванията са компанията да представи нов основен AI модел през февруари.

Напишете коментар

Моля, напишете вашия коментар!
Моля, въведете името си тук