Ó¢Ìضû¹ã·ºµÄAIÓ²¼þ×éºÏ¼°¿ª·ÅµÄÈí¼þ»·¾³£¬ÎªMeta·¢²¼µÄLlama
2Ä£ÐÍÌṩÁ˼«¾ß¾ºÕùÁ¦µÄÑ¡Ôñ£¬½øÒ»²½ÖúÁ¦´óÓïÑÔÄ£Ð͵ÄÆÕ¼°£¬Íƶ¯AI·¢Õ¹»Ý¼°¸÷Ðи÷Òµ¡£
¡¡
´óÓïÑÔÄ£ÐÍ£¨LLM£©ÔÚÉú³ÉÎı¾¡¢×ܽáºÍ·ÒëÄÚÈÝ¡¢»Ø´ðÎÊÌâ¡¢²ÎÓë¶Ô»°ÒÔ¼°Ö´Ðи´ÔÓÈÎÎñ£¨Èç½â¾öÊýѧÎÊÌâ»òÍÆÀí£©·½Ãæ±íÏÖ³öµÄ׿ԽÄÜÁ¦£¬Ê¹Æä³ÉΪ×îÓÐÏ£Íû¹æÄ£»¯Ô츣Éç»áµÄAI¼¼ÊõÖ®Ò»¡£´óÓïÑÔÄ£ÐÍÓÐÍû½âËø¸ü·á¸»µÄ´´ÒâºÍ¶´²ì£¬²¢¼¤·¢AIÉçÇøÍƽø¼¼Êõ·¢Õ¹µÄÈÈÇé¡£
¡¡
Llama 2Ö¼ÔÚ°ïÖú¿ª·¢Õß¡¢Ñо¿ÈËÔ±ºÍ×éÖ¯¹¹½¨»ùÓÚÉú³ÉʽAIµÄ¹¤¾ßºÍÌåÑé¡£Meta·¢²¼Á˶à¸öLlama
2µÄԤѵÁ·ºÍ΢µ÷°æ±¾£¬ÓµÓÐ70ÒÚ¡¢130ÒÚºÍ700ÒÚÈýÖÖ²ÎÊý¡£Í¨¹ýLlama
2£¬MetaÔÚ¹«Ë¾µÄ¸÷¸ö΢µ÷Ä£ÐÍÖвÉÓÃÁËÈýÏîÒÔ°²È«Îªµ¼ÏòµÄºËÐļ¼Êõ£º°²È«µÄÓмල΢µ÷¡¢°²È«µÄÄ¿±êÎı¾ÌáÈ¡ÒÔ¼°°²È«µÄÈËÀà·´À¡Ç¿»¯Ñ§Ï°£¨RLHF£©¡£ÕâЩ¼¼ÊõÏà½áºÏ£¬Ê¹MetaµÃÒÔÌá¸ß°²È«ÐÔÄÜ¡£Ëæ×ÅÔ½À´Ô½¹ã·ºµÄʹÓã¬ÈËÃǽ«Äܹ»ÒÔ͸Ã÷¡¢¹«¿ªµÄ·½Ê½²»¶Ïʶ±ð²¢½µµÍÉú³ÉÓк¦ÄÚÈݵķçÏÕ¡£
¡¡
Ó¢ÌضûÖÂÁ¦ÓÚͨ¹ýÌṩ¹ã·ºµÄÓ²¼þÑ¡ÔñºÍ¿ª·ÅµÄÈí¼þ»·¾³£¬Íƶ¯AIµÄ·¢Õ¹ÓëÆÕ¼°¡£Ó¢ÌضûÌṩÁËһϵÁÐAI½â¾ö·½°¸£¬ÎªAIÉçÇø¿ª·¢ºÍÔËÐÐLlama
2µÈÄ£ÐÍÌṩÁ˼«¾ß¾ºÕùÁ¦ºÍ¼«¾ßÎüÒýÁ¦µÄÑ¡Ôñ¡£Ó¢Ìضû·á¸»µÄAIÓ²¼þ²úÆ·×éºÏÓëÓÅ»¯¿ª·ÅµÄÈí¼þÏà½áºÏ£¬ÎªÓ¦¶ÔËãÁ¦ÌôÕ½ÌṩÁË¿ÉÐеķ½°¸¡£
¡¡
¡¡
Ó¢ÌضûÌṩÁËÂú×ãÄ£Ð͵Ŀª·¢ºÍ²¿ÊðµÄAIÓÅ»¯Èí¼þ¡£¿ª·ÅÉú̬ϵͳÊÇÓ¢ÌضûµÃÌì¶ÀºñµÄÕ½ÂÔÓÅÊÆ£¬ÔÚAIÁìÓòÒàÊÇÈç´Ë¡£ÎÒÃÇÖÂÁ¦ÓÚÅàÓýÒ»¸ö³äÂú»îÁ¦µÄ¿ª·ÅÉú̬ϵͳÀ´Íƶ¯AI´´Ð£¬Æ䰲ȫ¡¢¿É×·ËÝ¡¢¸ºÔðÈÎÒÔ¼°×ñѵÀµÂ£¬Õâ¶ÔÕû¸öÐÐÒµÖÁ¹ØÖØÒª¡£´Ë´Î·¢²¼µÄ´óÄ£ÐͽøÒ»²½ÕÃÏÔÁËÎÒÃǵĺËÐļÛÖµ¹Û¡ª¡ª¿ª·Å£¬Îª¿ª·¢ÈËÔ±ÌṩÁËÒ»¸öÖµµÃÐÅÀµµÄÑ¡Ôñ¡£Llama
2Ä£Ð͵ķ¢²¼ÊÇÎÒÃÇÐÐÒµÏò¿ª·ÅʽAI·¢Õ¹×ªÐÍÂõ³öµÄÖØÒªÒ»²½£¬¼´ÒÔ¹«¿ªÍ¸Ã÷µÄ·½Ê½Íƶ¯´´Ð²¢ÖúÁ¦ÆäÅ·¢Õ¹¡£
¡¡
-- Àîì¿
Ó¢ÌضûÈí¼þÓëÏȽø¼¼Êõ¸±×ܲÃ
¼æÈ˹¤ÖÇÄܺͷÖÎö²¿ÃÅ×ܾÀí
¡¡
-- Melissa Evers
Ó¢ÌضûÈí¼þÓëÏȽø¼¼Êõ¸±×ܲÃ
¼æÖ´ÐÐÕ½ÂÔ²¿×ܾÀí
¡¡
¡¡
ÔÚLlama
2·¢²¼Ö®¼Ê£¬ÎÒÃǺܸßÐ˵طÖÏí70ÒÚºÍ130ÒÚ²ÎÊýÄ£Ð͵ijõʼÍÆÀíÐÔÄܲâÊÔ½á¹û¡£ÕâЩģÐÍÔÚÓ¢ÌضûAI²úÆ·×éºÏÉÏÔËÐУ¬°üÀ¨Habana®Gaudi®2
Éî¶Èѧϰ¼ÓËÙÆ÷¡¢µÚËÄ´úÓ¢Ìضû®ÖÁÇ¿®¿ÉÀ©Õ¹´¦ÀíÆ÷¡¢Ó¢Ìضû®ÖÁÇ¿®CPU
MaxϵÁкÍÓ¢Ìضû®Êý¾ÝÖÐÐÄGPU
MaxϵÁС£ÎÒÃÇÔÚ±¾ÎÄÖзÖÏíµÄÐÔÄÜÖ¸±êÊÇÎÒÃǵ±Ç°Èí¼þÌṩµÄ¡°¿ªÏä¼´Óá±µÄÐÔÄÜ£¬²¢ÓÐÍûÔÚδÀ´µÄÈí¼þÖнøÒ»²½ÌáÉý¡£ÎÒÃÇ»¹Ö§³Ö700ÒÚ²ÎÊýÄ£ÐÍ£¬²¢½«ºÜ¿ì·ÖÏí×îÐÂÏà¹ØÐÅÏ¢¡£
¡¡
Habana®Gaudi®2
Éî¶Èѧϰ¼ÓËÙÆ÷
¡¡
Habana Gaudi2Ö¼ÔÚΪÓû§Ìṩ¸ßÐÔÄÜ¡¢¸ßÄÜЧµÄѵÁ·ÓëÍÆÀí£¬ÓÈÆäÊÊÓÃÓÚÖîÈçLlamaºÍLlama
2µÄ´óÓïÑÔÄ£ÐÍ¡£Gaudi2¼ÓËÙÆ÷¾ß±¸96GB HBM2EµÄÄÚ´æÈÝÁ¿£¬¿ÉÂú×ã´óÓïÑÔÄ£Ð͵ÄÄÚ´æÐèÇó²¢Ìá¸ßÍÆÀíÐÔÄÜ¡£Gaudi2Å䱸Habana®SynapseAI®Èí¼þÌ×¼þ£¬¸ÃÌ×¼þ¼¯³ÉÁ˶ÔPyTorchºÍDeepSpeedµÄÖ§³Ö£¬ÒÔÓÃÓÚ´óÓïÑÔÄ£Ð͵ÄѵÁ·ºÍÍÆÀí¡£´ËÍ⣬SynapseAI½üÆÚ¿ªÊ¼Ö§³ÖHPU
GraphsºÍDeepSpeedÍÆÀí£¬×¨ÃÅÕë¶ÔʱÑÓÃô¸Ð¶È¸ßµÄÍÆÀíÓ¦Óá£Gaudi2»¹½«½øÐнøÒ»²½µÄÈí¼þÓÅ»¯£¬°üÀ¨¼Æ»®ÔÚ2023ÄêµÚÈý¼¾¶ÈÖ§³ÖFP8Êý¾ÝÀàÐÍ¡£´ËÓÅ»¯Ô¤¼Æ½«ÔÚÖ´ÐдóÓïÑÔÄ£ÐÍʱ´ó·ùÌá¸ßÐÔÄÜ¡¢ÍÌÍÂÁ¿£¬²¢ÓÐЧ½µµÍÑÓ³Ù¡£
¡¡
´óÓïÑÔÄ£Ð͵ÄÐÔÄÜÐèÒªÁé»îÃô½ÝµÄ¿ÉÀ©Õ¹ÐÔ£¬À´Í»ÆÆ·þÎñÆ÷ÄÚÒÔ¼°¿ç½Úµã¼äµÄÍøÂçÆ¿¾±¡£Ã¿ÕÅGaudi2оƬ¼¯³ÉÁË21¸ö100GbpsÒÔÌ«Íø½Ó¿Ú£¬21¸ö½Ó¿ÚרÓÃÓÚÁ¬½Ó·þÎñÆ÷ÄÚµÄ8¿ÅGaudi2£¬¸ÃÍøÂçÅäÖÃÓÐÖúÓÚÌáÉý·þÎñÆ÷ÄÚÍâµÄÀ©Õ¹ÐÔÄÜ¡£
¡¡
ÔÚ½üÆÚ·¢²¼µÄMLPerf»ù×¼²âÊÔÖУ¬Gaudi2ÔÚ´óÓïÑÔÄ£ÐÍÉÏÕ¹ÏÖÁ˳öÉ«µÄѵÁ·ÐÔÄÜ£¬°üÀ¨ÔÚ384¸öGaudi2¼ÓËÙÆ÷ÉÏѵÁ·1750ÒÚ²ÎÊýµÄGPT-3Ä£ÐÍËùÕ¹ÏֵĽá¹û¡£Gaudi2¾¹ýÑéÖ¤µÄ¸ßÐÔÄÜʹÆä³ÉΪLlamaºÍLlama
2Ä£ÐÍѵÁ·ºÍÍÆÀíµÄ¸ßÄÜЧ½â¾ö·½°¸¡£
¡¡
ͼ1ÏÔʾÁË70ÒÚ²ÎÊýºÍ130ÒÚ²ÎÊýLlama 2Ä£Ð͵ÄÍÆÀíÐÔÄÜ¡£Ä£ÐÍ·Ö±ðÔÚһ̨Habana Gaudi2É豸ÉÏÔËÐУ¬batch
size=1£¬Êä³ötoken³¤¶È256£¬ÊäÈëtoken³¤¶È²»¶¨£¬Ê¹ÓÃBF16¾«¶È¡£±¨¸æµÄÐÔÄÜÖ¸±êΪÿ¸ötokenµÄÑÓ³Ù£¨²»º¬µÚÒ»¸ö£©¡£¸Ã²âÊÔʹÓÃoptimum-habanaÎı¾Éú³É½Å±¾ÔÚLlamaÄ£ÐÍÉÏÔËÐÐÍÆÀí¡£optimum-habana¿âÄܹ»°ïÖú¼ò»¯ÔÚGaudi¼ÓËÙÆ÷Éϲ¿Êð´ËÀàÄ£Ð͵ÄÁ÷³Ì£¬½öÐ輫ÉٵĴúÂë¸ü¸Ä¼´¿ÉʵÏÖ¡£Èçͼ1Ëùʾ£¬¶ÔÓÚ128ÖÁ2000ÊäÈëtoken£¬ÔÚ70ÒÚ²ÎÊýÄ£ÐÍÉÏGaudi2µÄÍÆÀíÑÓ³Ù·¶Î§ÎªÃ¿token
9.0-12.2ºÁÃ룬¶ø¶ÔÓÚ130ÒÚ²ÎÊýÄ£ÐÍ£¬·¶Î§ÎªÃ¿token 15.5-20.4ºÁÃë1¡£
ͼ1 »ùÓÚHabana Gaudi2£¬70ÒÚºÍ130ÒÚ²ÎÊýLlama 2Ä£Ð͵ÄÍÆÀíÐÔÄÜ
¡¡
ÈôÏë·ÃÎÊGaudi2£¬¿É°´ÕÕ´Ë´¦£¨https://developer.habana.ai/intel-developer-cloud/£©ÔÚÓ¢Ìضû¿ª·¢ÕßÔÆƽ̨ÉÏ×¢²áÒ»¸öʵÀý£¬»òÁªÏµ³¬Î¢£¨Supermicro£©Á˽âGaudi2·þÎñÆ÷»ù´¡ÉèÊ©¡£
¡¡
¡¡
µÚËÄ´úÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷ÊÇÒ»¿îͨÓüÆËã´¦ÀíÆ÷£¬¾ßÓÐÓ¢Ìضû®¸ß¼¶¾ØÕóÀ©Õ¹£¨Ó¢Ìضû®AMX£©µÄAI¼ÓËÙ¹¦ÄÜ¡£¾ßÌå¶øÑÔ£¬¸Ã´¦ÀíÆ÷µÄÿ¸öºËÐÄÄÚÖÃÁËBF16ºÍINT8ͨÓþØÕó³Ë£¨GEMM£©¼ÓËÙÆ÷£¬ÒÔ¼ÓËÙÉî¶ÈѧϰѵÁ·ºÍÍÆÀí¹¤×÷¸ºÔØ¡£´ËÍ⣬ӢÌضû®ÖÁÇ¿®CPU
MaxϵÁУ¬Ã¿¿ÅCPUÌṩ64GBµÄ¸ß´ø¿íÄڴ棨HBM2E£©£¬Á½¿Å¹²128GB£¬ÓÉÓÚ´óÓïÑÔÄ£Ð͵Ť×÷¸ºÔØͨ³£Êܵ½ÄÚ´æ´ø¿íµÄÏÞÖÆ£¬Òò´Ë£¬¸ÃÐÔÄܶÔÓÚ´óÄ£ÐÍÀ´Ëµ¼«ÎªÖØÒª¡£
¡¡
Ä¿Ç°£¬Õë¶ÔÓ¢ÌضûÖÁÇ¿´¦ÀíÆ÷µÄÈí¼þÓÅ»¯ÒÑÉý¼¶µ½Éî¶Èѧϰ¿ò¼ÜÖУ¬²¢¿ÉÓÃÓÚPyTorch*¡¢TensorFlow*¡¢DeepSpeed*ºÍÆäËüAI¿âµÄĬÈÏ·¢Ðа档ӢÌضûÖ÷µ¼ÁËtorch.compile
CPUºó¶ËµÄ¿ª·¢ºÍÓÅ»¯£¬ÕâÊÇPyTorch 2.0µÄÆì½¢¹¦ÄÜ¡£Óë´Ëͬʱ£¬Ó¢Ìضû»¹ÌṩӢÌضû®PyTorchÀ©Õ¹°ü*£¨Intel®Extension
for PyTorch*£©£¬Ö¼ÔÚPyTorch¹Ù·½·¢Ðаæ֮ǰ£¬¾¡Ôç¡¢¼°Ê±µØΪ¿Í»§ÌṩӢÌضûCPUµÄÓÅ»¯¡£
¡¡
µÚËÄ´úÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷ÓµÓиü¸ßµÄÄÚ´æÈÝÁ¿£¬Ö§³ÖÔÚµ¥¸ö²å²ÛÄÚʵÏÖÊÊÓÃÓÚ¶Ô»°Ê½AIºÍÎı¾ÕªÒªÓ¦Óõġ¢µÍÑӳٵĴóÓïÑÔÄ£ÐÍÖ´ÐС£¶ÔÓÚBF16ºÍINT8£¬¸Ã½á¹ûչʾÁ˵¥¸ö²å²ÛÄÚÖ´ÐÐ1¸öÄ£ÐÍʱµÄÑÓ³Ù¡£Ó¢Ìضû®PyTorchÀ©Õ¹°ü*Ö§³ÖSmoothQuant£¬ÒÔÈ·±£INT8¾«¶ÈÄ£Ð;ßÓÐÁ¼ºÃµÄ׼ȷ¶È¡£
¡¡
¿¼Âǵ½´óÓïÑÔÄ£ÐÍÓ¦ÓÃÐèÒªÒÔ×ã¹»¿ìµÄËÙ¶ÈÉú³Étoken£¬ÒÔÂú×ã¶ÁÕ߽ϿìµÄÔĶÁËٶȣ¬ÎÒÃÇÑ¡ÔñtokenÑÓ³Ù£¬¼´Éú³Éÿ¸ötokenËùÐèµÄʱ¼ä×÷ΪÖ÷ÒªµÄÐÔÄÜÖ¸±ê£¬²¢ÒÔ¿ìËÙÈËÀà¶ÁÕßµÄÔĶÁËٶȣ¨Ô¼ÎªÃ¿¸ötoken
100ºÁÃ룩×÷Ϊ²Î¿¼¡£Èçͼ2¡¢3Ëùʾ£¬¶ÔÓÚ70ÒÚ²ÎÊýµÄLlama2 BF16Ä£ÐͺÍ130ÒÚ²ÎÊýµÄLlama 2
INT8Ä£ÐÍ£¬µÚËÄ´úÓ¢ÌضûÖÁÇ¿µ¥²å²ÛµÄÑÓ³Ù¾ùµÍÓÚ100ºÁÃë2¡£
¡¡
µÃÒæÓÚ¸ü¸ßµÄHBM2E´ø¿í£¬Ó¢ÌضûÖÁÇ¿CPU
MaxϵÁÐΪÒÔÉÏÁ½¸öÄ£ÐÍÌṩÁ˸üµÍµÄÑÓ³Ù¡£¶øƾ½èÓ¢ÌضûAMX¼ÓËÙÆ÷£¬Óû§¿ÉÒÔͨ¹ý¸ü¸ßµÄÅúÁ¿³ß´ç£¨batch size£©À´Ìá¸ßÍÌÍÂÁ¿¡£
ͼ2 »ùÓÚÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷£¬70ÒÚ²ÎÊýºÍ130ÒÚ²ÎÊýLlama 2Ä£ÐÍ£¨BFloat16£©µÄÍÆÀíÐÔÄÜ
¡¡
ͼ3 »ùÓÚÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷£¬70ÒÚ²ÎÊýºÍ130ÒÚ²ÎÊýLlama 2Ä£ÐÍ£¨INT8£©µÄÍÆÀíÐÔÄÜ
¶ÔÓÚ70ÒÚºÍ130ÒÚ²ÎÊýµÄÄ£ÐÍ£¬Ã¿¸öµÚËÄ´úÖÁÇ¿²å²Û¿ÉÌṩµÍÓÚ100ºÁÃëµÄÑÓ³Ù¡£Óû§¿ÉÒÔ·Ö±ðÔÚÁ½¸ö²å²ÛÉÏͬʱÔËÐÐÁ½¸ö²¢ÐÐʵÀý£¬´Ó¶ø»ñµÃ¸ü¸ßµÄÍÌÍÂÁ¿£¬²¢¶ÀÁ¢µØ·þÎñ¿Í»§¶Ë¡£Òà»òÕߣ¬Óû§¿ÉÒÔͨ¹ýÓ¢Ìضû®PyTorchÀ©Õ¹°ü*ºÍDeepSpeed*
CPU£¬Ê¹ÓÃÕÅÁ¿²¢Ðеķ½Ê½ÔÚÁ½¸öµÚËÄ´úÖÁÇ¿²å²ÛÉÏÔËÐÐÍÆÀí£¬´Ó¶ø½øÒ»²½½µµÍÑÓ³Ù»òÖ§³Ö¸ü´óµÄÄ£ÐÍ¡£
¡¡
¹ØÓÚÔÚÖÁǿƽ̨ÉÏÔËÐдóÓïÑÔÄ£ÐͺÍLlama
2£¬¿ª·¢Õß¿ÉÒÔµã»÷´Ë´¦£¨https://intel.github.io/intel-extension-for-pytorch/llm/cpu/£©Á˽â¸ü¶àÏêϸÐÅÏ¢¡£µÚËÄ´úÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷µÄÔÆʵÀý¿ÉÔÚAWSºÍMicrosoft
AzureÉÏÔ¤ÀÀ£¬Ä¿Ç°ÒÑÔڹȸèÔÆƽ̨ºÍ°¢ÀïÔÆÈ«ÃæÉÏÏß¡£Ó¢Ìضû½«³ÖÐøÔÚPyTorch*ºÍDeepSpeed*½øÐÐÈí¼þÓÅ»¯£¬ÒÔ½øÒ»²½¼ÓËÙLlama
2ºÍÆäËü´óÓïÑÔÄ£ÐÍ¡£
¡¡
Ó¢Ìضû®Êý¾ÝÖÐÐÄGPU
MaxϵÁÐ
¡¡
Ó¢ÌضûÊý¾ÝÖÐÐÄGPU
MaxϵÁÐÌṩ²¢ÐмÆËã¡¢¿Æѧ¼ÆËãºÍÊÊÓÃÓÚ¿Æѧ¼ÆËãµÄAI¼ÓËÙ¡£×÷ΪӢÌضûÐÔÄÜ×îΪ³öÉ«¡¢ÃܶÈ×î¸ßµÄ¶ÀÁ¢ÏÔ¿¨£¬Ó¢ÌضûÊý¾ÝÖÐÐÄGPU
MaxϵÁвúÆ·Öзâ×°³¬¹ý1000ÒÚ¸ö¾§Ìå¹Ü£¬²¢°üº¬¶à´ï128¸öXeÄںˣ¬XeÊÇÓ¢ÌضûGPUµÄ¼ÆËã¹¹½¨Ä£¿é¡£
¡¡
Ó¢ÌضûÊý¾ÝÖÐÐÄGPU MaxϵÁÐÖ¼ÔÚΪAIºÍ¿Æѧ¼ÆËãÖÐʹÓõÄÊý¾ÝÃܼ¯ÐͼÆËãÄ£ÐÍÌṩͻÆÆÐÔµÄÐÔÄÜ£¬°üÀ¨£º
¡¡
¡ñ408 MB»ùÓÚ¶ÀÁ¢SRAM¼¼ÊõµÄL2»º´æ¡¢64MB L1»º´æÒÔ¼°¸ß´ï128GBµÄ¸ß´ø¿íÄڴ棨HBM2E£©¡£
¡ñAIÔöÇ¿Ð͵ÄXeÓ¢Ìضû®¾ØÕóÀ©Õ¹£¨Ó¢Ìضû®XMX£©´îÔØÂö¶¯ÕóÁУ¬ÔÚµ¥Ì¨É豸ÖпÉʵÏÖʸÁ¿ºÍ¾ØÕó¹¦ÄÜ¡£
¡¡
Ó¢ÌضûMaxϵÁвúƷͳһ֧³ÖoneAPI£¬²¢»ùÓÚ´ËʵÏÖͨÓᢿª·Å¡¢»ùÓÚ±ê×¼µÄ±à³ÌÄ£ÐÍ£¬ÊÍ·ÅÉú²úÁ¦ºÍÐÔÄÜ¡£Ó¢ÌضûoneAPI¹¤¾ß°üÀ¨¸ß¼¶±àÒëÆ÷¡¢¿â¡¢·ÖÎö¹¤¾ßºÍ´úÂëǨÒƹ¤¾ß£¬¿ÉʹÓÃSYCLÇáËɽ«CUDA´úÂëǨÒƵ½¿ª·ÅµÄC++¡£
¡¡
Ó¢ÌضûÊý¾ÝÖÐÐÄMaxϵÁÐGPUͨ¹ýµ±½ñ¿ò¼ÜµÄ¿ªÔ´À©Õ¹À´ÊµÏÖÈí¼þÖ§³ÖºÍÓÅ»¯£¬ÀýÈçÃæÏòPyTorch*µÄÓ¢ÌضûÀ©Õ¹¡¢ÃæÏòTensorFlow*µÄÓ¢Ìضû®À©Õ¹ºÍÃæÏòDeepSpeed*µÄÓ¢Ìضû®À©Õ¹¡£Í¨¹ý½«ÕâЩÀ©Õ¹ÓëÉÏÓοò¼Ü°æ±¾Ò»ÆðʹÓã¬Óû§½«Äܹ»ÔÚ»úÆ÷ѧϰ¹¤×÷Á÷ÖÐʵÏÖ¿ìËÙÕûºÏ¡£
¡¡
ÎÒÃÇÔÚÒ»¸ö600ÍßOAMÐÎ̬µÄGPUÉÏÆÀ¹ÀÁËLlama 2µÄ70ÒÚ²ÎÊýÄ£ÐͺÍLlama
2µÄ130ÒÚ²ÎÊýÄ£ÐÍÍÆÀíÐÔÄÜ£¬Õâ¸öGPUÉÏ·â×°ÁËÁ½¸ötile£¬¶øÎÒÃÇֻʹÓÃÆäÖÐÒ»¸ötileÀ´ÔËÐÐÍÆÀí¡£Í¼4ÏÔʾ£¬¶ÔÓÚÊäÈ볤¶ÈΪ32µ½2000µÄtoken£¬Ó¢ÌضûÊý¾ÝÖÐÐÄGPU
MaxϵÁеÄÒ»¸ötile¿ÉÒÔΪ70ÒÚ²ÎÊýÄ£Ð͵ÄÍÆÀíÌṩµÍÓÚ20ºÁÃëµÄµ¥tokenÑÓ³Ù£¬130ÒÚ²ÎÊýÄ£Ð͵ĵ¥tokenÑÓ³ÙΪ29.2-33.8ºÁÃë3¡£ÒòΪ¸ÃGPUÉÏ·â×°ÁËÁ½¸ötile£¬Óû§¿ÉÒÔͬʱ²¢ÐÐÔËÐÐÁ½¸ö¶ÀÁ¢µÄʵÀý£¬Ã¿¸ötileÉÏÔËÐÐÒ»¸ö£¬ÒÔ»ñµÃ¸ü¸ßµÄÍÌÍÂÁ¿²¢¶ÀÁ¢µØ·þÎñ¿Í»§¶Ë¡£
¡¡
ͼ4 Ó¢ÌضûÊý¾ÝÖÐÐÄGPU Max 1550ÉϵÄLlama 2µÄ70ÒÚºÍ130ÒÚ²ÎÊýÄ£Ð͵ÄÍÆÀíÐÔÄÜ
¡¡
¹ØÓÚÔÚÓ¢ÌضûGPUƽ̨ÉÏÔËÐдóÓïÑÔÄ£ÐͺÍLlama
2£¬¿ÉÒÔµã»÷´Ë´¦£¨https://intel.github.io/intel-extension-for-pytorch/llm/xpu/£©»ñÈ¡ÏêϸÐÅÏ¢¡£Ä¿Ç°Ó¢Ìضû¿ª·¢ÕßÔÆƽ̨ÉÏÒÑ·¢²¼Ó¢ÌضûGPU
MaxÔÆʵÀý²âÊÔ°æ¡£
¡¡
Ó¢Ìضûƽ̨ÉϵĴóÓïÑÔÄ£ÐÍ΢µ÷
¡¡
³ýÁËÍÆÀíÖ®Í⣬ӢÌضûÒ»Ö±ÔÚ»ý¼«µØÍƽø΢µ÷¼ÓËÙ£¬Í¨¹ýÏòHugging Face
Transformers¡¢PEFT¡¢AccelerateºÍOptimum¿âÌṩÓÅ»¯£¬²¢ÔÚÃæÏòTransformersµÄÓ¢Ìضû®À©Õ¹ÖÐÌṩ²Î¿¼¹¤×÷Á÷¡£ÕâЩ¹¤×÷Á÷Ö§³ÖÔÚÏà¹ØÓ¢Ìضûƽ̨ÉϸßЧµØ²¿ÊðµäÐ͵ĴóÓïÑÔÄ£ÐÍÈÎÎñ£¬ÈçÎı¾Éú³É¡¢´úÂëÉú³É¡¢Íê³ÉºÍÕªÒª¡£
¡¡
¡¡
ÉÏÊöÄÚÈݽéÉÜÁËÔÚÓ¢ÌضûAIÓ²¼þ²úÆ·×éºÏÉÏÔËÐÐLlama 2µÄ70ÒÚºÍ130ÒÚ²ÎÊýÄ£ÐÍÍÆÀíÐÔÄܵijõʼÆÀ¹À£¬°üÀ¨Habana
Gaudi2Éî¶Èѧϰ¼ÓËÙÆ÷¡¢µÚËÄ´úÓ¢ÌضûÖÁÇ¿¿ÉÀ©Õ¹´¦ÀíÆ÷¡¢Ó¢Ìضû®ÖÁÇ¿®CPU
MaxϵÁкÍÓ¢ÌضûÊý¾ÝÖÐÐÄGPU MaxϵÁС£ÎÒÃǽ«¼ÌÐøͨ¹ýÈí¼þ·¢²¼ÌṩÓÅ»¯£¬ºóÐø»áÔÙ·ÖÏí¸ü¶à¹ØÓÚ´óÓïÑÔÄ£Ðͺ͸ü´óµÄLlama 2Ä£Ð͵ÄÆÀ¹À¡£
2023Äê07ÔÂ25ÈÕ ÓÚÉϺ£
°æȨ×÷Æ· δ¾Ðí¿É ÇëÎðתÔØ¡¡
|