借助亚马逊云科技的技术服务，以最低成本实现高性能的生成式ai推理-凯发官网首页

随着能够创建类人文本、图像、代码和音频的生成式人工智能模型的兴起，人工智能（ai）和机器学习（ml）的世界见证了模式的转变。与传统的机器学习模型相比，生成式ai模型要大得多，也复杂得多。然而，这种模型增加了复杂性，也带来了高昂的推理成本，以及对强大计算资源日益增长的需求。对于资源有限的企业和研究人员来说，生成式ai模型的高推理成本可能会成为进入市场的障碍，因此需要更高效、更具成本效益的凯发k8国际首页的解决方案。此外，大多数生成式ai使用案例都涉及人机交互或真实世界场景，因此需要能提供低延迟性能的硬件。亚马逊云科技一直在利用专用芯片进行创新，以满足对功能强大、高效且经济实惠的计算硬件的日益增长的需求。

近日，亚马逊云科技宣布amazon sagemaker支持基于aws inferentia2（ml.inf2）和aws trainium（ml.trn1）的sagemaker实例，以托管用于实时推理和异步推理的生成式ai模型。ml.inf2实例可在美国东部（俄亥俄）的sagemaker上部署模型，ml.trn1实例可在美国东部（弗吉尼亚北部）的sagemaker上部署模型。

现在可以在sagemaker上使用这些实例，以低成本实现生成式ai模型的高性能，包括大型语言模型（llm）、stable diffusion和vision transformers。此外，还可以使用amazon sagemaker inference recommender来协助您运行负载测试，并评估在这些实例上部署模型的性价比优势。并且可以使用ml.inf2和ml.trn1实例在sagemaker上运行机器学习应用程序，以实现文本摘要、代码生成、视频和图像生成、语音识别、个性化、欺诈侦测等。要轻松上手，可以在配置sagemaker端点时首先指定ml.trn1或ml.inf2实例。然后将兼容ml.trn1和ml.inf2的aws deep learning containers（dlc）用于pytorch、tensorflow、hugging face和大型模型推理（lmi）。

此篇文章将展示利用lmi容器，在不需要任何额外编码的情况下，使用sagemaker在aws inferentia2上部署大型语言模型的过程。使用gpt4all-j，这是一种经过微调的gpt-j 7b模型，可提供聊天机器人风格的互动。

ml.trn1和ml.inf2实例概述

ml.trn1实例由trainium加速器提供支持，该加速器主要用于生成式ai模型（包括llm）的高性能深度学习训练。不过，这些实例也支持比inf2所适合的模型更大的推理工作负载。最大的实例（trn1.32xlarge实例）在单个实例中配备了16个trainium加速器和512 gb加速器内存，可提供高达3.4 petaflops的fp16/bf16计算能力。16个trainium加速器通过超高速neuronlinkv2进行连接，这样可简化集体通信。

ml.inf2实例由aws inferentia2加速器提供支持，这是一款专为推理而构建的加速器。与第一代aws inferentia相比，这款加速器的计算性能提高了三倍，吞吐量提高了四倍，延迟降低了多达10倍。最大的实例inf2.48xlarge在单个实例中配备了12个aws inferentia2加速器和384 gb加速器内存，bf16/fp16的综合计算能力为2.3 petaflops。这使您能够在单个实例中部署包含多达1750亿个参数的模型。inf2是唯一提供这种互连功能的推理优化实例，而这种功能只有在更昂贵的训练实例中才有。对于单个加速器无法容纳的超大型模型，数据可通过neuronlink直接在加速器之间流动，完全绕过cpu。借助neuronlink，inf2支持更快的分布式推理，并提高吞吐量、降低延迟。

aws inferentia2和trainium加速器都有两个neuroncores-v2、32 gb hbm内存堆栈和专用的集体计算引擎，在进行多加速器推理时，通过重叠计算和通信自动优化运行时系统。

aws neuron sdk

aws neuron是用于在基于aws inferentia和trainium的实例上运行深度学习工作负载的sdk。aws neuron包括深度学习编译器、运行时系统和原生集成到tensorflow和pytorch中的工具。利用neuron，可以在ml.trn1和ml.inf2上开发、分析和部署高性能机器学习工作负载。

neuron编译器接受各种格式的机器学习模型（tensorflow、pytorch、xla hlo），并对这些模型进行优化，以便在neuron设备上运行。在机器学习框架内调用neuron编译器，而在该框架内，机器学习模型由neuron框架插件发送给编译器。由此产生的编译器构件称为neff文件（neuron可执行文件格式），neuron运行时系统会将该文件加载到neuron设备中。

neuron运行时系统由内核驱动程序和c/c 库组成，这些库提供api来访问aws inferentia和trainium neuron设备。适用于tensorflow和pytorch的neuron机器学习框架插件使用neuron运行时系统在neuroncore上加载和运行模型。neuron运行时系统将编译好的深度学习模型（neff）加载到neuron设备上，并针对高吞吐量和低延迟进行优化。

使用sagemaker ml.inf2实例托管nlp模型

transformers-neuronx是一个开源库，可将模型的大型权重矩阵分片到多个neuroncore上，在深入研究如何使用该库为llm提供服务之前，先简单了解一下可用于单个neuroncore的模型的典型部署流程。

查看支持的模型列表，确保aws inferentia2支持该模型。接下来，需要使用neuron编译器对模型进行预编译。可以使用sagemaker notebook或amazon elastic compute cloud（amazon ec2）实例来编译模型。可以借助sagemaker python sdk，使用pytorch等流行的深度学习框架部署模型。可以将模型部署到sagemaker托管服务，并获得可用于推理的端点。这些端点是完全托管的，支持自动扩缩。

使用sagemaker ml.inf2实例托管llm

大型语言模型通常具有数十亿个参数，规模太大，单个加速器无法容纳。这就需要使用模型并行技术，在多个加速器上托管llm。托管llm的另一个关键要求是实施高性能的模型服务凯发k8国际首页的解决方案。该凯发k8国际首页的解决方案应该能够高效地加载模型、管理分区，并通过http端点无缝地处理请求。

sagemaker包括专门的deep learning containers（dlc）、库和工具，用于模型并行化和大型模型推理。sagemaker使用流行的开源库维护dlc，以便在亚马逊云科技基础设施上托管gpt、t5、opt、bloom和stable diffusion等大型模型。这些专用的dlc称为sagemaker lmi容器。

sagemaker lmi容器使用djlserving，这是一种与transformers-neuronx库集成的模型服务器，可支持neuroncore之间的张量并行。djl模型服务器和transformers-neuronx库是容器的核心组件，其中还包括neuron sdk。这种设置便于将模型加载到aws inferentia2加速器上，在多个neuroncore上并行处理模型，并通过http端点提供服务。

lmi容器支持从amazon simple storage service（amazon s3）存储桶或hugging face hub加载模型。默认的处理程序脚本会加载模型，将模型编译并转换为neuron优化格式，然后再次加载模型。要使用lmi容器托管llm，有两种选择：

无代码（首选）——这是使用lmi容器部署llm的最简单方法。在这种方法中，您可以使用提供的默认处理程序，只需传递模型名称和serving.properties文件中所需的参数，即可加载和托管模型。要使用默认处理程序，我们需要将entrypoint参数设置为djl_python.transformers-neuronx。

自带脚本——在这种方法中，您可以选择创建自己的model.py文件，其中包含加载和服务模型所需的代码。该文件充当djlserving api 和transformers-neuronx api之间的中介。要自定义模型加载过程，可以为serving.properties提供可配置的参数。

运行时系统架构

tensor_parallel_degree属性值决定了张量并行模块在多个neuroncore上的分布。例如，inf2.24xlarge有六个aws inferentia2加速器。每个aws inferentia2加速器都有两个neuroncore。每个neuroncore都有一个16 gb的专用高带宽内存（hbm），用于存储张量并行模块。当张量并行度为4时，lmi将为同一模型分配三个模型副本，每个副本使用4个neuroncore。如下图所示，当lmi容器启动时，将首先在cpu可寻址内存中加载和跟踪模型。跟踪完成后，根据张量并行度跨neuroncore对模型进行分区。

lmi使用djlserving作为其模型服务堆栈。在sagemaker中通过容器的运行状况检查后，容器即可处理推理请求。djlserving启动相当于total number of neuron cores/tensor_parallel_degree的多个python进程。每个python进程都包含相当于tensor_parallel_degree的c 线程。每个c 线程在一个neuroncore上保存一个模型分片。

当使用多个独立请求调用服务器时，许多实践者（python进程）倾向于按顺序运行推理。尽管设置起来更容易，但利用加速器的计算能力通常不是最佳实践。为解决这一问题，djlserving提供了动态批处理的内置优化功能，可在服务器端将这些独立的推理请求动态合并成一个更大的批处理，以提高吞吐量。所有请求都先到达动态批处理器，然后才进入实际的作业队列等待推理。您可以使用serving.properties中的batch_size设置，为动态批处理设置首选的批处理大小。您还可以配置max_batch_delay，根据延迟要求指定批处理器中等待其他请求加入批处理的最长延迟时间。吞吐量还取决于模型副本的数量和容器中启动的python进程组。如下图所示，当张量并行度设置为4时，lmi容器会启动三个python进程组，每个进程组都包含模型的完整副本。这使您可以增加批处理大小，获得更高的吞吐量。

用于部署llm的sagemaker notebook

在本节中，逐步演示如何部署gpt4all-j，这是一种包含60亿个参数的模型，采用fp32时有24 gb。gpt4all-j是一款流行的聊天机器人，接受过的训练包括单词问题、对话、代码、诗歌、歌曲和故事等各种交互内容。gpt4all-j是一种经过微调的gpt-j模型，可产生与人类互动类似的响应。

github上提供完整的notebook示例。可以使用sagemaker python sdk将模型部署到inf2实例。我们使用提供的默认处理程序来加载模型。这样，我们只需提供一个servings.properties文件。此文件具有djl模型服务器下载和托管模型所需的配置。我们可以使用model_id参数指定hugging face模型的名称，以便直接从hugging face存储库下载模型。或者，您也可以通过提供s3url参数从amazon s3下载模型。entrypoint参数配置为指向用于加载模型的库。

tensor_parallel_degree属性值决定了张量并行模块在多个设备上的分布。例如，如果有12个neuroncore，张量并行度为4，那么lmi将分配3个模型副本，每个副本使用4个neuroncore。您还可以使用属性dtype定义精度类型。n_position参数定义了模型的最大输入和输出序列长度之和。

总结

综上所述，此文展示了sagemaker新推出的功能，它现在支持ml.inf2和ml.trn1实例来托管生成式ai模型。并且演示了如何在不编写任何代码的情况下，使用sagemaker和lmi容器在aws inferentia2上部署生成式ai模型gpt4all-j。还展示了如何使用djlserving和transformers-neuronx加载模型、对模型进行分区和提供服务。

原标题：在amazon sagemaker上使用aws inferentia2和aws trainium以最低成本实现高性能的生成式人工智能推理

原链接：

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

推荐内容

借助亚马逊云科技的技术服务，以最低成本实现高性能的生成式ai推理

乾瑞晟达：促再生能源的大规模发展，助国内再生能源快速蓬勃兴起

甲等20十八酒坊金奖明星演唱会在省会石家庄震撼开唱

超品日销量与口碑双提升 高培成学生奶粉热度第一

早诊早治 诊后支持，实现阿尔茨海默病全病程照护管理

在崽崽zepeto开启沉浸式社交体验，大胆创造做自己

帮扶女性创业 钱小乐用资金支持为她们开启希望

《2023年精准护肤趋势报告》发布 amiro觅光领航精准护肤新赛道

名不见经传的保安竟成音乐节现场最大黑马？

抢跑“双节”档，共庆中国圆，解码“节节”攀升的小糊涂仙品牌热

gartner发布ccaas魔力象限报告，亚马逊云科技获评领导者

孕妇如何补钙？科学补钙第一位

国联易安：如何降低网络安全漏洞被利用的风险

亚马逊云科技借助云原生安全特性，为客户提供端到端的安全防护能力

光耀杭城！三雄极光助力打造首届碳中和亚运会

1min搞懂什么是面部轮廓 新疆整形美容医院

康姿百德床垫透气性优秀，跟湿气说拜拜

形点商场国庆豪派逾160万礼遇迎旅客，更有香港地道啤酒节及中秋盛会燃爆全场

一场超乎想象的“火星大冒险”，2023火星探寻计划即将开启

数字化推动财富管理转型发展 百融云创打造财富管理“4 1”体系

免费入驻资源赚收益2023鼻整形实用技术研讨会在山东壹美集团隆重举行

《一玩就懂：50个趣味游戏助力财商启蒙》新书发布

智美品质医美荣获官方认证【放心美·标杆之星】，医美界的引领者

启研正式签约成为博鳌乐城医疗健康产业促进会名誉理事长单位

权威专家学者走访伊利奶粉智慧工厂 点赞伊利金领冠奶粉品质

“你好boe·2023”品牌巡展首站活动在成都开幕 创新科技让敦煌文化焕新生

罗格朗逸景plus新品发布,开关薄至4.5mm

京东家电家居：服务软实力、供应链硬实力，助消费者厨居生活轻松焕新

en 科技携silk系列美标产品亮相re 国际太阳能展览会

高频科技受邀参加2023北京ic world大会，助力产业创“芯”发展

康姿百德床垫很贴心，为您打造舒适无忧的睡眠环境

“不忘知青岁月，青春当如是”——2023彩丝带长白山振国养生谷健康游学营第六期主题活动及闭营仪式（三）

传递亚运精神，“圣都整装冠军号”亚运专列闪耀启航

新品与数字虚拟齐亮相，回力1927发布会带飞“国潮”

天津乾瑞晟达在2023中国国际智能产业博览会打出特色牌 ——满足新能源汽车关键部件综合配套需求

鼎鑫鸿鄴：作为新能源“主力军” 未来仍需付出巨大努力

极空间nas：电影迷的福音！用极影视打造完美影视库

天津乾瑞晟达：储备前沿新技术 迭代升级产业结构

鼎鑫鸿鄴专注新型固态锂电池 占领新能源汽车核心产业领域

三大湖湘礼亮相2023外交官中国文化论坛 和成天下作为湖湘文化代表礼赠外宾

一家四口选车记，捷途旅行者与哈弗二代大狗如何选？

携手后冬奥，共赴新未来——2023国际冬季运动（北京）博览会开幕

霍启刚履新任中粮集团外部董事有何影响？外部董事有何职能？

关注肝脏健康，losoki解锁护肝新方式

“亚运信箱”新加坡站顺利举办

深耕行业多年，却没有创收渠道？计研数字助您创收

品诺福利成立八周年：奋斗八载，心怀远梦！

季节交替，真福医药提醒您：预防传染病和心血管疾病正当时

“康复分享感党恩”——2023彩丝带健康游学营第三期花絮

大模型为各行各业带来智能凯发k8国际首页的解决方案 百融云创引领垂直产业大模型革新

借助亚马逊云科技的技术服务，以最低成本实现高性能的生成式ai推理

乾瑞晟达：促再生能源的大规模发展，助国内再生能源快速蓬勃兴起

甲等20十八酒坊金奖明星演唱会在省会石家庄震撼开唱

超品日销量与口碑双提升 高培成学生奶粉热度第一

早诊早治 诊后支持，实现阿尔茨海默病全病程照护管理

在崽崽zepeto开启沉浸式社交体验，大胆创造做自己

帮扶女性创业 钱小乐用资金支持为她们开启希望

《2023年精准护肤趋势报告》发布 amiro觅光领航精准护肤新赛道

名不见经传的保安竟成音乐节现场最大黑马？

抢跑“双节”档，共庆中国圆，解码“节节”攀升的小糊涂仙品牌热

gartner发布ccaas魔力象限报告，亚马逊云科技获评领导者

孕妇如何补钙？科学补钙第一位

国联易安：如何降低网络安全漏洞被利用的风险

亚马逊云科技借助云原生安全特性，为客户提供端到端的安全防护能力

光耀杭城！三雄极光助力打造首届碳中和亚运会

康姿百德床垫透气性优秀，跟湿气说拜拜

1min搞懂什么是面部轮廓 新疆整形美容医院

形点商场国庆豪派逾160万礼遇迎旅客，更有香港地道啤酒节及中秋盛会燃爆全场

一场超乎想象的“火星大冒险”，2023火星探寻计划即将开启

《一玩就懂：50个趣味游戏助力财商启蒙》新书发布

数字化推动财富管理转型发展 百融云创打造财富管理“4 1”体系

免费入驻资源赚收益2023鼻整形实用技术研讨会在山东壹美集团隆重举行

启研正式签约成为博鳌乐城医疗健康产业促进会名誉理事长单位

智美品质医美荣获官方认证【放心美·标杆之星】，医美界的引领者

权威专家学者走访伊利奶粉智慧工厂 点赞伊利金领冠奶粉品质

“你好boe·2023”品牌巡展首站活动在成都开幕 创新科技让敦煌文化焕新生

en 科技携silk系列美标产品亮相re 国际太阳能展览会

京东家电家居：服务软实力、供应链硬实力，助消费者厨居生活轻松焕新

罗格朗逸景plus新品发布,开关薄至4.5mm

超品日销量与口碑双提升高培成学生奶粉热度第一

早诊早治诊后支持，实现阿尔茨海默病全病程照护管理

帮扶女性创业钱小乐用资金支持为她们开启希望

1min搞懂什么是面部轮廓新疆整形美容医院

数字化推动财富管理转型发展百融云创打造财富管理“4 1”体系

权威专家学者走访伊利奶粉智慧工厂点赞伊利金领冠奶粉品质

“你好boe·2023”品牌巡展首站活动在成都开幕创新科技让敦煌文化焕新生

天津乾瑞晟达：储备前沿新技术迭代升级产业结构

鼎鑫鸿鄴专注新型固态锂电池占领新能源汽车核心产业领域

三大湖湘礼亮相2023外交官中国文化论坛和成天下作为湖湘文化代表礼赠外宾

大模型为各行各业带来智能凯发k8国际首页的解决方案百融云创引领垂直产业大模型革新

超品日销量与口碑双提升高培成学生奶粉热度第一

早诊早治诊后支持，实现阿尔茨海默病全病程照护管理

帮扶女性创业钱小乐用资金支持为她们开启希望

1min搞懂什么是面部轮廓新疆整形美容医院

数字化推动财富管理转型发展百融云创打造财富管理“4 1”体系

权威专家学者走访伊利奶粉智慧工厂点赞伊利金领冠奶粉品质

“你好boe·2023”品牌巡展首站活动在成都开幕创新科技让敦煌文化焕新生

鼎鑫鸿鄴专注新型固态锂电池占领新能源汽车核心产业领域

天津乾瑞晟达：储备前沿新技术迭代升级产业结构

三大湖湘礼亮相2023外交官中国文化论坛和成天下作为湖湘文化代表礼赠外宾

大模型为各行各业带来智能凯发k8国际首页的解决方案百融云创引领垂直产业大模型革新

鼎鑫鸿鄴不断加大技术研发力度向着全球一流的新能源企业迈进!

梵大集团亮相广州美博会希卡贝尔探寻优质原料

打造4-in超级供应链中港原创箱包时尚周火热开幕

科技创新，价值兴医糖吉医疗与长春嘉和外科医院成功签约，构建减重代谢发展新格局

京东app上线基金频道让用户轻松了解怎么购买基金理财

闪送杭州骑士之家启动“迎亚运‘小哥学英语’企业课堂“活动

中秋送礼佳品纽瑞健低gi草饲中老年奶粉

鼎鑫鸿鄴引领国内储能发展开拓海外市场

百融云创聚焦中小企业融资难题打造破解融资难题的数智利器

2023冬博会将启全球共议冰雪发展

品味与格调尽在西朗服饰杭州西服定制

战马奋蹄为山海狂冠军证明强大热血永驻心头

够野|才有为座为@有为青年陈一中，撒野奔跑吧！

精研齿艺口腔学术盛会 | 2023柏乐口腔第四届大医精诚杯病例大赛

双碳引领绿色征程创维光伏“碳”索演绎乡村振兴新画卷