随着AI技术的快速发展和普及,中小企业对AI应用的需求正在快速增长。特别是生成式AI和国内DeepSeek大模型技术的出现,使得中小企业看到了通过AI提升效率和竞争力的机会。例如:企业已经开始尝试将AI应用于销售流程优化、客户服务提升以及工厂生产数据统计、分析,提升产能及效率等领域。
尽管需求旺盛,但AI应用中仍面临诸多挑战:
·成本问题:AI基础设施和模型开发需要大量资金投入,企业成本高。
·技术门槛:AI技术复杂,企业缺乏专业人才和技术经验。
·数据基础薄弱:企业在数据标注和基础设施建设方面存在不足,制约了AI技术的落地。
·缺乏明确的落地路径:API应用涉及数据出域,数据有外泄安全风险。
目前市场上出现DeepSeek一体机“百团大战“,信息繁杂,企业用户一时难消化、选择,宏创盛安结合Intel最新的至强6性能核CPU,针对中小企业AI应用需求,推出性能、效率俱佳的“标枪“级DeepSeek一体机本地化解决方案,为企业提供简洁、高效的DeepSeek本地化部署选项。
对于中小企业来说,选择合适的蒸馏模型需要在性能、成本、部署难度和应用场景之间找到平衡。DeepSeek 本地部署所需的资源取决于多个因素,包括模型规模、应用场景(推理/训练)、性能需求(响应速度/吞吐量)以及是否使用量化等技术。
Intel最新推出的至强6性能核CPU,采用30A制程工艺,与上一代产品相比,至强6处理器在广泛的企业工作负载中实现了平均1.4倍的性能提升。作为AI系统的机头节点CPU,至强6可与GPU搭配,为客户提供优选组合。此外,它以更少的核心数量,提供高达1.5倍的AI推理性能提升。至强6处理器还具备出色的每瓦性能效率,以5年使用周期计,平均可以实现以一台新的服务器替代五台旧服务器,在某些用例中该比例可达10:1,从而节省高达68%的总体拥有成本(TCO)。
DeepSeek的蒸馏模型通过压缩大模型的知识到更小的模型中,其中,DeepSeek-R1-Distill-Llama-70B模型在保持高性能的同时显著降低了计算资源需求。
Javelin DeepSeek All in One
硬件规格
·支持8张双宽全高GPU,每卡显存24GB,FP16算力约366.4 TFLOPS
·双路6767P 至强6 CPU,128核心,256线程,2.4-3.0GHz频率
·支持MRDIMM DDR5内存,8路通道,速率高达8000MT/s
·支持PCIe5.0 NVMe SSD热插拔硬盘,速率达Read:12GB/s,R/W:6GB/s。
DeepSeek性能数据
并发数
·部署DeepSeek-R1-Distill-Llama-70B模型最小显存需求约为180GB,为满足70B大模型显存需求,推荐算力配置为:8张Nvidia 24GB GPU卡(8*24=192GB显存)。实测使用vllm在本地部署,在300并发下能无延迟使用。
·部署DeepSeek-R1-Distill-Qwen-32B模型最小显存需求约为80GB,为满足32B大模型显存需求,推荐算力配置为:4张Nvidia 24GB GPU卡(4*24=96GB显存)。实测使用vllm在本地部署,在300并发下能无延迟使用。
NCCL Bus BW带宽
NCCL(NVIDIA Collective Communication Library)Bus BW测试是一种用于评估GPU之间通信性能的工具。它通过测量集体通信操作(如AllReduce、Broadcast等)的带宽,反映硬件的实际使用效率。
·256GB内存总线带宽18.42GB/s
·512GB内存总线带宽21.06GB/s,提升14%
vLLM Benchmark
vLLM(Very Large Language Model)Benchmark测试是一套用于评估大语言模型推理性能的基准测试工具,主要用于衡量模型在不同工作负载下的表现。
模型 | 内存(GB) | GPU-24GB | Token Throughput |
DeepSeek-R1-Distill-Llama-70B | 8*32 | 8*4090 | 1870 Token/s |
16*32 | 8*4090 | 2187 Token/s | |
DeepSeek-R1-Distill-Qwen-32B | 16*32 | 4*4090 | 3072 Token/s |
16*32 | 8*4090 | 3849 Token/s |
在Intel XEON6性能核CPU+ NVIDIA平台上,通过vLLM实现DeepSeek-70B中等规模模型本地化私有化部署,数据安全落在企业本地,该配置在量化推理场景下可流畅运行70B模型,可供300个用户同时在线使用,满足中等规模企业推理服务应用需求。