01 飞腾 S5000C 服务器环境搭建实战：PyTorch + CUDA + RTX 4090D 安装与验证

张开发

• 2026/5/4 21:27:55 • 15 分钟阅读

分享文章

01 飞腾 S5000C 服务器环境搭建实战：PyTorch + CUDA + RTX 4090D 安装与验证

飞腾 S5000C 服务器环境搭建实战PyTorch CUDA RTX 4090D 安装与验证一、前言最近在飞腾 S5000C 服务器上搭建深度学习运行环境本文记录一下从硬件信息确认、GPU 驱动检查到 PyTorch 安装和 CUDA 验证的完整过程。如果你手里也是类似的 ARM 服务器或者正在做飞腾平台 NVIDIA GPU 的环境部署希望这篇文章能帮你少走一些弯路。本文环境关键词如下飞腾 S5000CFTC862NVIDIA GeForce RTX 4090 DCUDAPyTorchLinux aarch64 / ARM64二、环境信息本次测试环境如下服务器平台飞腾 S5000CCPU 型号FTC862GPU 数量8 张 NVIDIA GeForce RTX 4090 DNVIDIA 驱动版本580.126.09驱动支持的 CUDA 版本13.0Python 版本3.10系统架构Linux aarch64 / ARM64Conda 环境aq_py310ubuntu 版本Ubuntu 24.04.4 LTS \n \l三、查看 CPU 型号先确认当前服务器的 CPU 型号执行lscpu|grepModel name输出如下(aq_py310) rootubuntu-Rack-Server:~# lscpu | grep Model name Model name: FTC862 BIOS Model name: S5000C/64 Not Specified CPU 2.1GHz可以看到这台服务器的 CPU 型号为FTC862平台信息为S5000C/64。这一步的主要作用是确认当前硬件平台方便后续排查兼容性问题。四、查看 GPU、驱动和 CUDA 信息接着查看 GPU 是否被系统正确识别以及当前 NVIDIA 驱动和 CUDA 支持情况。执行命令nvidia-smi-l输出如下(aq_py310) rootubuntu-Rack-Server:~# nvidia-smi -l Mon Apr 6 19:23:08 2026 ----------------------------------------------------------------------------------------- | NVIDIA-SMI 580.126.09 Driver Version: 580.126.09 CUDA Version: 13.0 | --------------------------------------------------------------------------------------- | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | || | 0 NVIDIA GeForce RTX 4090 D Off | 00000001:08:00.0 Off | Off | | 30% 27C P8 16W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 1 NVIDIA GeForce RTX 4090 D Off | 00000001:09:00.0 Off | Off | | 31% 29C P8 13W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 2 NVIDIA GeForce RTX 4090 D Off | 00000001:0C:00.0 Off | Off | | 30% 30C P8 14W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 3 NVIDIA GeForce RTX 4090 D Off | 00000001:0D:00.0 Off | Off | | 30% 26C P8 19W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 4 NVIDIA GeForce RTX 4090 D Off | 00000004:05:00.0 Off | Off | | 30% 28C P8 14W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 5 NVIDIA GeForce RTX 4090 D Off | 00000004:08:00.0 Off | Off | | 30% 28C P8 16W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 6 NVIDIA GeForce RTX 4090 D Off | 00000004:09:00.0 Off | Off | | 31% 28C P8 27W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | --------------------------------------------------------------------------------------- | 7 NVIDIA GeForce RTX 4090 D Off | 00000004:0C:00.0 Off | Off | | 31% 28C P8 20W / 425W | 15MiB / 24564MiB | 0% Default | | | | N/A | ---------------------------------------------------------------------------------------从上面的信息可以确认当前NVIDIA 驱动版本为580.126.09驱动支持的CUDA 版本为13.0当前机器共识别到8 张 RTX 4090 D每张显卡显存约24GB当前所有显卡状态正常这里补充说明一下nvidia-smi里显示的CUDA Version是驱动支持的最高 CUDA 版本不代表你安装的 PyTorch 必须和它完全一致。只要驱动版本足够新通常可以向下兼容较低版本的 CUDA 运行时。比如本文中驱动支持 CUDA 13.0但实际安装的是PyTorch 对应 CUDA 12.4同样可以正常使用。GPU 信息截图五、安装 PyTorch由于当前环境是Python 3.10Linux aarch64 / ARM64需要使用CUDA 12.4 对应版本这里采用直接安装官方 wheel 包的方式这种方式比直接pip install torch更明确也更适合 ARM 平台。执行命令python-mpipinstallhttps://download.pytorch.org/whl/cu124/torch-2.5.1-cp310-cp310-linux_aarch64.whl这条命令的含义如下torch-2.5.1安装 PyTorch 2.5.1cp310-cp310对应 Python 3.10linux_aarch64对应 Linux ARM64 架构cu124对应 CUDA 12.4这种安装方式的优点是版本更明确不容易装错架构更适合飞腾等 ARM 服务器环境避免pip自动解析时选到不匹配版本六、验证 PyTorch 是否安装成功安装完成后先执行一个简单的验证命令python-cimport torch; print(torch.__version__); print(torch.version.cuda); print(torch.cuda.is_available()); print(torch.cuda.device_count())输出如下/root/miniconda3/envs/aq_py310/lib/python3.10/site-packages/torch/_subclasses/functional_tensor.py:295: UserWarning: Failed to initialize NumPy: No module named numpy (Triggered internally at /pytorch/torch/csrc/utils/tensor_numpy.cpp:84.) cpu _conversion_method_template(devicetorch.device(cpu)) 2.5.1 12.4 True 8从结果可以看到2.5.1PyTorch 安装成功12.4当前 PyTorch 对应的 CUDA 版本True说明 CUDA 可以正常使用8说明成功识别到 8 张 GPU七、关于 NumPy 警告说明在验证输出中可以看到这样一条警告UserWarning: Failed to initialize NumPy: No module named numpy这个问题并不是 PyTorch 安装失败也不是 CUDA 有问题而是当前 Python 环境中还没有安装numpy。建议顺手安装一下python-mpipinstallnumpy安装完成后再执行验证命令这条警告通常就不会再出现了。八、进一步验证测试 GPU 张量计算仅仅看到torch.cuda.is_available()为True还不够最好再做一次真实的 GPU 运算测试。执行下面脚本python -PY import torch print(torch:, torch.__version__) print(cuda version:, torch.version.cuda) print(cuda available:, torch.cuda.is_available()) print(device count:, torch.cuda.device_count()) if torch.cuda.is_available(): x torch.randn(2, 3).cuda() y torch.randn(2, 3).cuda() z x y print(gpu tensor ok) print(z) print(device 0:, torch.cuda.get_device_name(0)) PY输出如下/root/miniconda3/envs/aq_py310/lib/python3.10/site-packages/torch/_subclasses/functional_tensor.py:295: UserWarning: Failed to initialize NumPy: No module named numpy (Triggered internally at /pytorch/torch/csrc/utils/tensor_numpy.cpp:84.) cpu _conversion_method_template(devicetorch.device(cpu)) torch: 2.5.1 cuda version: 12.4 cuda available: True device count: 8 gpu tensor ok tensor([[-1.6702, -1.0425, -1.8767], [-1.3894, -0.3875, 0.3431]], devicecuda:0) device 0: NVIDIA GeForce RTX 4090 D从这段结果可以确认PyTorch 可以正常调用 CUDA张量已经成功放到 GPU 上计算实际运算设备是cuda:0第 0 张显卡名称识别正常NVIDIA GeForce RTX 4090 D这一步通过后说明整个 PyTorch CUDA 环境已经搭建成功可以进入后续模型训练或推理阶段。验证截图九、结论本次在飞腾 S5000C服务器上的环境搭建和验证结果如下CPU 平台识别正常8 张 RTX 4090 D 显卡识别正常NVIDIA 驱动工作正常PyTorch 2.5.1 安装成功CUDA 12.4 运行正常PyTorch 可以正确调用 GPU 执行张量计算整体来看这套环境已经具备深度学习训练、模型推理、多卡任务调度等基础运行条件。十一、常见说明1驱动版本高于 PyTorch 对应 CUDA 版本是正常现象很多人看到nvidia-smi里是 CUDA 13.0torch.version.cuda里是 12.4会担心是不是版本不一致导致有问题。实际上这通常是正常的。因为驱动支持更高版本 CUDA 时往往也能兼容较低版本的运行时。2出现 NumPy 警告不影响基础 CUDA 验证如果看到No module named numpy说明只是当前环境没装numpy补装即可python-mpipinstallnumpy3建议一定要做一次真实 GPU 运算测试只看torch.cuda.is_available()还不够最好像本文一样创建 CUDA 张量做一次加法运算查看输出设备信息这样更能说明环境确实可用。十二、命令汇总1. 查看 CPU 型号lscpu|grepModel name2. 查看 GPU 和驱动信息nvidia-smi-l3. 安装 PyTorchpython-mpipinstallhttps://download.pytorch.org/whl/cu124/torch-2.5.1-cp310-cp310-linux_aarch64.whl4. 安装 NumPypython-mpipinstallnumpy5. 验证 PyTorch 和 CUDApython-cimport torch; print(torch.__version__); print(torch.version.cuda); print(torch.cuda.is_available()); print(torch.cuda.device_count())6. 测试 GPU 张量运算python -PY import torch print(torch:, torch.__version__) print(cuda version:, torch.version.cuda) print(cuda available:, torch.cuda.is_available()) print(device count:, torch.cuda.device_count()) if torch.cuda.is_available(): x torch.randn(2, 3).cuda() y torch.randn(2, 3).cuda() z x y print(gpu tensor ok) print(z) print(device 0:, torch.cuda.get_device_name(0)) PY十三、参考说明本文主要记录的是实际部署过程中的验证结果适合作为飞腾 ARM 服务器安装 PyTorch GPU 环境的参考。如果你后续还需要继续配置torchvisiontorchaudio多卡训练环境NCCL / 分布式训练Docker 容器环境Transformers / 大模型推理环境也可以在这套基础环境上继续扩展。如果这篇文章对你有帮助欢迎点赞、收藏、交流。

更多文章

前端开发 2026/5/4 17:27:46

Wan2.2-I2V-A14B实战：用一张照片生成你的专属短视频

Wan2.2-I2V-A14B实战：用一张照片生成你的专属短视频 1. 引言：让照片动起来的魔法你有没有想过，随手拍的一张照片能变成一段生动的短视频？想象一下，你站在埃菲尔铁塔前的照片突然变成了你漫步在巴黎街头的视频&#…

最近尝试用AI辅助开发一个智能问答机器人前端界面，整个过程意外地顺畅。这种oh my opencode式的开发体验，让我深刻感受到AI如何改变传统编程流程。下面记录下具体实现思路和关键环节： 需求分析与AI沟通首先明确需要实现的核心功能&#xff1…

张开发

前端开发 2026/5/3 4:10:29

Fast-Check高级技巧：如何构建自定义Arbitrary生成器的完整指南

Fast-Check高级技巧：如何构建自定义Arbitrary生成器的完整指南【免费下载链接】fast-check Property based testing framework for JavaScript (like QuickCheck) written in TypeScript 项目地址: https://gitcode.com/gh_mirrors/fa/fast-check Fast-Chec…

张开发

01 飞腾 S5000C 服务器环境搭建实战：PyTorch + CUDA + RTX 4090D 安装与验证

最新文章

EF Core 10向量搜索扩展仅支持.NET 8+？不！这3种降级兼容方案已被头部金融客户验证上线

从Kaggle竞赛到工业落地：MATLAB环境下XGBoOST调参的实战避坑指南

保姆级教程：用Python和LQR从零实现自动驾驶横向控制（附MATLAB代码对比）

别再自己搭文件服务器了！Spring Boot整合阿里云OSS，5分钟搞定图片上传功能

高德/百度地图API实战：如何用AOI数据给你的POI打上“商圈”标签？

架构师视角：vue-office在企业级文档预览系统中的技术实现与优化策略

推荐文章

相关文章

分享文章

更多文章

Wan2.2-I2V-A14B实战：用一张照片生成你的专属短视频

OpenClaw浏览器自动化：Phi-3-vision-128k-instruct网页图文信息抓取实战

【ARIMA-SSA-LSTM】合差分自回归移动平均方法-麻雀优化-长短期记忆神经网络研究附Python代码

jsTree终极问题排查指南：10个开发者必须掌握的实用技巧

QuaggaJS终极指南：轻松启用EAN-2/EAN-5扩展解码功能

告别虚拟机！在Windows 11的WSL2里搞定RK3588交叉编译环境（基于gcc-linaro-7.5.0）

如何在浏览器中实现实时人物移除：TensorFlow.js完整指南

终极指南：5个实用技巧实现Awesome ESLint插件文档自动化生成

JustTrustMe终极指南：Android SSL绕过技术的演进与挑战

重构魔兽争霸III地图编辑：HiveWE的技术革新与性能突破

AI辅助开发新体验：让快马平台智能生成oh my opencode式的交互式聊天应用

Fast-Check高级技巧：如何构建自定义Arbitrary生成器的完整指南