DGX Spark 入门指南

恭喜您获得了新的 NVIDIA DGX Spark！本指南将引导您完成初始设置过程，并帮助您运行第一个 AI 模型。

初始设置

1. 硬件设置

开箱: 小心地从包装中取出 DGX Spark
连接电源: 接上电源适配器
网络连接: 通过以太网（推荐）或 WiFi 连接到网络
外设: 连接键盘、鼠标和显示器

2. 首次启动

DGX Spark 预装了 NVIDIA AI 软件栈。首次启动时：

按照屏幕上的设置向导操作
创建您的用户账户
配置网络设置
如有提示，更新系统组件

3. 系统更新

保持系统最新：

sudo apt update
sudo apt upgrade

预装软件

您的 DGX Spark 包括：

NVIDIA 驱动程序: 最新的 GPU 驱动
CUDA 工具包: 完整的 CUDA 开发环境
NVIDIA NIM: 优化的模型部署平台
Docker: AI 工作负载的容器平台
Python: Python 3.x 和 pip
AI 框架: PyTorch、TensorFlow（可通过容器安装）

运行第一个模型

使用 NVIDIA NIM

NVIDIA NIM 为流行模型提供优化的推理：

# 拉取模型容器
docker pull nvcr.io/nvidia/nim/meta/llama-3-8b-instruct:latest

# 运行模型
docker run --gpus all -p 8000:8000 \
  nvcr.io/nvidia/nim/meta/llama-3-8b-instruct:latest

使用 Ollama

Ollama 已预配置，便于模型管理：

# 安装 Ollama（如果尚未安装）
curl -fsSL https://ollama.com/install.sh | sh

# 运行模型
ollama run llama3

# 或尝试 DeepSeek
ollama run deepseek-r1

使用 Python

创建一个简单的 Python 脚本来测试系统：

import torch

# 检查 CUDA 可用性
print(f"CUDA 可用: {torch.cuda.is_available()}")
print(f"CUDA 设备: {torch.cuda.get_device_name(0)}")

# 简单的张量运算
x = torch.randn(1000, 1000, device='cuda')
y = torch.randn(1000, 1000, device='cuda')
z = torch.matmul(x, y)

print("矩阵乘法成功完成！")

性能优化技巧

内存管理

监控内存使用：nvidia-smi
使用混合精度训练（FP16/BF16）
利用 NVIDIA 优化的库

模型选择

从较小的模型开始测试
根据需求扩展
使用量化模型进行推理（FP4/INT8）

容器使用

使用 NVIDIA NGC 容器获得优化性能
在本地缓存容器以节省下载时间
使用 Docker Compose 组织项目

连接两台 DGX Spark 系统

对于最多 4050 亿参数的模型，连接两个系统：

通过 NVIDIA ConnectX 网络连接系统
配置多节点训练
使用 NVIDIA 的分布式训练库

故障排除

常见问题

系统无法启动:

检查电源连接
验证显示器连接
尝试恢复模式（参见文档）

未检测到 CUDA:

# 检查 NVIDIA 驱动
nvidia-smi

# 如需重新安装
sudo apt install --reinstall nvidia-driver-XXX

模型加载失败:

检查可用内存
验证模型兼容性
尝试较小的模型大小

资源

官方文档: docs.nvidia.com/dgx/dgx-spark
NVIDIA 论坛: forums.developer.nvidia.com
AI Workbench: nvidia.com/ai-workbench

下一步

现在您已经设置完成，探索：

在您自己的数据上微调模型
构建本地 RAG 系统
尝试多模态模型
开发边缘 AI 应用

祝您使用 DGX Spark 开发愉快！

DGX Spark 入门指南 - 设置与第一步