$1,399 预算，给 AI 助手选一台主机

我有一个 24/7 运行的 AI 助手，需要一台专用主机来承载它。

预算 $1,399，但也值得看看更便宜的入门选项。五个选项摆在面前：$799 的 Mac Mini M4、$249 的 Jetson Orin Nano 8GB、$1,399 的 Mac Mini M4 Pro、Mini PC + NVIDIA 独显、NVIDIA Jetson AGX Orin 64GB。

这篇文章记录我的选择过程，以及最终为什么走了一条完全不同的路。

五条路线

在正式对比之前，先看两个入门级选项——它们的预算远低于 $1,399，但在某些场景下可能已经够用。

Mac Mini M4 基础版（16GB 统一内存）

$799。苹果官方定价，16GB 统一内存、10 核 CPU、10 核 GPU。

对于这个价位来说，它的综合素质很强：

16GB 统一内存够跑小模型。 7B–13B 的量化模型可以流畅运行。
能效比极高。 整机功耗不到 20W，比 Jetson 还安静。
开箱即用。 macOS + Homebrew + MLX，半小时就能跑起 llama.cpp。

但和 M4 Pro 版一样的硬伤：

没有 CUDA。 主流 AI 工具链的兼容性问题依然存在。
16GB 是硬上限。 跑 34B+ 模型基本没戏，未来升级无门。
GPU 核心少。 10 核 GPU 的推理吞吐量有限，适合个人使用但难以做服务。

如果你只需要一台安静、低功耗的机器跑 7B 模型做日常助手，$799 的 Mac Mini 也算合理。但如果你对模型大小有追求，它的天花板来得很快。

Jetson Orin Nano 8GB

~$249。NVIDIA 嵌入式 AI 平台的入门款。

8GB 统一内存 + CUDA。 能跑 7B 量化模型，而且是原生 CUDA，工具链兼容性远好于 Mac。
1,024 CUDA cores。 算力不大，但对于小模型推理够用。
功耗极低（7–15W）。 24/7 运行电费几乎可以忽略。
价格最低。 不到 $250 就能拿到一台 CUDA 设备。

问题也很明显：

8GB 内存太紧张。 系统本身要占一部分，实际留给模型的可能只有 5–6GB。13B 模型勉强，再大就跑不动了。
CPU 极弱。 6 核 ARM A78AE，单核性能大约只有桌面 x86 的 1/3。编译、数据处理会很慢。
ARM 生态的老问题。 很多包没有预编译版本，折腾是日常。

我的 AI 助手最早就跑在 Orin Nano 上，它确实能用，但「能用」和「好用」之间差距不小。

Mac Mini M4 Pro（24GB 统一内存）

约 $1,399。苹果的统一内存架构对大语言模型推理很友好——24GB 内存可以直接被 GPU 核心访问，没有 PCIe 带宽瓶颈。MLX 框架的优化也在快速跟进。

但问题很明显：

没有 CUDA。 整个 AI 生态系统的主流工具链都围绕 NVIDIA 构建。PyTorch、vLLM、llama.cpp 的 CUDA 后端——Mac 上要么不支持，要么要额外适配。
macOS 生态限制。 很多 Linux-first 的工具需要折腾。Docker 在 Mac 上跑 Linux 容器性能有损耗。
只有 24GB。 统一内存虽然高效，但容量就这么多。跑 70B 量化模型会很紧张。

适合做日常开发机，但作为 AI 推理服务器，生态兼容性是硬伤。

Mini PC + RTX 4060/4070

$1,200–$1,500 的区间可以组一台 i5/Ryzen 5 + 32–64GB 内存 + RTX 4060 Ti 16GB 的机器。

优势很直接：

x86 + Linux + CUDA，兼容性最好。 几乎所有 AI 工具开箱即用。
可升级。 内存、显卡都能换。
软件生态完整。 Docker、systemd、SSH，标准 Linux 服务器该有的都有。

缺点也很直接：

显存是瓶颈。 RTX 4060 只有 8GB 显存，4060 Ti 也只有 16GB。跑大模型要靠 CPU offload，速度断崖式下降。
功耗和体积。 比 Jetson 大得多，也吃电得多。
显存和内存分离。 不像统一内存架构那样可以灵活调配。

这条路线最务实，但在 $1,400 的预算内，显存不够是绕不过去的痛点。

Jetson AGX Orin 64GB

$1,399，NVIDIA 的嵌入式 AI 平台旗舰。

核心卖点是 64GB 统一内存 + CUDA 支持：

64GB 统一内存可以跑 34B 甚至 70B 的量化模型。
原生 CUDA，llama.cpp、PyTorch 都能跑。
功耗极低（15–60W），可以 24/7 运行不心疼电费。
体积小，安静。

但 ARM 架构带来的问题不少：

软件兼容性。 JetPack 基于 Ubuntu，但很多包没有 ARM64 预编译版本，经常要自己编译。
CPU 性能偏弱。 ARM A78 的单核性能和 x86 差距明显，非 GPU 的任务（编译、数据处理）会慢。
社区资源少。 遇到问题，Stack Overflow 上的答案大概率是 x86 的。

Jetson 的定位是边缘 AI 设备。拿来做个人服务器可以，但会有很多「意料之外的折腾」。

对比总结

	Mac Mini M4	Mac Mini M4 Pro	Mini PC + 4060 Ti	Orin Nano 8GB	AGX Orin 64GB
价格	$799	~$1,399	~$1,300–1,500	~$249	$1,399
GPU 显存	16GB（统一）	24GB（统一）	16GB（独立）	8GB（统一）	64GB（统一）
GPU 核心	10 核 Apple GPU	18 核 Apple GPU	4,352 CUDA	1,024 CUDA	2,048 CUDA
CUDA	❌	❌	✅	✅	✅
CPU 性能	高	高	高	低	中等
功耗	极低	低	高	极低	极低
软件兼容性	macOS 限制	macOS 限制	最好	ARM 限制	ARM 限制
可升级性	❌	❌	✅	❌	❌
能跑的最大模型	~13B	~20B	~13B（显存）	~7B	~70B

五个选项覆盖了 $249 到 $1,500 的价格区间，没有绝对的最优解。

$249 入门：Orin Nano 8GB 是最便宜的 CUDA 设备，能跑 7B 模型，适合学习和轻量部署。
$799 均衡之选：Mac Mini M4 综合素质最好，但没有 CUDA 是硬伤。
$1,400 推理优先：Jetson AGX Orin 64GB 的统一内存最大，能跑 70B 模型。
$1,400 生态优先：Mini PC + 独显最省心，软件兼容性最好。
$1,400 苹果生态：Mac Mini M4 Pro 适合已经在 macOS 里的人。

实际发生了什么

我最终没买上面任何一个（虽然 Orin Nano 我确实用过一阵）。

手边刚好有一台闲置的 PC——Ryzen 5 5600 + 64GB DDR4 + RTX 4090 24GB。这台机器原来是用来打游戏的，后来吃灰了。

RTX 4090 的规格直接碾压上面所有选项：

	RTX 4090 主机	Jetson AGX Orin 64GB
GPU 核心	16,384 CUDA cores	2,048 CUDA cores
显存	24GB GDDR6X	64GB（统一）
FP16 性能	83 TFLOPS	~5.3 TFLOPS
系统内存	64GB DDR4	64GB（统一）
CPU	Ryzen 5 5600 (6C12T)	ARM A78 (12C)
价格	已有	$1,399

GPU 算力差距大约 16 倍。实际跑推理任务，4090 在大多数场景下快 5–10 倍。

省下的 $1,399 可以付好几年的电费。

后来的实测数据

把系统装好、服务跑起来之后，我做了一些基准测试：

CPU 多线程（sysbench）： 比 Jetson Orin Nano 快约 6.8 倍
磁盘顺序读取： 约 15.4 GB/s，快 10 倍
视频编码（NVENC H.264, 1080p）： 253 fps，约 2.5 倍
AI 推理： 同样的语音识别模型，处理速度提升约 5 倍

（注：这里的对比对象是 Jetson Orin Nano 8GB，约 $250，不是 AGX Orin 64GB。AGX Orin 的差距会小一些，但 CUDA 核心数量的差距仍然是 8 倍。）

结论

如果你在 $1,400 预算内认真考虑给 AI 工作负载选主机：

先看看手边有没有闲置硬件。 一台带独显的旧游戏 PC 可能比你想象的能干得多。
显存是最关键的瓶颈。 决定了你能跑多大的模型。
CUDA 兼容性很重要。 除非你有明确理由选择 Mac 或 ARM，否则 x86 + NVIDIA 的组合最省心。
Jetson 的统一内存很诱人，但生态成本不低。 ARM 上的折腾时间也是成本。

硬件选择没有标准答案，取决于你已有什么、需要什么、愿意折腾多少。

对我来说，答案恰好是一台已经在角落吃灰的游戏 PC。