LM Studio 部署 DeepSeek/Qwen3 模型指南

LM Studio 是一款基于 Electron 开发的本地大模型运行平台,支持 GGUF/GPTQ 等量化格式,提供零配置启动、跨平台兼容(Windows/macOS/Linux)、GPU 监控及 OpenAI 兼容 API 等功能。用户可通过官网下载安装,支持部署 DeepSeek 和 Qwen 等开源模型。实验环境建议 16GB 内存和 40GB 存储空间。安装后,用户可在 Discover 页面搜索下载模型(如 1.5B 参数的 DeepSeek 或 1.7B 的 Qwen),并通过 Chat 标签页进行对话测试。LM Studio 还支持 API 调用,兼容 OpenAI 接口,便于编程集成。性能优化建议包括使用高量化模型、启用 CUDA 加速或调整存储方式。该工具适合本地高效部署和测试轻量级大模型。

LM Studio 简介

LM Studio 是一款基于 Electron 开发的本地大模型运行平台,支持 GGUF/GPTQ 等主流量化格式,并具有零配置启动(自动识别模型架构)、跨平台支持(Windows/macOS/Linux)、可视化 GPU 资源监控、内置 OpenAI 兼容的 API 端点等功能。LM Studio 是 DeepSeek 官方推荐的模型部署方式,此外,它还支持部署 Qwen3 等开源模型。

技术架构:

1
2
3
4
5
6
7
8
9
+------------------+       +------------------+       +------------------+
|   Model File     |------>|  Quant Decoder   |------>| Inference Engine |
+------------------+       +------------------+       +---------+--------+
                                                                |
                                                +---------------+---------------+
                                                |                               |
                                        +-------v-------+               +-------v-------+
                                        |  CPU (AVX2)   |               |  GPU (CUDA)   |
                                        +---------------+               +---------------+

实验环境准备

  1. 操作系统:Linux x64
  2. 内存/显存:建议 16GB 及以上
  3. 存储空间:建议空余至少 40GB 可用空间

由于仅探究部署方法,因此对于模型都使用 1.5b 参数,这对于设备配置的要求一般,中高端配置的设备都可以部署。

这里先在支持 CUDA 的设备上测试部署。

步骤一:安装 LM Studio

  1. 访问LM Studio 官网下载 Windows/Linux 安装包
  2. 按向导完成安装

linux 版本为 appimage 格式,直接 chmod +x 赋予执行权限,然后运行即可。

  1. 启动后会让用户安装模型,先跳过

步骤二:获取 DeepSeek/Qwen 模型

  1. 在 LM Studio 中选择右侧的 discover 按钮,打开模型搜索下载页面
  2. 搜索 deepseek,在列表中选择 1.5b 的模型用于部署,模型大小约 1GB。
  3. 搜索 qwen,在列表中选择 1.7b 模型用于部署,模型大小约 2GB。
  4. 点击 Download 进行下载

步骤三:模型加载

  1. 打开 LM Studio,点击左侧"My Models"面板
  2. 左上角可以修改模型的存储位置,指定存放 DeepSeek/Qwen3 模型文件的目录
  3. 等待模型下载索引完成后即可在列表看到模型 由于存在网络问题,可能需要通过代理才能满速下载,解决网络问题后下载设备可以运行的 “DeepSeek-R1-Distill-Qwen-1.5B-GGUF” 模型。

步骤四:运行推理

以 DeepSeek 模型为例,Qwen3 模型类似:

  1. 点击顶部"Chat"标签页

可以进行一些对话配置,也可以保持默认。

  1. 从右侧面板选择已加载的 DeepSeek/Qwen3 模型。

  1. 在下方输入框输入 prompt,从选择的模型获取 response。

通过 nvidia 信息面板(功耗、显存、正在运行的程序等)可以看到 LM Studio 会自动调用 GPU 进行推理。

API 调用

并非所有场景都具备图形界面功能,因此通过编程语言、命令行进行模型调用也是必须的。

LM Sudio API 文档

可以通过以下四种方式调用 LM Studio 的接口:

  • TypeScript SDK - lmstudio-js
  • Python SDK - lmstudio-python
  • LM Studio REST API(新功能,测试版)
  • OpenAI 兼容性端点

处于兼容性考虑,我们使用 OpenAI 兼容端口进行测试。

首先在 Python 中安装 OpenAI 包:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
lmstudio> uv pip install openai
Using Python 3.13.5 environment at
Resolved 17 packages in 3.13s
Prepared 15 packages in 2.67s
░░░░░░░░░░░░░░░░░░░░ [0/15] Installing wheels...                                                                        warning: Failed to hardlink files; falling back to full copy. This may lead to degraded performance.
         If the cache and target directories are on different filesystems, hardlinking may not be supported.
         If this is intentional, set `export UV_LINK_MODE=copy` or use `--link-mode=copy` to suppress this warning.
Installed 15 packages in 267ms
 + annotated-types==0.7.0
 + anyio==4.9.0
 + certifi==2025.6.15
 + distro==1.9.0
 + h11==0.16.0
 + httpcore==1.0.9
 + httpx==0.28.1
 + idna==3.10
 + jiter==0.10.0
 + openai==1.90.0
 + pydantic==2.11.7
 + pydantic-core==2.33.2
 + sniffio==1.3.1
 + typing-extensions==4.14.0
 + typing-inspection==0.4.1

进入“开发者”

确保模型已被正确加载,然后点击 settings 旁边的按钮,开启服务。

示例 Python 代码:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
# Example: reuse your existing OpenAI setup
from openai import OpenAI

# Point to the local server
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

completion = client.chat.completions.create(
  # model="qwen/qwen3-1.7b",
  model="deepseek-r1-distill-qwen-1.5b",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ],
  temperature=0.7,
)

print(completion.choices[0].message)

需要 Qwen 模型的话,将 model=后面的内容改为"qwen/qwen3-1.7b"即可,前提是该模型已经加载。

运行代码,得到以下回复:

1
2
lmstudio> uv run ./main.py
ChatCompletionMessage(content='<think>\nOkay, so I need to help someone who wants a always-rhyming answer that introduces themselves. They also want it in a funny way, maybe using some puns or wordplay......"', refusal=None, role='assistant', annotations=None, audio=None, function_call=None, tool_calls=None)

表明已经正确调用 API

LM Studio 下方也能看到相关的日志。

常见性能优化方式:

  1. 使用量化程度更高的模型版本(如 q5_k_m)。
  2. 如果使用 CPU 推理,可以添加虚拟内存以运行更大的模型。
  3. 在 NVIDIA 显卡设备上启用 CUDA 加速,或在有 NPU 的设备上启用推理加速。
  4. 使用 RAM Disk 而非硬盘存放模型文件以提升加载速度。

目前遇到的问题

  1. LM Studio 在 linux 平台上对 ARM 不支持,需要另想办法。
  2. 如何在昇腾上启用硬件加速,需要进一步试验。
Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计