
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用
官方Guide:
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html
1.硬件:
supervisor
主要启动一个webui,使用了简单的docker部署
- 一台linux服务器
- 无显卡
- 装好docker,compose
worker
提供显卡算力,一台插了显卡的旧电脑
- i5 8400
- B356M
- 16G DDR4
- 1050ti
- 装好nvdia驱动,cuda
- 不使用虚拟化直接安装xinference
2.Supervisor
在/opt/xinference目录新建docker.compose.yml文件,内容如下:
services:
xinference-supervisor:
image: xprobe/xinference:latest-cpu
command: ["xinference-supervisor","--host","your_supervisor_ip", "--port", "9997"]
network_mode: host
- 使用host网络,而非默认桥接网络,否则worker无法连通supervisor
- 没有显卡镜像就选带-cpu后缀的版本
#shell启动
docker compose up -d
2.worker
#官网就一句话
pip install xinference
python版本:我使用的3.9.12,用最新的3.13会导致xinference中xoscar安装不上,查看pypi.com上有个CPython3.9.21的说明,降低到一个比较接近的版本,使用以下命令正常安装上xoscar 0.4.6
pip install xoscar --only-binary=:all: -i https://mirrors.aliyun.com/pypi/simple/

中间还安装了vs_BuildTools添加了C++相关工具,不清楚是不是必须,放上下载连接以供参考:https://download.visualstudio.microsoft.com/download/pr/9b2a4ec4-2233-4550-bb74-4e7facba2e03/752b86394038f8e59e3e5ad7eec5d8fc1017f9b72c521565dc3ae0b0f36eef14/vs_BuildTools.exe

再安装xinference其他依赖就比较顺利,可能是我用过––only-binary=:all: 选项,pip下载了多个版本,最终只安装上0.8.0,因为缓存了多个版本,再执行pip install ––upgrade xinference可以快速升级到1.3.1,如果pip show xinference显示正常,但xinference ––version报错,在执行一次加––upgrade选项命令修复其他依赖即可
pip install xinference
pip install --upgrade xinference

启动worker连接已启动的supervisor:
xinference-worker -H your_worker_ip -e "http://your_supervisor_ip:9997"
supervisor无显卡服务器也可以选择作为worker加入集群,在/opt/xinference目录新建docker.compose-worker.yml文件,内容如下:
services:
xinference-worker:
image: xprobe/xinference:latest-cpu
command: ["xinference-worker", "-e","http://your_supervisor_ip:9997","-H","your_supervisor_ip", "--worker-port", "9996"]
network_mode: host
- 使用host网络
#shell启动
docker compose -f docker.compose-worker.yml up -d
3.访问集群webui
浏览器打开your_supervisor_ip:9997
