Развертывание сервера vLLM

Атомкод Атомкод поддерживает работу с большими языковыми моделями. Для обеспечения системного окружения, необходимого для работы различных больших языковых моделей и предоставления API для взаимодействия с клиентскими запросами, для обеспечения работы функций Атомкод, использующих искусственный интеллект, требуется провести развертывание сервера vLLM и больших языковых моделей.

к сведению

Развертывание сервера vLLM является необязательным.

warning

Развертывание сервера vLLM его следует выполнить в первую очередь перед развертыванием Атомкод.

Системные требования

Для развертывания vLLM необходимо:

ОС: Ubuntu 22.04.
Наличие доступа в интернет на сервере с ролью vLLM.

Минимальные требования для развертывания vLLM перечислены в следующей таблице.

	Минимум	Оптимум	Максимум
Модель	14B с минимальным контекстом (~32к) токенов	14B со средним контекстом ~40к токенов + простая размышляющая модель на 16B.	14B с расширенным контекстом ~90к токенов + размышляющая модель на 32B
Видеокарты	NVIDIA Quadro RTX A6000 48G или NVIDIA А100 40G или аналоги с видеопамятью от 40G	NVIDIA H100	2 * NVIDIA H100
Количество ядер процессоров, шт.	16 для GPU NVIDIA Quadro RTX A6000 48G иначе 8	8	16
Оперативная память, Гб	128	152	304
Объём SSD, Гб	500	500	500

Развертывание vLLM

Перейдите в консоль ssh на сервер с ролью Сервер vLLM и повысьте права командой

sudo -i

Подготовьте учётную запись ansible для удалённого управления этим сервером. Используйте команды:

useradd -mUG sudo -s /bin/bash ansible
mkdir -p /home/ansible/.ssh
echo "ansible ALL=(ALL:ALL) NOPASSWD:ALL" > /etc/sudoers.d/ansible
touch /home/ansible/.ssh/authorized_keys
chmod 700 /home/ansible/.ssh
chmod 600 /home/ansible/.ssh/authorized_keys
chown -R ansible. /home/ansible/.ssh

Скопируйте публичный ключ, который используется на Сервере с ролью Ansible мастер, из файла /root/.ssh/id_rsa.pub в файл /home/ansible/.ssh/authorized_keys на сервере с ролью Сервер vLLM.

Перейдите на сервер с ролью Ansible мастер. Повысьте права командой

sudo -i

Перейдите в директорию /opt/platform/installer/vLLMInstall командой

cd /opt/platform/installer/vLLMInstall

В этой директории располагаются ansible-роли и плейбук для установки vLLM.

Вы можете установить vLLM с настройками по умолчанию или же выбрать расширенную настройку.

Развертывание vLLM с настройками по умолчанию

Для установки vLLM с настройками по умолчанию выполните команду

ansible-playbook -i <Имя Сервера>, playbook_gpu.yml

где: Имя Сервера: FQDN или ip-адрес сервера с ролью Сервер vLLM.

Дождитесь успешной установки.

По умолчанию будут развернуты следующие модели:

на порте 8080: deepvk/USER-bge-m3;
на порте 8081: Qwen/Qwen2.5-14B-Instruct-AWQ.

к сведению

Обязательно настройте файрвол для пропуска трафика через эти порты.

Изменение модели при настройке по умолчанию

Если вы развернули vLLM с настройками по умолчанию, вы можете изменить установленные модели.

Чтобы изменить модели перейдите в файл /opt/platform/installer/vLLMInstall/roles/vllm/files/docker-compose.yml .

Найдите следующие строки в файле:

entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "deepvk/USER-bge-m3", "--host", "0.0.0.0", "--port", "8080", "--task", "embedding" ]

entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "Qwen/Qwen2.5-14B-Instruct-AWQ", "--host", "0.0.0.0", "--port", "8081", "--task", "generate" ].

Измените в этих строках название моделей deepvk/USER-bge-m3, Qwen/Qwen2.5-14B-Instruct-AWQ на названия моделей, которые вы хотите развернуть.

Развертывание vLLM с расширенными настройками

Для развертывания vLLM с расширенными настройками перейдите в директорию /opt/platform/installer/vLLMInstall.

Выберите в этой директории файл README.md и откройте его командой

cat README.md

Следуйте инструкциям из файла README.md.

После успешного развертывания vLLM можно приступать к инсталляции или обновлению Атомкод.

Системные требования​

Развертывание vLLM​

Развертывание vLLM с настройками по умолчанию​

Изменение модели при настройке по умолчанию​

Развертывание vLLM с расширенными настройками​

Системные требования

Развертывание vLLM

Развертывание vLLM с настройками по умолчанию

Изменение модели при настройке по умолчанию

Развертывание vLLM с расширенными настройками