Перейти к основному содержимому

Развертывание сервера vLLM

Платформа Атомкод поддерживает работу с большими языковыми моделями. Для обеспечения системного окружения, необходимого для работы различных больших языковых моделей и предоставления API для взаимодействия с клиентскими запросами, для обеспечения работы функций Платформы, использующих искусственный интеллект, требуется провести развертывание сервера vLLM и больших языковых моделей.

к сведению

Развертывание сервера vLLM является необязательным.

warning

Развертывание сервера vLLM его следует выполнить в первую очередь перед развертыванием Платформы Атомкод.

Системные требования

Для развертывания vLLM необходимо:

  • ОС: Ubuntu 22.04.
  • Наличие доступа в интернет на сервере с ролью vLLM.

Минимальные требования для развертывания vLLM перечислены в следующей таблице.

МинимумОптимумМаксимум
Модель14B с минимальным контекстом (~32к) токенов14B со средним контекстом ~40к токенов + простая размышляющая модель на 16B.14B с расширенным контекстом ~90к токенов + размышляющая модель на 32B
ВидеокартыNVIDIA Quadro RTX A6000 48G или NVIDIA А100 40G или аналоги с видеопамятью от 40GNVIDIA H1002 * NVIDIA H100
Количество ядер процессоров, шт.16 для GPU NVIDIA Quadro RTX A6000 48G иначе 8816
Оперативная память, Гб128152304
Объём SSD, Гб500500500

Развертывание vLLM

Перейдите в консоль ssh на сервер с ролью Сервер vLLM и повысьте права командой

sudo -i

Подготовьте учётную запись ansible для удалённого управления этим сервером. Используйте команды:

useradd -mUG sudo -s /bin/bash ansible
mkdir -p /home/ansible/.ssh
echo "ansible ALL=(ALL:ALL) NOPASSWD:ALL" > /etc/sudoers.d/ansible
touch /home/ansible/.ssh/authorized_keys
chmod 700 /home/ansible/.ssh
chmod 600 /home/ansible/.ssh/authorized_keys
chown -R ansible. /home/ansible/.ssh

Скопируйте публичный ключ, который используется на Сервере с ролью Ansible мастер, из файла /root/.ssh/id_rsa.pub в файл /home/ansible/.ssh/authorized_keys на сервере с ролью Сервер vLLM.

Перейдите на сервер с ролью Ansible мастер. Повысьте права командой

sudo -i

Перейдите в директорию /opt/platform/installer/vLLMInstall командой

cd /opt/platform/installer/vLLMInstall

В этой директории располагаются ansible-роли и плейбук для установки vLLM.

Вы можете установить vLLM с настройками по умолчанию или же выбрать расширенную настройку.

Развертывание vLLM с настройками по умолчанию

Для установки vLLM с настройками по умолчанию выполните команду

ansible-playbook -i <Имя Сервера>, playbook_gpu.yml

где: Имя Сервера: FQDN или ip-адрес сервера с ролью Сервер vLLM.

Дождитесь успешной установки.

По умолчанию будут развернуты следующие модели:

  • на порте 8080: deepvk/USER-bge-m3;
  • на порте 8081: Qwen/Qwen2.5-14B-Instruct-AWQ.
к сведению

Обязательно настройте файрвол для пропуска трафика через эти порты.

Изменение модели при настройке по умолчанию

Если вы развернули vLLM с настройками по умолчанию, вы можете изменить установленные модели.

Чтобы изменить модели перейдите в файл /opt/platform/installer/vLLMInstall/roles/vllm/files/docker-compose.yml .

Найдите следующие строки в файле:

entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "deepvk/USER-bge-m3", "--host", "0.0.0.0", "--port", "8080", "--task", "embedding" ]

и

entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "Qwen/Qwen2.5-14B-Instruct-AWQ", "--host", "0.0.0.0", "--port", "8081", "--task", "generate" ].

Измените в этих строках название моделей deepvk/USER-bge-m3, Qwen/Qwen2.5-14B-Instruct-AWQ на названия моделей, которые вы хотите развернуть.

Развертывание vLLM с расширенными настройками

Для развертывания vLLM с расширенными настройками перейдите в директорию /opt/platform/installer/vLLMInstall.

Выберите в этой директории файл README.md и откройте его командой

cat README.md

Следуйте инструкциям из файла README.md.

После успешного развертывания vLLM можно приступать к инсталляции или обновлению Платформы Атомкод.