Развертывание сервера vLLM
Платформа Атомкод поддерживает работу с большими языковыми моделями. Для обеспечения системного окружения, необходимого для работы различных больших языковых моделей и предоставления API для взаимодействия с клиентскими запросами, для обеспечения работы функций Платформы, использующих искусственный интеллект, требуется провести развертывание сервера vLLM и больших языковых моделей.
Развертывание сервера vLLM является необязательным.
Развертывание сервера vLLM его следует выполнить в первую очередь перед развертыванием Платформы Атомкод.
Системные требования
Для развертывания vLLM необходимо:
- ОС: Ubuntu 22.04.
- Наличие доступа в интернет на сервере с ролью vLLM.
Минимальные требования для развертывания vLLM перечислены в следующей таблице.
Минимум | Оптимум | Максимум | |
---|---|---|---|
Модель | 14B с минимальным контекстом (~32к) токенов | 14B со средним контекстом ~40к токенов + простая размышляющая модель на 16B. | 14B с расширенным контекстом ~90к токенов + размышляющая модель на 32B |
Видеокарты | NVIDIA Quadro RTX A6000 48G или NVIDIA А100 40G или аналоги с видеопамятью от 40G | NVIDIA H100 | 2 * NVIDIA H100 |
Количество ядер процессоров, шт. | 16 для GPU NVIDIA Quadro RTX A6000 48G иначе 8 | 8 | 16 |
Оперативная память, Гб | 128 | 152 | 304 |
Объём SSD, Гб | 500 | 500 | 500 |
Развертывание vLLM
Перейдите в консоль ssh
на сервер с ролью Сервер vLLM и повысьте права командой
sudo -i
Подготовьте учётную запись ansible для удалённого управления этим сервером. Используйте команды:
useradd -mUG sudo -s /bin/bash ansible
mkdir -p /home/ansible/.ssh
echo "ansible ALL=(ALL:ALL) NOPASSWD:ALL" > /etc/sudoers.d/ansible
touch /home/ansible/.ssh/authorized_keys
chmod 700 /home/ansible/.ssh
chmod 600 /home/ansible/.ssh/authorized_keys
chown -R ansible. /home/ansible/.ssh
Скопируйте публичный ключ, который используется на Сервере с ролью Ansible мастер, из файла /root/.ssh/id_rsa.pub
в файл /home/ansible/.ssh/authorized_keys
на сервере с ролью Сервер vLLM.
Перейдите на сервер с ролью Ansible мастер. Повысьте права командой
sudo -i
Перейдите в директорию /opt/platform/installer/vLLMInstall
командой
cd /opt/platform/installer/vLLMInstall
В этой директории располагаются ansible-роли и плейбук для установки vLLM.
Вы можете установить vLLM с настройками по умолчанию или же выбрать расширенную настройку.
Развертывание vLLM с настройками по умолчанию
Для установки vLLM с настройками по умолчанию выполните команду
ansible-playbook -i <Имя Сервера>, playbook_gpu.yml
где: Имя Сервера: FQDN или ip-адрес сервера с ролью Сервер vLLM.
Дождитесь успешной установки.
По умолчанию будут развернуты следующие модели:
- на порте 8080: deepvk/USER-bge-m3;
- на порте 8081: Qwen/Qwen2.5-14B-Instruct-AWQ.
Обязательно настройте файрвол для пропуска трафика через эти порты.
Изменение модели при настройке по умолчанию
Если вы развернули vLLM с настройками по умолчанию, вы можете изменить установленные модели.
Чтобы изменить модели перейдите в файл /opt/platform/installer/vLLMInstall/roles/vllm/files/docker-compose.yml
.
Найдите следующие строки в файле:
entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "deepvk/USER-bge-m3", "--host", "0.0.0.0", "--port", "8080", "--task", "embedding" ]
и
entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "Qwen/Qwen2.5-14B-Instruct-AWQ", "--host", "0.0.0.0", "--port", "8081", "--task", "generate" ]
.
Измените в этих строках название моделей deepvk/USER-bge-m3, Qwen/Qwen2.5-14B-Instruct-AWQ на названия моделей, которые вы хотите развернуть.
Развертывание vLLM с расширенными настройками
Для развертывания vLLM с расширенными настройками перейдите в директорию /opt/platform/installer/vLLMInstall
.
Выберите в этой директории файл README.md и откройте его командой
cat README.md
Следуйте инструкциям из файла README.md.
После успешного развертывания vLLM можно приступать к инсталляции или обновлению Платформы Атомкод.