Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Локальні LLM/
  4. Практичний посібник із налаштування Bare-Metal для локальних великих мовних моделей
Локальні LLM

Практичний посібник із налаштування Bare-Metal для локальних великих мовних моделей

3 липня 2026 р.· 6 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 3 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
Локальні LLM

Оптимізуйте локальні апаратні конфігурації за допомогою комутаторів PCIe та налаштування материнської плати в обхід процесора. Навчіться досягати повної швидкості peer-to-peer між GPU для сучасних моделей.

Вплив: Середній

Чому це важливо

Ви можете запускати великі моделі на кшталт GLM-5.2 або Qwen 3.6 локально з субмікросекундною затримкою завдяки правильному конфігуруванню заліза.

TL;DR

  • 01Досягайте майже корпоративної пропускної здатності P2P між GPU за допомогою комутаторів PCIe Gen4 попереднього покоління замість дорогих платформ Gen5/DDR5.
  • 02Вимикайте ACS (Access Control Services) та IOMMU, щоб запобігти зависанню NCCL та вузьким місцям маршрутизації.
  • 03Застосовуйте ліміти споживання (наприклад, nvidia-smi -pl 350), щоб безпечно запускати потужні риги з кількома GPU на звичайній побутовій мережі.

Ключові факти

Односпрямована пропускна здатність27.5 ГБ/с
Двоспрямована пропускна здатність50.4 ГБ/с
Швидкість генерації GLM-5.2-594B
~80 t/s @ 240k ctx (DCP4+MTP5)
Затримка P2P на комутаторі Gen4
0.37 - 0.45 мікросекунди
Односпрямована пропускна здатність
27.5 ГБ/с
Двоспрямована пропускна здатність
50.4 ГБ/с
Рекомендована вартість базового заліза
~$2,000 (2x RTX 3090)

Обхід вузьких місць материнської плати

Для створення локального ШІ-ригу, здатного обслуговувати найсучасніші моделі з відкритими вагами, розробники часто стикаються з колосальними витратами на материнські плати PCIe Gen5. Цей посібник пропонує обійти цю вимогу, використовуючи платформу EPYC попереднього покоління з DDR4 у поєднанні з комутатором Microchip Switchtec PCIe Gen4. Комутатор дозволяє кільком графічним процесорам обмінюватися даними безпосередньо (P2P) на повній швидкості (27.5 ГБ/с в одному напрямку, 50.4 ГБ/с у двох напрямках) під час кроку allreduce, уникаючи накладних витрат на маршрутизацію через процесор.

Важливі налаштування BIOS та ОС

Максимізація пропускної здатності P2P між GPU вимагає специфічних налаштувань BIOS та операційної системи. Щоб запобігти перехопленню трафіку процесором, необхідно вимкнути служби контролю доступу (ACS) під час роботи за допомогою команди setpci. Крім того, вимкнення IOMMU шляхом додавання параметрів iommu=off amd_iommu=off nomodeset у командний рядок GRUB є обов'язковим для запобігання зависанню бібліотеки групових комунікацій NVIDIA (NCCL) під час P2P-транзакцій.

Регулювання живлення та запуск у Docker

Запуск чотирьох робочих станцій GPU (таких як RTX Pro 6000) під повним навантаженням може легко перевантажити стандартну побутову електромережу 110 В. Для безпечної роботи такої системи на одному контурі застосуйте обмеження потужності 350 Вт на один GPU за допомогою команди nvidia-smi -pl 350 під час завантаження. Після оптимізації заліза моделі можна запускати через конфігурації Docker Compose з використанням високопродуктивних середовищ виконання vLLM.

Спробуй за 2 хвилини

# Disable PCIe ACS to force P2P traffic to stay inside the switch fabric
for BDF in $(lspci -d "*:*:*" | awk '{print $1}'); do
  sudo setpci -v -s ${BDF} ECAP_ACS+0x6.w=0 > /dev/null 2>&1
done

bash

✓ Коли використовувати

  • При побудові локальних систем із кількома GPU для запуску моделей із 70B+ параметрами.
  • При оптимізації bare-metal кластерів із зовнішніми PCIe-комутаторами для максимального тензорного паралелізму.

✕ Коли НЕ варто

  • Якщо у вас немає фізичного місця, можливостей охолодження або бюджету для збирання кастомного обладнання.
  • Якщо вам потрібен лише простий запуск малих локальних моделей, з якими легко справляється звичайний Apple Silicon.

Що зробити сьогодні

  • →Вимкніть PCIe Access Control Services (ACS) під час запуску для оптимізації P2P-трафіку.
  • →Додайте iommu=off amd_iommu=off у конфігурацію завантажувача GRUB для стабілізації роботи NCCL.
  • →Встановіть ліміти енергоспоживання для кожного GPU за допомогою nvidia-smi для безпечної роботи в домашній мережі.

Що каже спільнота

  • “I use VMs because I actually trust that security is a foundational principle of the technology, not a well-if-you-use-these-20-flags-and-squint kind of deal.”

    — 3eb7988a1663 на Hacker News

  • “No, there are quite a few models which are smaller, more accurate, and faster. For example Parakeet TDT v3 is half the size, way faster, and lower WER.”

    — randomblock1 на Hacker News

#vLLM#Docker#nvidia-smi

Джерела

  • jamesob's local-llm guide
ПоділитисяПоділитися в XПоділитися в LinkedIn
← Попередня новинаСкорочення витрат на токени Claude Code через оптичне стиснення контексту

Схожі матеріали

  • Локальні LLMInterfaze випускає першу багатомовну дифузійну модель розпізнавання мовлення
  • Локальні LLMДослідження Стенфорда: понад сімдесят відсотків запитів до ChatGPT можна вирішити локальними моделями

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.