Локальная LLM за вечер: что получилось, а что нет
В этой заметке — рыба: текст-заглушка, чтобы проверить ленту, карточки и страницу поста.
Зачем вообще локально
Многие разработчики хотят гонять модели без отправки данных наружу. На практике упираешься в VRAM, скорость диска и то, насколько терпелив ты к «подумай ещё пять секунд» на каждый ответ.
Цитата-рыба: «Иногда достаточно семи миллиардов параметров, чтобы понять, что восьмых у тебя на видеокарте нет».
Чек-лист, который я себе оставил
- Скачать рантайм и одну небольшую модель.
- Прогнать три типовых промпта: код, суммаризация, болтовня.
- Записать время ответа и качество — без иллюзий.
Итог (пока черновик)
Полноценный рабочий процесс не собрался за один вечер, зато появился понятный список узких мест. Следующий шаг — сравнить квантованные варианты и зафиксировать настройки в репозитории пет-проекта.
# псевдокоманда для заметки
ollama run example-model "Объясни разницу между FP16 и Q4"
Дальше сюда пойдут реальные цифры и скриншоты — сейчас только структура и рыбный абзац для вёрстки.