Локальная LLM за вечер: что получилось, а что нет

менее 1 мин на чтение

В этой заметке — рыба: текст-заглушка, чтобы проверить ленту, карточки и страницу поста.

Зачем вообще локально

Многие разработчики хотят гонять модели без отправки данных наружу. На практике упираешься в VRAM, скорость диска и то, насколько терпелив ты к «подумай ещё пять секунд» на каждый ответ.

Цитата-рыба: «Иногда достаточно семи миллиардов параметров, чтобы понять, что восьмых у тебя на видеокарте нет».

Чек-лист, который я себе оставил

Скачать рантайм и одну небольшую модель.
Прогнать три типовых промпта: код, суммаризация, болтовня.
Записать время ответа и качество — без иллюзий.

Итог (пока черновик)

Полноценный рабочий процесс не собрался за один вечер, зато появился понятный список узких мест. Следующий шаг — сравнить квантованные варианты и зафиксировать настройки в репозитории пет-проекта.

# псевдокоманда для заметки
ollama run example-model "Объясни разницу между FP16 и Q4"

Дальше сюда пойдут реальные цифры и скриншоты — сейчас только структура и рыбный абзац для вёрстки.

X Facebook LinkedIn Bluesky

Vitaliy Tolokov

Локальная LLM за вечер: что получилось, а что нет

Зачем вообще локально

Чек-лист, который я себе оставил

Итог (пока черновик)

Поделиться

Другие посты

RSS на Jekyll: лента без ручной настройки

Пет-проект: трекер привычек на выходных

Неделя на удалёнке: ритм, шум и кофе

Сборка блога на Jekyll: от темы до деплоя