менее 1 мин на чтение

В этой заметке — рыба: текст-заглушка, чтобы проверить ленту, карточки и страницу поста.

Зачем вообще локально

Многие разработчики хотят гонять модели без отправки данных наружу. На практике упираешься в VRAM, скорость диска и то, насколько терпелив ты к «подумай ещё пять секунд» на каждый ответ.

Цитата-рыба: «Иногда достаточно семи миллиардов параметров, чтобы понять, что восьмых у тебя на видеокарте нет».

Чек-лист, который я себе оставил

  1. Скачать рантайм и одну небольшую модель.
  2. Прогнать три типовых промпта: код, суммаризация, болтовня.
  3. Записать время ответа и качество — без иллюзий.

Итог (пока черновик)

Полноценный рабочий процесс не собрался за один вечер, зато появился понятный список узких мест. Следующий шаг — сравнить квантованные варианты и зафиксировать настройки в репозитории пет-проекта.

# псевдокоманда для заметки
ollama run example-model "Объясни разницу между FP16 и Q4"

Дальше сюда пойдут реальные цифры и скриншоты — сейчас только структура и рыбный абзац для вёрстки.

Метки:

Дата изменения: