Токены нейросети: Урок №14

Как проходить урок?
Время выполнения Д/З

1 день
Время урока

10 минут
В этом уроке мы разберемся сколько стоят услуги нейросетей, и научимся рассчитывать выгоду.
3. После выполнения ДЗ - переходите к следующему уроку
2. Внизу будет домашнее задание для выполнения (займет от 10 до 20 минут)
1. Читайте текст урока
Когда вы работаете с нейросетями вроде ChatGPT, Claude или Mistral — вы платите не за «запрос», как в Яндекс.Директе, и не за «время работы», как у фрилансера. Вы платите за токены.
Многие слышали про токены, но мало кто реально понимает, что это такое, как они считаются, и главное — как не слить бюджет в первый же день.
Давайте разбираться. Простым, человеческим языком.

Что такое токен?

Токен - это не целое слово. Это кусочек слова.
Пример:
Фраза «Здравствуйте, меня зовут Тимур» — это примерно 6 токенов. Потому что:

  • «Здра»
  • «вствуйте»
  • «,»
  • «меня»
  • «зовут»
  • «Тимур»

ИИ делит текст на такие «кирпичики смысла», и за каждый кирпичик вы платите — и за вход (то, что вы отправили), и за выход (то, что модель сгенерировала).

Проще говоря: вы платите и за вопрос, и за ответ.

Стоит ли переживать?
Нет. Стоимость токенов невысока, и мы детально разберем экономику позже. Пока главное — понимать сам принцип.

Сколько стоит токен?

Зависит от модели. Пример цен (май 2025):
На простые запросы уходит до 1000 токенов.
Например, генерация текста простого письма на 150 слов - 200–300 токенов на вход (чтобы ИИ обработал запрос) и , 200–300 на выход
Задачи с файлами стоит дороже. Например, расшифровка звонков по 7-10 минут (одного большого звонка обойдется обычно в 2500-3000 окенов)

Как посчитать токены заранее?

Проще всего это сделать через этот сайт
  • Вбиваем запрос и сайт считает количество токенов.
Если хотите посчитать токены для других нейросетей - можете воспользоваться вот этим сервисом.
Также вбивайте запрос и он просчитает количество токенов каждой модели.

Как управлять расходом токенов?

Для этого внутри нейросетей есть раздел с аналитикой, где вы можете контролировать трату токенов. У OpenAI это можно сделать вот тут
Все происходит в этом разделе.

Там же происходит пополнение денег на аккаунте.

Если вы работаете с нами (заказывайте внедрение ИИ агентов) - то мы полноценно под ключ и оплачиваем токены и файтюним (дообучаем ваше решение).

Токены также можно ограничивать в настройках ИИ агента. В нем можно указать максимальное количество токенов, которые ИИ агент тратит на операцию.

А сколько обычно выходит?

Здесь расскажем на собственном опыте.

За месяц у нас прослушивается порядка 900 звонков, расшифровывается и ChatGtp по ним пишет рекомендации для менеджеров.
Обычно это обходится в 25-30 долларов в месяц. Плюс-минус (зависит от длительности звонка).

Если бы мы наняли специального менеджера, который расшифровывал бы звонки и писал рекомендации, то он бы работал примерно 6000 минут в месяц или 13 часов в день и мы бы платили ему порядка 120 тыс рублей в месяц.

Таким образом, мы экономим ежемесячно около 115 тысяч рублей в месяц.

Написание 500 текстов в месяц (пишем для внутренних нужд компании) обходится порядка 5 долларов в месяц.

Как сэкономить на токенах?

Вот простые способы сэкономить, не жертвуя качеством:

1) Сокращайте ввод
Например, вместо
«Это звонок с клиентом. Проанализируй, пожалуйста, его речь. Вот полный текст разговора за 8 минут.»
Используйте:
«Оцени менеджера по 5 критериям. Вот текст: [текст].»
Без «вежливостей», без вступлений. ИИ всё равно - он не обижается. А вы экономите по 100–300 токенов на каждом запросе.

2) Уменьшайте длину ответа
Например, добавляйте в промпт:
«Ответ - максимум 100 слов. Без повторов и воды.»
Или:
«Оцени по 5 критериям. По каждому - 1 предложение. В конце-вывод (до 3 строк).»
Так вы экономите на выходе, а это зачастую самая дорогая часть.

3) Ограничивайте количество потраченных токенов.
Это можно сделать в настройках ИИ агента. В нем можно ограничить количество доступных токенов.

4) Используйте temperature и top_p грамотно
Эти параметры не напрямую влияют на стоимость, но чем выше креативность — тем длиннее может быть ответ, потому что модель будет «разгоняться».
Для отчётов, писем, бизнес-анализа - ставьте temperature = 0.3–0.6
Для идей, креатива, контента - можно 0.8–1.0
Попробуйте просчитать токены для вашей задачи.
Посмотрите на результаты.
Домашнее задание
Перейти к следующему уроку
Нажмите на кнопку, чтобы перейти к следующему занятию нашего курса