Токены нейросети: Урок №14

Как проходить урок?

Время выполнения Д/З 
1 день

Время урока 
10 минут

В этом уроке мы разберемся сколько стоят услуги нейросетей, и научимся рассчитывать выгоду.

3. После выполнения ДЗ - переходите к следующему уроку

2. Внизу будет домашнее задание для выполнения (займет от 10 до 20 минут)

1. Читайте текст урока

Когда вы работаете с нейросетями вроде ChatGPT, Claude или Mistral — вы платите не за «запрос», как в Яндекс.Директе, и не за «время работы», как у фрилансера. Вы платите за токены.
Многие слышали про токены, но мало кто реально понимает, что это такое, как они считаются, и главное — как не слить бюджет в первый же день.
Давайте разбираться. Простым, человеческим языком.

Что такое токен?

Токен - это не целое слово. Это кусочек слова.
Пример:
Фраза «Здравствуйте, меня зовут Тимур» — это примерно 6 токенов. Потому что:

«Здра»
«вствуйте»
«,»
«меня»
«зовут»
«Тимур»

ИИ делит текст на такие «кирпичики смысла», и за каждый кирпичик вы платите — и за вход (то, что вы отправили), и за выход (то, что модель сгенерировала).

Проще говоря: вы платите и за вопрос, и за ответ.

Стоит ли переживать?
Нет. Стоимость токенов невысока, и мы детально разберем экономику позже. Пока главное — понимать сам принцип.

Сколько стоит токен?

Зависит от модели. Пример цен (май 2025):

На простые запросы уходит до 1000 токенов.
Например, генерация текста простого письма на 150 слов - 200–300 токенов на вход (чтобы ИИ обработал запрос) и , 200–300 на выход
Задачи с файлами стоит дороже. Например, расшифровка звонков по 7-10 минут (одного большого звонка обойдется обычно в 2500-3000 окенов)

Как посчитать токены заранее?

Проще всего это сделать через этот сайт

Вбиваем запрос и сайт считает количество токенов.

Если хотите посчитать токены для других нейросетей - можете воспользоваться вот этим сервисом.
Также вбивайте запрос и он просчитает количество токенов каждой модели.

Как управлять расходом токенов?

Для этого внутри нейросетей есть раздел с аналитикой, где вы можете контролировать трату токенов. У OpenAI это можно сделать вот тут

Все происходит в этом разделе.

Там же происходит пополнение денег на аккаунте.

Если вы работаете с нами (заказывайте внедрение ИИ агентов) - то мы полноценно под ключ и оплачиваем токены и файтюним (дообучаем ваше решение).

Токены также можно ограничивать в настройках ИИ агента. В нем можно указать максимальное количество токенов, которые ИИ агент тратит на операцию.

А сколько обычно выходит?

Здесь расскажем на собственном опыте.

За месяц у нас прослушивается порядка 900 звонков, расшифровывается и ChatGtp по ним пишет рекомендации для менеджеров.
Обычно это обходится в 25-30 долларов в месяц. Плюс-минус (зависит от длительности звонка).

Если бы мы наняли специального менеджера, который расшифровывал бы звонки и писал рекомендации, то он бы работал примерно 6000 минут в месяц или 13 часов в день и мы бы платили ему порядка 120 тыс рублей в месяц.

Таким образом, мы экономим ежемесячно около 115 тысяч рублей в месяц.

Написание 500 текстов в месяц (пишем для внутренних нужд компании) обходится порядка 5 долларов в месяц.

Как сэкономить на токенах?

Вот простые способы сэкономить, не жертвуя качеством:

1) Сокращайте ввод
Например, вместо
«Это звонок с клиентом. Проанализируй, пожалуйста, его речь. Вот полный текст разговора за 8 минут.»
Используйте:
«Оцени менеджера по 5 критериям. Вот текст: [текст].»
Без «вежливостей», без вступлений. ИИ всё равно - он не обижается. А вы экономите по 100–300 токенов на каждом запросе.

2) Уменьшайте длину ответа
Например, добавляйте в промпт:
«Ответ - максимум 100 слов. Без повторов и воды.»
Или:
«Оцени по 5 критериям. По каждому - 1 предложение. В конце-вывод (до 3 строк).»
Так вы экономите на выходе, а это зачастую самая дорогая часть.

3) Ограничивайте количество потраченных токенов.
Это можно сделать в настройках ИИ агента. В нем можно ограничить количество доступных токенов.

4) Используйте temperature и top_p грамотно
Эти параметры не напрямую влияют на стоимость, но чем выше креативность — тем длиннее может быть ответ, потому что модель будет «разгоняться».
Для отчётов, писем, бизнес-анализа - ставьте temperature = 0.3–0.6
Для идей, креатива, контента - можно 0.8–1.0

Попробуйте просчитать токены для вашей задачи.
Посмотрите на результаты.

Домашнее задание

Перейти к следующему уроку

Нажмите на кнопку, чтобы перейти к следующему занятию нашего курса

ПРОДОЛЖИТЬ ОБУЧЕНИЕ