Перейти к содержимому
BB Toolsонлайн-инструменты

Что такое токены в нейросетях и как их считать

·6 мин чтения

Токен — это не слово

Языковые модели не работают со словами напрямую. Текст разбивается на токены — фрагменты длиной в несколько символов. Частые слова могут быть одним токеном, а редкие — разбиваться на несколько. Именно в токенах измеряются лимиты моделей и стоимость запросов через API.

Почему русский текст дороже

Токенизаторы популярных моделей обучены в основном на английских данных. Кириллица кодируется менее эффективно, поэтому один и тот же текст на русском занимает в 2–3 раза больше токенов, чем на английском. Это важно учитывать при расчёте бюджета на API.

Как оценить размер запроса

Перед отправкой длинного промпта полезно узнать его объём в токенах — это помогает не упереться в лимит контекстного окна и спрогнозировать стоимость. Для этого используйте инструмент «Счётчик токенов», а оценить заполнение окна разных моделей поможет «Калькулятор контекста».

Инструменты из статьи

Перейдите и сразу попробуйте — всё работает бесплатно в браузере.

Другие статьи