
Как DeepSeek бьёт по бизнес-модели OpenAI и Anthropic дешёвыми токенами
Китайская компания усилила давление на западные конкурентов после того, как сделала постоянной скидку 75% на API-доступ к флагманской модели V4 Pro.

Китайская компания усилила давление на западные конкурентов после того, как сделала постоянной скидку 75% на API-доступ к флагманской модели V4 Pro.
VentureBeat сообщает, что DeepSeek V4 Pro теперь обходится значительно дешевле сопоставимых западных моделей: примерно в 7 раз дешевле на входных токенах ($0,435) и в 17 раз дешевле на выходных ($0,87). Особенно важна цена чтения из кэша — $0,003625 за миллион токенов. Для агентных систем это критично, потому что большая часть токенов в длинных рабочих процессах уходит не на новые запросы, а на повторное чтение контекста.
DeepSeek пытается сломать так называемый token moat — «ров токенов» западных разработчиков. Речь идет о ситуации, когда компании OpenAI и Anthropic и другие сохраняют преимущество за счет дорогой инфраструктуры, закрытых моделей и платного доступа к API. Если же открытые модели становятся почти такими же сильными, но намного дешевле в эксплуатации, корпоративным клиентам становится проще переносить часть задач на открытые или самостоятельно размещаемые решения.
Это изменение становится особенно важно для автономных ИИ-агентов. Простые чат-боты потребляют относительно мало токенов, но агентные системы могут часами работать с кодовой базой, вызывать инструменты, перечитывать длинный контекст и запускать цепочки задач. В таких сценариях расход токенов растет очень быстро, поэтому стоимость модели становится не второстепенным, а ключевым фактором выбора.
DeepSeek добилась низкой стоимости не только за счет демпинга, но и за счет архитектуры. VentureBeat выделяет несколько технических решений: сильное сжатие KV-кэша, вынос части памяти из дорогой GPU-памяти в более дешевые уровни хранения, оптимизацию инференса и специальные методы обучения. По оценкам, для работы с контекстом в 1 млн токенов DeepSeek V4 Pro требует около 5,48 ГБ HBM-памяти, тогда как стандартные архитектуры могут требовать десятки или даже сотни гигабайт.
Источник: devby.io