
Голосовые ассистенты
Голосовые ассистенты для колл-центров, ресепшнов и IVR на ElevenLabs, Cartesia и OpenAI Realtime. Берут трубку за 0.4 секунды, говорят как живой человек, не теряют контекст.
- Телефония
- ASR (распознавание)
- TTS (озвучка)
Что в работе
Телефония
Twilio, SIP-trunk, Asterisk. Входящие, исходящие, конференции, переадресация на оператора.
ASR (распознавание)
Deepgram Nova-3 для русского, Whisper Large v3 для редких языков, OpenAI Realtime для самой низкой задержки.
TTS (озвучка)
ElevenLabs v3 для эмоций, Cartesia Sonic для скорости, Silero для on-prem. Клонирование голоса оператора — опционально.
Агент и логика
LangGraph state-machine: приветствие → намерение → действие → подтверждение. Поддержка прерываний, перебивания.
Интеграции
AmoCRM, Bitrix, 1C, Google Calendar. Запись разговора в S3, транскрипт в CRM, выписка задачи на менеджера.
QA и аналитика
Дашборд: AHT, FCR, NPS, % завершённых задач без оператора. Тегирование звонков LLM-ом.
Как мы работаем
Без маркетинговой воды — четыре шага к продакшену.
Брифинг
30 минут — выясняем задачу, ограничения, метрику успеха.
Прототип
За 5–10 дней показываем работающий MVP, не дизайн в Figma.
Продакшн
Доводим до боевого состояния: CI, мониторинг, тесты, документация.
Сопровождение
Дежурим, обновляем модели, тюним промпты, считаем стоимость.
Чем делаем
Не подбираем «модно». Подбираем то, что выживает в продакшне.
Частые вопросы
На ElevenLabs v3 — почти нет. Большинство абонентов в первые 30 секунд не понимают, что говорят с AI. Мы намеренно представляемся ассистентом — это требование закона в РФ и ЕС.
OpenAI Realtime — 250–400ms (полный пайплайн ASR+LLM+TTS). Cartesia Sonic + Deepgram — 350–500ms. Этого достаточно, чтобы диалог чувствовался естественным.
Deepgram Nova-3 уверенно держит русский с армянским / кавказским акцентом. Шумоподавление — Krisp или RNNoise. На SIP-trunk качество лучше, чем на мобильной связи.
Канареечный режим: на первой неделе только 5% звонков, остальные — оператор. После анализа расширяем. Всегда есть кнопка «соедините с человеком» — переключение в течение 2 секунд.
В среднем — $0.05–0.15 за минуту разговора (LLM + TTS + телефония). 1000 минут в месяц = $50–150. Self-hosted Silero снижает до $0.02/мин.
Стек, на котором работаем
Цены
Финальная смета — после 30-минутного брифинга. Зависит от объёма данных, числа интеграций и SLA.
- Телефония
- ASR (распознавание)
- TTS (озвучка)
- Агент и логика
- Интеграции
- QA и аналитика
Обсудим проект?
Напишите в Telegram или оставьте заявку — ответим в течение 4 часов.






