Urartu.
Услуга 07 / 08

Голосовые ассистенты

Голосовые ассистенты для колл-центров, ресепшнов и IVR на ElevenLabs, Cartesia и OpenAI Realtime. Берут трубку за 0.4 секунды, говорят как живой человек, не теряют контекст.

  • Телефония
  • ASR (распознавание)
  • TTS (озвучка)
от $2000Колл-центры, ресепшны, IVR. ElevenLabs, Cartesia, OpenAI Realtime.
Состав поставки

Что в работе

Телефония

Twilio, SIP-trunk, Asterisk. Входящие, исходящие, конференции, переадресация на оператора.

ASR (распознавание)

Deepgram Nova-3 для русского, Whisper Large v3 для редких языков, OpenAI Realtime для самой низкой задержки.

TTS (озвучка)

ElevenLabs v3 для эмоций, Cartesia Sonic для скорости, Silero для on-prem. Клонирование голоса оператора — опционально.

Агент и логика

LangGraph state-machine: приветствие → намерение → действие → подтверждение. Поддержка прерываний, перебивания.

Интеграции

AmoCRM, Bitrix, 1C, Google Calendar. Запись разговора в S3, транскрипт в CRM, выписка задачи на менеджера.

QA и аналитика

Дашборд: AHT, FCR, NPS, % завершённых задач без оператора. Тегирование звонков LLM-ом.

Как мы работаем

Без маркетинговой воды — четыре шага к продакшену.

01

Брифинг

30 минут — выясняем задачу, ограничения, метрику успеха.

02

Прототип

За 5–10 дней показываем работающий MVP, не дизайн в Figma.

03

Продакшн

Доводим до боевого состояния: CI, мониторинг, тесты, документация.

04

Сопровождение

Дежурим, обновляем модели, тюним промпты, считаем стоимость.

Стек и инструменты

Чем делаем

Не подбираем «модно». Подбираем то, что выживает в продакшне.

ElevenLabs v3
Cartesia Sonic
Silero
OpenAI Realtime API
Deepgram Nova-3
Whisper Large v3
Twilio
Asterisk
Vonage
LangGraph
GPT-5
Claude 4.7
VAD (Voice Activity)
WebRTC
Redis
FAQ

Частые вопросы

На ElevenLabs v3 — почти нет. Большинство абонентов в первые 30 секунд не понимают, что говорят с AI. Мы намеренно представляемся ассистентом — это требование закона в РФ и ЕС.

OpenAI Realtime — 250–400ms (полный пайплайн ASR+LLM+TTS). Cartesia Sonic + Deepgram — 350–500ms. Этого достаточно, чтобы диалог чувствовался естественным.

Deepgram Nova-3 уверенно держит русский с армянским / кавказским акцентом. Шумоподавление — Krisp или RNNoise. На SIP-trunk качество лучше, чем на мобильной связи.

Канареечный режим: на первой неделе только 5% звонков, остальные — оператор. После анализа расширяем. Всегда есть кнопка «соедините с человеком» — переключение в течение 2 секунд.

В среднем — $0.05–0.15 за минуту разговора (LLM + TTS + телефония). 1000 минут в месяц = $50–150. Self-hosted Silero снижает до $0.02/мин.

Стек, на котором работаем

Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Бюджеты

Цены

от$0

Финальная смета — после 30-минутного брифинга. Зависит от объёма данных, числа интеграций и SLA.

  • Телефония
  • ASR (распознавание)
  • TTS (озвучка)
  • Агент и логика
  • Интеграции
  • QA и аналитика

Обсудим проект?

Напишите в Telegram или оставьте заявку — ответим в течение 4 часов.