Urartu.
Услуга 05 / 08

AI-интеграции

Встраиваем GPT-5, Claude 4.7, Gemini 2.5 и open-source модели в продукты клиентов. API-обёртки, fine-tuning, eval-харнесс и контроль стоимости — без «вайб-чекинга» промптов.

  • Архитектура и роутинг
  • Fine-tuning
  • API-обёртки
от $1500Встраиваем GPT-5, Claude, Gemini в продукты клиента. API-обёртки, fine-tuning.
Состав поставки

Что в работе

Архитектура и роутинг

Cost-aware router: дешёвая модель сначала, fallback на премиум при низкой уверенности. Кеширование на pgcache.

Fine-tuning

LoRA/QLoRA на Llama 3.3, Qwen 2.5 и Mistral. Подготовка датасета, eval, A/B-тест против базовой модели.

API-обёртки

TypeScript / Python SDK поверх вашей бизнес-логики. Stream, function-calling, tool-use, structured outputs (Zod / Pydantic).

Гардрейлы и safety

Prompt-injection guard, jailbreak detection, PII redaction, NSFW-фильтр, content moderation через Llama Guard 3.

Eval-харнесс

Промпты — как код: тесты, регрессии, бенчмарки. LangSmith / Braintrust / Promptfoo.

Memory и контекст

Mem0, LangGraph checkpoints, или своя реализация на Postgres. Долгосрочная память пользователя.

Как мы работаем

Без маркетинговой воды — четыре шага к продакшену.

01

Брифинг

30 минут — выясняем задачу, ограничения, метрику успеха.

02

Прототип

За 5–10 дней показываем работающий MVP, не дизайн в Figma.

03

Продакшн

Доводим до боевого состояния: CI, мониторинг, тесты, документация.

04

Сопровождение

Дежурим, обновляем модели, тюним промпты, считаем стоимость.

Стек и инструменты

Чем делаем

Не подбираем «модно». Подбираем то, что выживает в продакшне.

GPT-5
Claude 4.7 (Opus / Sonnet / Haiku)
Gemini 2.5
Llama 3.3 70B
Qwen 2.5
DeepSeek V3
OpenAI Responses API
Anthropic SDK
LangChain
LangGraph
Vercel AI SDK
LangSmith
Promptfoo
vLLM
Ollama
FAQ

Частые вопросы

Если ответы нужны мгновенно и дёшево — Claude Haiku или GPT-5 mini. Если задача требует рассуждений — Claude Opus 4.7 или GPT-5 thinking. Если данные приватные — Llama 3.3 70B на ваших GPU.

RAG отвечает за факты, fine-tune — за стиль и формат. Если у вас 10 000+ примеров «как должен звучать ответ», fine-tune снижает стоимость на 5–10× и убирает галлюцинации стиля.

GPT-5: $1.25/M input, $10/M output. Claude Sonnet 4.7: $3/$15. Haiku: $0.80/$4. Self-hosted Llama 70B: $0.10/M (только электричество + амортизация).

Promptfoo + LangSmith. Каждый промпт — git-файл, eval — список JSON-кейсов с expected output. Регрессии ловим до деплоя.

OpenAI и Anthropic дают опцию zero-retention в enterprise-плане. Gemini — через Vertex AI. Полный контроль — только self-hosted: vLLM или Ollama на вашем железе.

Стек, на котором работаем

Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Next.js 15Veo 3.1Gemini 2.5Claude 4.7GPT-5ElevenLabsLangGraphPineconen8nCartesiaHeyGenRunwaySoraWhisperPostgreSQLpgvectorDrizzleVercelCloudflareBitrix24AmoCRM1CTelegram BotWhatsApp
Бюджеты

Цены

от$0

Финальная смета — после 30-минутного брифинга. Зависит от объёма данных, числа интеграций и SLA.

  • Архитектура и роутинг
  • Fine-tuning
  • API-обёртки
  • Гардрейлы и safety
  • Eval-харнесс
  • Memory и контекст

Обсудим проект?

Напишите в Telegram или оставьте заявку — ответим в течение 4 часов.