Llamadas de voz
Tu Empleado Digital puede contestar llamadas telefónicas reales con voz natural en español. Latencia bajo 800ms, transcripción >95% de precisión.
¿Qué es el sistema de voz?
El sistema de voz permite que tu Empleado Digital conteste llamadas telefónicas reales — no un menú IVR con opciones numéricas, sino una conversación fluida en español donde el agente escucha, piensa y responde como una persona.
El agente puede hacer por voz todo lo que hace por WhatsApp:
- Responder preguntas sobre el negocio
- Agendar citas
- Tomar pedidos
- Hacer reservas de hospedaje
- Transferir la llamada a un humano
- Enviar la ubicación del negocio por WhatsApp al cliente durante la llamada
Arquitectura del sistema de voz
Activar y configurar
En el menú lateral, haz clic en Llamadas.
Haz clic en Activar número. El sistema busca automáticamente un número disponible con lada mexicana (+52). Si no hay disponibles, asigna un número de Estados Unidos (+1).
El costo del número se incluye en tu suscripción — no hay cobro adicional de Twilio.
Elige la voz que usará el agente. Todas las voces son en español latinoamericano.
Define el saludo inicial que escuchará el cliente al llamar (ej: "Buen día, hablas con Sofía del Salón Elegance, ¿en qué te puedo ayudar?").
Define a qué números transferir la llamada si el cliente pide hablar con una persona.
Número telefónico
El número que asigna Xambee es un número real de Twilio que puedes compartir con tus clientes. Consideraciones:
- El número recibe llamadas las 24/7
- Si el agente está pausado, el número sigue funcionando pero el sistema reproduce un mensaje de "fuera de servicio"
- No se puede enviar mensajes de texto desde el número de Twilio (solo llamadas)
- Puedes liberar el número en cualquier momento desde el panel (esto libera el número para que otro lo use)
Selección de voz
Xambee usa el motor de síntesis de voz Deepgram Aura Asteria ES para una voz natural en español. Las voces disponibles son:
| Voz | Género | Acento | Recomendada para |
|---|---|---|---|
| Asteria | Femenina | Latinoamericano neutral | La mayoría de los negocios |
| Marin | Femenina | Natural y conversacional | Salones, spas, servicios personales |
| Luna | Femenina | Cálida y amigable | Restaurantes, cafeterías |
| Orion | Masculino | Profesional | Clínicas, despachos, talleres |
| Arcas | Masculino | Profundo y seguro | Empresas, servicios corporativos |
Flujo de una llamada típica
Ejemplo de llamada a un salón de belleza con voz IA:
Herramientas disponibles en llamadas
| Herramienta | Descripción | Requiere habilidad |
|---|---|---|
agendar_cita | Agenda cita con verificación de disponibilidad | Agenda y citas |
cancelar_cita | Cancela una cita existente del cliente | Agenda y citas |
reagendar_cita | Cambia fecha/hora de una cita | Agenda y citas |
solicitar_reserva | Crea solicitud de reserva de hospedaje | Reservas |
crear_pedido | Registra un pedido de restaurante/tienda | Pedidos |
escalar_humano | Transfiere la llamada a un humano | Escalamiento |
enviar_ubicacion | Envía la ubicación del negocio por WhatsApp al cliente mientras están en llamada | — |
colgar_llamada | Termina la llamada amablemente | — |
Escalamiento en llamadas
Cuando el cliente pide hablar con una persona (o el agente detecta que es necesario), el sistema:
- El agente anuncia: "Te voy a transferir con [Nombre del receptor]"
- Twilio hace el desvío de llamada al número del receptor
- Si el receptor no contesta, el agente retoma e informa al cliente
- El receptor también recibe un WhatsApp con el contexto de la llamada
Historial y métricas
Después de cada llamada, el sistema guarda automáticamente:
- Transcripción completa — Cada turno de la conversación
- Duración — En minutos y segundos
- Costo USD — Costo de la API
- Número del cliente
- Acciones realizadas — Si se agendó cita, se hizo pedido, etc.
El panel de Llamadas muestra 4 métricas del período:
- Total de llamadas recibidas
- Duración total acumulada
- Duración promedio por llamada
- Costo IA total (USD)
Costo y créditos
| Concepto | Costo |
|---|---|
| Llamada de voz | 20 créditos por minuto (fracción hacia arriba) |
| Llamada de 1 minuto | 20 créditos |
| Llamada de 3 minutos 30 segundos | 80 créditos (4 fracciones × 20) |
| Llamada de 10 minutos | 200 créditos |