Speech Analytics churn: Análisis de voz y cuando el tono del cliente es la señal

Séptimo y último artículo de la parte técnica de la serie sobre retención. Explica cómo funciona el análisis de voz por dentro —a alto nivel, sin fórmulas— para que se entienda que es real y construible, con la experiencia de campo y las puertas que quedan abiertas hacia el final.

Dos llamadas idénticas en el ticket, opuestas en la realidad

Dos clientes, el mismo fallo: un cobro duplicado. Llaman casi a la vez, les atiende el mismo agente y a los dos se les devuelve el dinero en el acto. En el sistema de tickets quedan registradas como dos llamadas idénticas: mismo motivo, misma resolución, caso cerrado. Pero si las hubieras escuchado, habrías oído dos conversaciones que no se parecen en nada.

Llamada A · se resuelve y se calma

Cliente · entra tenso«Me habéis cobrado dos veces, esto no puede ser.»

Agente«Lo veo ahora mismo, tiene razón, lo corrijo.»

Cliente · afloja«Ah, vale… perfecto. Pensaba que iba a ser un lío.»

Llamada B · se resuelve y no se calma

Cliente · entra tenso«Me habéis cobrado dos veces. Otra vez.»

Agente«Lo veo ahora mismo, tiene razón, lo corrijo.»

Cliente · cierre seco«Ya. Llevo todo el año así. A ver si es verdad.»

El cliente A entró tenso y salió tranquilo. El cliente B entró tenso y salió peor: el cobro se arregló, pero la conversación no iba del cobro, iba de «llevo todo el año así». Ese «a ver si es verdad» es una despedida ensayándose. Tu modelo de churn basado en datos transaccionales no notará la diferencia hasta dentro de semanas, cuando la recencia de B empiece a caer y ya sea tarde. La única fuente que captó la diferencia en el momento fue la voz.

La razón de fondo es que la insatisfacción nace como emoción mucho antes de convertirse en comportamiento. Hay una fase, de semanas o meses, en la que el cliente ya está descontento pero sigue pagando y usando el producto con normalidad. En esa fase no hay nada que un dato transaccional pueda ver, porque todavía no ha pasado nada medible. La voz entra justo en ese hueco: cuando ese cliente llama por cualquier cosa, su tono ya delata el deterioro. Esa es toda la promesa. El resto del artículo es cómo se captura.

Cómo se digitaliza algo tan humano como un tono

La primera pregunta técnica es la más básica y la más importante: ¿cómo conviertes algo tan intangible como «sonaba molesto» en datos que una máquina pueda procesar? Y la respuesta es que una conversación, vista de cerca, es uno de los objetos de datos más densos que existen. Una llamada de tres minutos contiene cientos de señales medibles, y las propias palabras solo es una de esas señales.

El audio en bruto es una onda, y de esa onda se extraen características numéricas que describen su forma. La técnica estándar para esto se llama MFCC — y no necesitas recordar el nombre—, que en una frase es esto: una forma de resumir el sonido de cada fragmento de voz en un puñado de números que capturan su «color», de manera parecida a como el oído humano distingue un tono cálido de uno metálico. Sobre esos números se miden cosas concretas: la frecuencia fundamental, que es básicamente cómo de agudo o grave suena alguien y que sube cuando nos tensamos; la energía, que es el volumen; y el ritmo, la velocidad a la que se encadenan las palabras.

Con eso ya tienes lo crudo. Pero lo valioso no es el tono en un instante, sino su trayectoria a lo largo de la llamada. Recuerda las dos llamadas del principio: lo que las distinguía no era el punto de partida, idéntico en ambas, sino hacia dónde fue la curva. La A bajó hacia la calma, la B subió hacia el hartazgo. Medir esa pendiente —cómo evoluciona la tensión vocal de principio a fin— es una de las señales más predictivas de todas, y se calcula trazando la frecuencia fundamental y la energía a lo largo del tiempo.

La frecuencia fundamental y la energía, trazadas a lo largo de la llamada, dibujan la curva emocional. La pendiente —no el desenlace del ticket— es una de las señales más predictivas del abandono.

Separar quién habla, y leer también los silencios

Una llamada son dos personas, y para analizarla bien hay que saber en cada momento quién está hablando. Eso se llama diarización: el proceso de separar la pista de audio en «esto lo dice el agente, esto el cliente». Suena a detalle, pero es lo que desbloquea las señales más finas, porque casi todo lo interesante está en la interacción entre los dos, no en cada uno por separado.

Una vez separadas las dos voces, aparecen señales que no son palabras y que dicen muchísimo. Los silencios: una pausa larga antes de que el cliente responda «vale» no es lo mismo que un «vale» inmediato; ese medio segundo de más es duda, es la distancia entre aceptar y resignarse. Los solapamientos, cuando el cliente interrumpe al agente, que son un marcador clarísimo de impaciencia. El reparto del tiempo de habla: una llamada sana suele tener cierto equilibrio, y un cliente que monopoliza la conversación descargando quejas tiene un patrón distinto al de uno que escucha y dialoga. La velocidad y cómo se alargan o se cortan las palabras según sube la tensión.

En paralelo va el contenido, lo que sí son palabras. De la transcripción se filtran las stopwords —los «de», «que», «la» que llenan cualquier frase y no aportan— para quedarse con el vocabulario que pesa: términos de frustración, de comparación con la competencia, de escalada como «otra vez» o «todo el año», marcadores de amenaza implícita. Las modernas formas de analizar este texto usan embeddings, que en una frase es esto: convertir cada palabra o frase en una lista de números que sitúa lo dicho en un mapa de significados, de modo que el sistema entiende que «estoy harto» y «no aguanto más» están cerca aunque no compartan ni una palabra.

La densidad de una llamada

Entre la pista acústica y la transcripción, una conversación de tres minutos produce cientos de variables medibles: tono, energía, ritmo, silencios, solapamientos, reparto de habla, vocabulario cargado, evolución de todo ello en el tiempo. La materia prima sobra. El reto técnico no es conseguir señales, es destilarlas en algo accionable.

De cientos de señales a un solo número

Aquí es donde todo lo anterior se junta con lo que ya sabemos de la serie. Tenemos cientos de variables por llamada: las acústicas, las de interacción y las de contenido. ¿Qué hacemos con ellas? Exactamente lo mismo que hicimos con la recencia, la frecuencia y las quejas en los artículos sobre predicción de churn: se las damos a un modelo para que aprenda qué combinaciones predicen el abandono.

El planteamiento tiene dos grandes formas. La primera es tratar cada llamada como una foto: resumes toda la conversación en sus estadísticos —tono medio, pendiente de la curva, número de interrupciones, proporción de vocabulario negativo— y se los pasas a un modelo tabular como los que ya conocemos. Es robusto, interpretable y suele ser el punto de partida sensato. La segunda, más avanzada, es tratar la llamada como lo que es, una secuencia que evoluciona en el tiempo, y usar modelos que leen secuencias —las mismas redes recurrentes que vimos en el artículo de telecomunicaciones— capaces de captar el «iba bien y de repente se torció en el minuto dos» que un resumen estadístico aplana.

El pipeline completo no es distinto en filosofía a cualquier modelo de churn de la serie. Lo único nuevo es la fuente de las señales —el audio— y las dos primeras etapas que lo convierten en variables.

Y aquí está el mensaje tranquilizador para quien dirige y no construye: la parte verdaderamente nueva son solo las dos primeras etapas, las que transforman el audio en variables. Una vez tienes esas variables, lo demás es el mismo modelo de churn que ya hemos descrito a lo largo de toda la serie, con su recall, su umbral y su evaluación. El speech analytics no es una disciplina alienígena: es una fuente de datos nueva conectada a una maquinaria que ya conoces.

El primer paso real: el texto que ya tienes

Toda esa maquinaria de audio suena a proyecto grande, y lo es. Por eso casi nunca recomiendo empezar por ahí. La mayoría de empresas ya está sentada sobre la misma materia prima emocional sin haberla tocado: el texto de soporte. Tickets, chats, correos. Eso es lenguaje cargado de sentimiento y no necesita ni un micrófono ni diarización ni MFCC.

Aplicar análisis de sentimiento a ese texto es la puerta de entrada natural, y de las dos llamadas del inicio podrías haber sacado bastante solo del texto: el «otra vez», el «todo el año así» del cliente B son señales de escalada que un análisis de texto detecta sin despeinarse. Polaridad, intensidad, lenguaje de escalada, menciones a la competencia: cada una se convierte en una variable que alimenta el modelo, exactamente igual que las acústicas, solo que mucho más baratas de obtener.

Empieza por aquí

Antes de invertir un euro en procesar audio, exprime el texto de soporte que ya tienes. El análisis de sentimiento sobre tickets y chats da buena parte del valor con una fracción del coste, y te sirve para demostrar internamente que la señal emocional predice el churn en tu negocio antes de pedir presupuesto para la infraestructura de voz.

Lo que de verdad necesitas para esto no es tecnología puntera, sino volumen de texto histórico con el desenlace conocido —qué clientes que escribieron esos tickets acabaron yéndose— para que el modelo aprenda a atar patrones de lenguaje con abandono. Esa necesidad de histórico etiquetado es, por cierto, la misma para el texto y para la voz, y es lo que separa tener una herramienta de análisis de tener un predictor de verdad.

Lo que aprendes cuando lo pones en producción

Entre entender todo esto y verlo funcionar sobre conversaciones reales hay un trecho lleno de cosas que no vienen en la documentación de ningún proveedor. He trabajado esta tecnología en dos contextos muy distintos, y cada uno me enseñó algo que cambió cómo la planteo.

Experiencia de campo · Ventas

En un equipo comercial aplicamos speech analytics a las llamadas de los vendedores para construir un buyer persona por SKU a partir de lo que de verdad se decía en las conversaciones de venta, en lugar de inventarlo desde suposiciones de marketing. Lo sacábamos de las objeciones, las preguntas y el lenguaje reales de las llamadas que acababan en venta de cada producto.

El subproducto fue lo más valioso, y no lo vimos venir: el sistema detectaba señales de la competencia con una finura que ningún informe de mercado igualaba. Qué competidor mencionaba un prospecto, en qué términos, qué comparaba y con qué frecuencia aparecía cada rival se convertía en inteligencia de mercado casi en tiempo real, sacada de la voz del cliente y no de una encuesta. Ahí entendí que el habla no solo predice abandono: lleva dentro una capa de inteligencia competitiva que las empresas tienen delante y no escuchan.

Experiencia de campo · Customer Experience

En un departamento de CX usamos esta tecnología para calcular un NPS inferido: una estimación del Net Promoter Score de cada cliente basada en la calidad y el sentimiento de sus llamadas de soporte, no en encuestas. El NPS clásico solo lo contesta una minoría poco representativa; inferirlo desde la voz nos daba una señal de satisfacción de toda la base, continua y sin pedirle nada al cliente.

Lo revelador fue el desajuste entre el NPS declarado y el inferido. Había clientes que en la encuesta puntuaban bien y cuyas llamadas, en cambio, destilaban una frustración creciente que el sistema captaba con semanas de antelación. Ese delta entre lo que el cliente dice cuando le preguntas y lo que su voz comunica cuando interactúa resultó ser uno de los predictores de abandono más potentes con los que he trabajado. La voz no miente con la soltura con la que se rellena una encuesta.

De esos proyectos me llevé tres cicatrices que vale la pena compartir, porque son los sitios donde estos sistemas se rompen. Capturarlo todo produce volumen inmanejable y peor señal: capturar bien le gana a capturar todo. La transcripción en español sufre más de lo que venden, con acentos y voces solapadas, y una transcripción regular contamina cuanto viene detrás. Y la más sutil: cuando los agentes se saben escuchados, cambian cómo hablan, y eso altera las señales que el modelo aprende. Ninguna de las tres es un problema técnico puro; las tres son de diseño.

Juntarlo todo, y lo que cuesta

El destino de todo esto es la fusión multimodal: un solo modelo que combina las tres familias de señal de la serie —comportamiento transaccional, texto de soporte y voz—. Funciona porque las tres se equivocan en momentos distintos y cada una tapa los agujeros de las otras: el comportamiento es objetivo pero llega tarde a la fase emocional, la voz capta esa fase pero solo existe cuando el cliente llama, el texto está en medio. Juntas dan cobertura continua.

La buena noticia operativa es que no hay que construir los motores de transcripción y análisis desde cero: los grandes proveedores cloud los ofrecen como servicio, y conectarlos es ingeniería conocida. La factura, eso sí, conviene mirarla de frente, porque se cobra por minuto de audio y a escala de miles de llamadas diarias deja de ser calderilla.

Proveedor

Capas que cubre

Consideración de coste

AWS Transcribe + Comprehend

Transcripción + sentimiento sobre texto

Cobro por minuto de audio más por texto; escala con el volumen

Google Speech-to-Text + Natural Language

Transcripción + análisis semántico

Tarifa por minuto; modelos mejorados a precio superior

Azure AI Speech + Language

Voz, transcripción y sentimiento integrados

Suite integrada; pagas por cada capa que activas

Y hay un umbral que no es de dinero sino de estadística: por debajo de cierto volumen de llamadas no hay casos suficientes para una señal fiable. Si tu soporte maneja un puñado de llamadas al día, el speech analytics no te dará un predictor sólido por impresionante que sea la tecnología. La regla es la de toda la serie: la sofisticación se adopta cuando el volumen y el retorno la justifican, no porque exista.

Cuándo da el salto a la voz

El análisis de audio completo se justifica con tres condiciones a la vez: volumen de llamadas suficiente para significancia, valor de cliente alto para que adelantar la detección pague la infraestructura, e histórico etiquetado para entrenar. Si falta una, empieza por el texto y valida la hipótesis antes de invertir en audio.

Lo que dejo para un futuro

La voz del cliente da para mucho más de lo que cabe aquí, y prefiero decir qué me dejo fuera antes que fingir que esto lo cubre todo. Hay cuatro líneas que merecen, cada una, su propio artículo. La ética y la privacidad: analizar voz y emoción de clientes y agentes abre preguntas serias de consentimiento y cumplimiento que el marco europeo obliga a resolver desde el diseño. El análisis en tiempo real durante la llamada, que ya no alimenta un modelo a posteriori sino que asiste al agente en vivo. El salto al vídeo, donde la expresión facial suma una capa que el audio no ve. Y los grandes modelos de lenguaje como capa de comprensión semántica sobre las transcripciones, capaces de captar contexto e intención donde el análisis clásico se queda corto.

Cuatro puertas abiertas

Ética y privacidad de la voz, asistencia en tiempo real al agente, extensión al vídeo, y los grandes modelos de lenguaje como capa semántica sobre las transcripciones. Cada una es un cluster en sí misma, y marcan por dónde puede crecer esta línea de trabajo.

Volvamos a las dos llamadas del principio. El cliente A y el B colgaron con su problema resuelto, pero uno se quedó y el otro empezó a irse, y la única señal que lo vio venir fue el tono. Hemos visto que ese tono se puede digitalizar, medir, convertir en cientos de variables y, con ellas, alimentar el mismo tipo de modelo que ya conocíamos. Con el speech analytics cerramos la línea de detección y el arsenal completo: sabemos predecir quién se va, explicar por qué, ubicarlo en el tiempo, corregir el sesgo de los datos, adaptarlo a cada sector y escuchar lo que el cliente siente antes de que actúe. Queda la pregunta que lo cambia todo, la que ya no va de diagnosticar sino de actuar: cuando sabes quién se va, por qué y cuándo, ¿qué haces exactamente para evitarlo?