SHAP: cómo abrir la caja negra del modelo de churn

Tercer artículo de la parte técnica. Ya tenemos un modelo preciso con XGBoost; ahora lo abrimos para entender qué mira y por qué. Es el puente entre la predicción y la acción: sin explicabilidad, un modelo no dice qué hacer. Cerramos con Ficticia Commerce y su modelo entrenado.

Predice con un 96 % de acierto. Tu director pregunta por qué.

Ficticia Commerce lleva su modelo de XGBoost a la reunión de dirección. Funciona: detecta a casi todos los clientes en riesgo. El director de operaciones mira la lista de clientes marcados y hace la única pregunta que importa: «¿Y qué hacemos con ellos? ¿Por qué se van?». El analista no tiene respuesta. El modelo da una probabilidad, no una razón. Y sin razón, no hay acción posible: no se puede diseñar una intervención contra una cifra que no explica nada.

Este es el muro contra el que choca la mayoría de proyectos de churn que se quedan a medias. La precisión sin explicabilidad produce una lista de nombres y ninguna instrucción y eso en otros proyectos puede ser una variable menor, pero cuando estamos infiriendo el comportamiento de personas, conocer la razón de ser de los resultados deja de ser opcional.

Saber quién se va sirve de poco si no sabes por qué, porque la intervención —el descuento, la llamada, la mejora de servicio— tiene que atacar una causa concreta, no una probabilidad abstracta. Un modelo de predicción de churn que predice pero no explica es un diagnóstico sin tratamiento.

Por qué la explicabilidad no es opcional

Un modelo de caja negra es aquel que acierta sin que sepamos cómo. Para una competición de algoritmos eso da igual, pero para asignar presupuesto de retención en una empresa, es un riesgo difícil de asumir. Si no entiendes por qué el modelo marca a un cliente, no puedes saber si su razonamiento es sólido o si se ha agarrado a una correlación espuria que funcionará hoy y fallará mañana, y tampoco puedes traducir su predicción en una acción concreta. La inteligencia artificial explicable —XAI— existe precisamente para resolver esto: hacer que un modelo complejo pueda rendir cuentas de sus decisiones en términos que un humano entienda.

En el contexto de la retención, la explicabilidad cumple dos funciones a la vez. Hacia arriba, da confianza a quien decide: un comité aprueba mucho antes una inversión cuando entiende la lógica detrás de la recomendación, y desconfía con razón de una caja negra que pide presupuesto sin justificarse. Hacia abajo, convierte la predicción en un plan: si sabes qué variable empuja a un cliente hacia la salida, sabes qué palanca mover para retenerlo. Sin esa traducción, el modelo más preciso del mundo se queda en un ejercicio académico.

Qué son los valores SHAP

SHAP reparte la responsabilidad de cada predicción entre las variables que la produjeron. Para cada cliente concreto, te dice cuánto empujó cada característica su probabilidad de churn hacia arriba o hacia abajo, partiendo de una predicción base que es el riesgo medio de toda la población. No es una importancia genérica y promediada: es una explicación individual, cliente a cliente, de qué pesó en su predicción particular y en qué dirección.

La idea procede de la teoría de juegos cooperativos. El problema matemático que resuelve es repartir de forma justa una recompensa entre jugadores que han colaborado, midiendo la contribución de cada uno como cuánto cambia el resultado cuando ese jugador entra o sale de todas las coaliciones posibles. Trasladado a un modelo, los jugadores son las variables y la recompensa es la predicción: SHAP calcula cuánto aporta cada característica promediando su efecto sobre todas las combinaciones posibles de las demás.

⚖️

Analogía

Imagina repartir el mérito de un proyecto entre los miembros de un equipo de forma justa. No basta con quién hizo más horas: hay que valorar cuánto habría cambiado el resultado sin cada persona, probando todas las combinaciones de quién estuvo y quién no. SHAP hace exactamente eso con las variables del modelo. A cada característica le asigna el crédito que merece por la predicción, midiendo cuánto cambiaría el resultado si esa variable no estuviera ahí. Es teoría de juegos cooperativos aplicada a entender un algoritmo.

La consecuencia práctica es poderosa. Puedes mirar el modelo de dos formas complementarias: a vista de pájaro, qué variables mueven más el churn en toda tu base de clientes; y a ras de suelo, por qué este cliente en concreto aparece en la lista de riesgo. La primera vista orienta la estrategia general de retención; la segunda, la intervención individual sobre un cliente específico. Pocas herramientas dan ambos niveles de lectura con la misma base matemática.

Los cinco predictores dominantes en ecommerce

Cuando se aplica SHAP a un modelo de churn de ecommerce, emergen de forma consistente unos pocos predictores que concentran casi toda la capacidad explicativa. Son, en buena medida, las mismas señales que identificamos al estudiar el churn en ecommerce, pero ahora cuantificadas: SHAP no solo confirma que importan, sino cuánto pesa cada una y en qué dirección empuja la predicción.

El predictor más fuerte como factor protector es la antigüedad de la relación: a más tiempo como cliente, menor riesgo de fuga, de forma muy marcada. En el lado opuesto, el factor de riesgo más inmediato son las quejas: una sola reclamación dispara la probabilidad de abandono más que casi cualquier otra señal, y lo hace de forma casi instantánea. Le siguen el número de direcciones registradas y la distancia al almacén, ambos empujando el riesgo al alza por la vía de la inestabilidad del cliente y la fricción logística en la entrega. Y cerrando el grupo, el saldo de beneficios acumulados —cashback, puntos de fidelización— que actúa como ancla protectora porque incrementa el coste percibido de marcharse.

Lectura estilo SHAP: cada barra parte de la predicción base y empuja el riesgo a un lado. Las quejas y la antigüedad son las palancas más potentes, en direcciones opuestas.

Implementación con TreeSHAP

Para modelos basados en árboles como XGBoost existe una variante llamada TreeSHAP que calcula estos valores de forma exacta y rápida, sin las aproximaciones que necesitan otros tipos de modelo. Esto importa en la práctica: calcular valores SHAP exactos sobre un modelo cualquiera es computacionalmente carísimo, pero la estructura de los árboles permite un atajo que lo hace viable incluso sobre bases de clientes grandes. El código se apoya directamente en el modelo_xgb que entrenamos en el artículo anterior y produce las dos vistas que comentábamos.

Python · Explicabilidad con TreeSHAP sobre el modelo XGBoost

import shap

# TreeSHAP: cálculo exacto y eficiente para modelos de árboles
explainer = shap.TreeExplainer(modelo_xgb)
shap_values = explainer.shap_values(X_test)

# Vista global: qué variables mueven más el churn en toda la base
shap.summary_plot(shap_values, X_test, feature_names=features)

# Vista individual: por qué este cliente concreto está en riesgo
cliente = 0
shap.plots.waterfall(
    shap.Explanation(
        values=shap_values[cliente],
        base_values=explainer.expected_value,
        data=X_test.iloc[cliente],
        feature_names=features
    )
)

El summary_plot genera la vista de pájaro: un gráfico donde cada variable aparece ordenada por su impacto global y se ve, de un vistazo, qué empuja el churn en tu base de clientes y con qué dispersión. El waterfall hace lo contrario: toma un cliente concreto —aquí el primero del conjunto de prueba— y descompone su predicción mostrando qué características lo empujaron hacia el riesgo y cuáles lo frenaron, partiendo de la predicción base hasta llegar a su probabilidad final. Esa segunda vista es la que llevas a la conversación con operaciones: no «este cliente tiene un 0,8 de probabilidad», sino «este cliente está en riesgo por una queja reciente y una distancia de entrega alta, pese a llevar dos años con nosotros».

Conviene añadir una tercera lectura cuando el equipo ya está cómodo con las dos anteriores: el gráfico de dependencia, que muestra cómo cambia el efecto de una variable según su valor. Permite ver, por ejemplo, a partir de cuántos días de distancia logística el riesgo empieza a dispararse, o si el efecto protector de la antigüedad se estabiliza pasado cierto número de meses. Es la herramienta que convierte «las quejas importan» en «la primera queja es la que dispara el riesgo, las siguientes aportan mucho menos», un matiz con consecuencias directas para el diseño de la intervención.

SHAP explica asociación, no causalidad

Aquí hay una trampa en la que cae mucho equipo técnico con prisa, y conviene señalarla con claridad. SHAP te dice qué variables están asociadas a la predicción del modelo, no qué variables causan el abandono. Son cosas distintas. Si el modelo aprende que los clientes con muchas direcciones registradas abandonan más, SHAP lo reflejará, pero eso no significa que registrar direcciones provoque el churn: lo más probable es que ambas cosas sean síntomas de un mismo factor de fondo, como la inestabilidad vital del cliente.

La implicación es práctica. Puedes usar SHAP con total confianza para priorizar a quién mirar y para entender el comportamiento del modelo, pero antes de rediseñar un proceso de negocio en torno a una variable conviene preguntarse si la relación es causal o solo correlacional. Intervenir sobre una correlación que no es causa malgasta recursos: bajar artificialmente el número de direcciones de un cliente no lo va a retener si la dirección era solo un reflejo de algo más profundo. SHAP ilumina el modelo; el criterio de negocio decide qué palancas son accionables de verdad.

Asociación no es causa

SHAP revela qué mira el modelo, no qué causa el churn. Una variable puede predecir el abandono sin provocarlo, y actuar sobre ella no cambiará nada si es un síntoma y no una causa. Usa SHAP para priorizar y entender; usa el criterio de negocio para decidir sobre qué palancas merece la pena intervenir de verdad.

De SHAP a la decisión operativa

Con esa cautela presente, aquí es donde la explicabilidad deja de ser técnica y se vuelve estrategia. Si SHAP revela que las quejas son el disparador de churn más potente, eso es una instrucción directa para la operación: la integración del modelo con el sistema de soporte debe disparar una alerta prioritaria en cuanto un cliente valioso presenta una reclamación, para resolverla antes de que la insatisfacción se convierta en fuga. La queja, recordemos, es uno de esos touchpoints de la relación que sí están bajo tu control, como vimos al recorrer el customer journey como mapa de riesgo.

El mismo razonamiento se aplica al resto de palancas accionables. Si el saldo de beneficios protege y la relación es plausiblemente causal, reforzarlo en clientes de alto riesgo y alto valor es una intervención con fundamento. Si la distancia logística penaliza, acercar el stock o priorizar la entrega a esos clientes deja de ser una decisión operativa neutra para convertirse en una acción de retención medible. SHAP no solo explica el modelo: traduce cada predictor accionable en una palanca concreta sobre la que actuar, y deja fuera las que son meros síntomas.

El verdadero valor de SHAP

SHAP cierra el círculo entre predecir y actuar. Convierte una lista de clientes en riesgo en un conjunto de causas accionables, y eso es lo que permite pasar de «sabemos quién se va» a «sabemos qué hacer con cada uno», que es donde la retención empieza a generar retorno de verdad.

Con XGBoost para predecir y SHAP para explicar, Ficticia Commerce ya sabe quién se va y por qué, con el cuidado de no confundir asociación con causa. Pero falta una dimensión que ninguna de las dos captura del todo: el tiempo. Las quejas o la distancia explican el riesgo, pero no dicen en qué momento del ciclo de vida ese riesgo es máximo. Un cliente que lleva tres meses no se comporta como uno que lleva tres años. ¿Es el riesgo de abandono constante a lo largo de la relación, o hay ventanas concretas donde se concentra y que deberían condicionar cuándo intervenimos?