Cómo construir un modelo de propensión a comprar para el marketing de bases de datos utilizando el aprendizaje automático en un entorno financiero

Un banco desea realizar ventas cruzadas de tarjetas de crédito a clientes de préstamos hipotecarios. Supongamos que el Banco no tiene datos sobre la Población general, es decir, clientes que no están registrados en la base de datos del Banco.

Para aumentar sus tasas de respuesta, el Banco implementa un Modelo de Propensión a Comprar, la metodología exacta no se conoce, solo para descubrir que las Propensiones predichas por su Modelo son demasiado bajas para los usuarios que no tienen Tarjeta de Crédito en su base de datos.

Una cuestión es la interpretación de la desilusión del resultado del Banco. Una posibilidad es que el Banco creó un Modelo que aprendió a identificar a sus titulares de Tarjetas de Crédito muy bien, dando así puntuaciones de probabilidad demasiado bajas a los que no tienen Tarjetas de Crédito. Es decir, un problema de sobreajuste.

Una segunda cuestión es cómo abordar conceptualmente la tarea de encontrar clientes potenciales con tarjeta de crédito dentro del conjunto de clientes sin tarjeta de crédito en la base de datos del Banco. El desafío es evitar la trampa de crear un modelo que identifique a los clientes que tienen tarjetas de crédito en la base de datos, claramente una información inútil, pero más bien identifica a los clientes que no tienen tarjetas de crédito pero serían buenas perspectivas para la comercialización de tarjetas de crédito, es decir, usuarios de tarjetas de crédito latentes. El problema obviamente tiene tres aspectos importantes:

• ¿Cómo se deben definir los conjuntos de datos de capacitación, validación cruzada y pruebas?

• ¿Qué pautas se deben utilizar para seleccionar funciones?

• ¿Cómo debe interpretarse la salida del modelo?

Una vista es enmarcar el problema como un intento de construir un modelo bien generalizable a partir de los datos etiquetados existentes (Clientes en la Base de Datos que tienen o no tienen una Tarjeta de Crédito). La generalización aquí se define como la capacidad del modelo para descubrir clientes latentes.

Siguiendo este enfoque, se podría entrenar el modelo en datos de, por ejemplo, 2014 y optimizar los hiperparámetros de regularización en un conjunto de datos de validación cruzada compuesto por nuevos clientes en el año 2015, con el objetivo de una alta recuperación a expensas de una alta precisión. Finalmente, pruebe el modelo utilizando como conjunto de datos de prueba los nuevos clientes de 2016. En consecuencia, aplique este modelo para asignar probabilidades a los usuarios que no son de la tarjeta de crédito en la base de datos del Banco. Finalmente, seleccione el 10% o 20% de los usuarios que no son de la tarjeta de crédito que han sido asignados con las probabilidades más altas.

Déjame saber lo que piensas. ¡Espero escuchar sus opiniones!

No usaría el aprendizaje automático, usaría la programación dinámica con un proceso de decisión jerárquico de Markov y una optimización Bellman-Ford, y luego haría que los estados no observables formen parte de un modelo oculto de Markov.

More Interesting

¿Cuáles son las configuraciones adecuadas para la agrupación de documentos con K-means?

Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Qué es la agrupación de datos?

¿Hay un LSTM en TensorFlow que procesa un carácter a la vez?

¿La traducción automática alguna vez reemplazará a los traductores humanos? ¿Cómo podría una traducción automática comprender el contexto sociolingüístico de un texto?

¿En qué se centran los principales competidores de Kaggle? ¿Qué les ayudó a hacerlo mejor que otros?

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Cómo se recupera la información de las cajas negras?

¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?

¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?

¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados ​​en MCMC?

Estoy acostumbrado a codificar con C ++ y C #. ¿Cuál recomendaría implementar proyectos de ML a pequeña escala (NN y CNN clásicos) sin reinventar la rueda?

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

Cómo ejecutar la regresión logística en SAS en los datos de una encuesta donde las variables dependientes e independientes son niveles de satisfacción (escala - 0 a 5)