¿Cómo determinaría qué transacciones con tarjeta de crédito son recurrentes dados al menos varios meses del historial de transacciones de un individuo?

Para comenzar, se necesita una medida de similitud para estimar la probabilidad de que dos transacciones sean en realidad dos instancias de la misma transacción recurrente. La medida de similitud podría considerar si el proveedor es el mismo, la cantidad es igual o similar, y las transacciones se espaciaron alrededor de 30 días (o más flexiblemente, alrededor de 30, 60 o 90 días). Una cadena de transacciones similares por pares se puede agrupar como una serie recurrente.

Muchas medidas de similitud son en realidad una medida de diferencia, donde 0 significa idéntico, y cuanto mayor es el número, más diferente.
Un algoritmo de agrupación podría agrupar todas las transacciones similares por pares en agrupaciones. Con la regla flexible de 30, 60 y 90 días, la agrupación será sólida incluso si una transacción se omitió un mes.

Se pueden ver las transacciones como un modelo oculto de markov (HMM), donde la variable oculta es a qué transacción recurrente (si corresponde) pertenece la instancia de la transacción. En este modelo, la probabilidad de que una transacción sea recurrente aumenta la coincidencia de similitud con otra, y se puede aprender el espaciado recurrente. (por lo tanto, si la frecuencia de recurrencia es cada 20 días de manera constante, se omitirá una transacción del mismo proveedor con solo 7 días de diferencia porque su frecuencia y fase no coinciden con la secuencia de transacciones recurrentes en general).
Si hay un conjunto de datos de transacciones de ejemplo disponibles con transacciones recurrentes ya etiquetadas, esto se puede usar para entrenar y predecir las probabilidades exactas de que las transacciones se agrupen en una serie.