Usted no sabe ‘consistente’ y ‘duradero’ son todos términos relativos al dominio: ¿significan días, semanas, meses, años, décadas o siglos? Existen fenómenos bien conocidos tanto de “deriva del modelo” como de “deriva de datos“ . De hecho, cambiemos su afirmación y supongamos que la mayoría del comportamiento humano varía en el tiempo, durante un período .
Algunos dominios son notoriamente efímeros:
- moda, (‘moda rápida’)
- películas, música, videojuegos (piensa en Pokémon Go, Candy Crush, Farmville)
- Restaurante informal / de comida rápida / bebidas / preferencias de dulces
- en general, cualquier aplicación o servicio en el que el cliente tiene poca adherencia y recibió un gran descuento (alto CAC) especialmente. muy lujoso, por ejemplo, kits de comida, entrega de restaurantes, servicios de citas, suscripciones mensuales de caja, servicio de teléfono celular … mire la historia de advertencia de por qué Blue Apron fue un día un IPO querido y luego, después de la adquisición de Amazon-Whole Foods, dañó los productos.
Dominios que son más lentos, pero que aún cambian:
- ¿Qué pasos se deben tomar para tener una comprensión rigurosa de la ciencia de datos (lado teórico, especialmente)?
- ¿Cómo se puede construir un conjunto de datos donde podamos consultar la deuda total para cada sección censal?
- ¿Los grandes datos solo están desestructurados o pueden estructurarse también?
- ¿En qué casos no podemos aplicar el análisis de datos (ordinarios) y tenemos que usar el análisis de datos topológicos? ¿Podrías dar un ejemplo concreto? ¡Gracias!
- ¿Por qué se usa la regresión logística con tanta frecuencia en la ciencia de datos?
- comportamiento de seguros y productos financieros. Compra / alquiler de vivienda.
En general, para segmentos que cambian rápidamente, no hay un conjunto de entrenamiento (ya que si creáramos uno, envejecería instantáneamente); en su lugar, usamos pruebas Multi-Armed Bandit para permitirnos simultáneamente explorar / explotar y ejecutar muchos experimentos simultáneos (‘A / B / C / D / … test’), todo mientras estamos en producción.
(Una pregunta relacionada: construí un modelo en R usando datos históricos. ¿Cómo lo uso para datos en tiempo real?)