De la misma manera que escribes pruebas para cualquier algoritmo.
Obtiene algunos datos de prueba que no cambian con el tiempo (por ejemplo, una instantánea de la base de datos de búsqueda), cambia el algoritmo, ejecuta algunas consultas de prueba y compara los resultados para ver que los cambios fueron lo que esperaba. Usted escribe modelos estadísticos para comparar grandes conjuntos de resultados y utiliza una variedad de datos de prueba y consultas para probar casos extremos y una muestra decente de casos de uso.
Usted hace lo mismo con datos en vivo y personas reales que comparan los resultados. Pídales que evalúen qué resultados prefieren en diversas situaciones e informe cualquier problema que encuentren. Investigas cualquier anomalía.
- Como el sistema de recomendación está relacionado con el aprendizaje automático, ¿cuál será la próxima moda en los sistemas de recomendación?
- ¿Puede Naive Bayes alcanzar algún rendimiento con suficientes datos?
- ¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?
- ¿Qué debo hacer para comprender las matemáticas y los algoritmos detrás de la propagación inversa, CNN y RNN?
- ¿Cuánta experiencia ML necesita uno para las competiciones ML de Kaggle?
Luego lo implementa a un pequeño porcentaje de usuarios en vivo y realiza un seguimiento de su comportamiento para detectar cambios. Si nota una desviación (realizan muchas más búsquedas, o búsquedas repetidas, o van a la segunda o tercera página con frecuencia, o dejan de buscar antes), investigue por qué y evalúe si el cambio fue bueno o malo.
Despliegue lentamente a mayores porcentajes de usuarios, rastreando su comportamiento ante cualquier cosa inesperada.