Supongo que tiene el problema de elegir entre algunos métodos de métricas que proporcionan información similar, y me gustaría saber cuál es más predictivo.
Hay dos métodos principales para esto:
1. simulación
2. Enfoques de validación cruzada, así como técnicas de remuestreo.
Podría considerar 1 vs. 2 el mismo problema que paramétrico vs. no paramétrico.
- ¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?
- ¿Qué hace el equipo de datos en Addepar?
- ¿Cómo se puede determinar si un conjunto de datos es grande o pequeño?
- ¿Qué opciones de carrera están disponibles en Big Data si uno no tiene un fondo de estadísticas / codificación?
- ¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?
Las simulaciones muestran cómo se han validado tradicionalmente muchas métricas. Sin embargo, las simulaciones se basan en supuestos y están limitadas por esos supuestos. Así es como los criterios como BIC y AIC se desarrollaron por primera vez y demostraron ser efectivos. El cuadrado R y el cuadrado R ajustado podrían incluirse en esto.
La validación cruzada, de la que hay muchos sabores (no voy a entrar), generalmente es el enfoque mucho mejor, porque hace muchas menos suposiciones. Sin embargo, es más computacional intenso, por lo que su uso puede no verse tanto. Pero la validación cruzada es un gran ejemplo de los enfoques que el ‘aprendizaje automático’ y la ‘minería de datos’ aportan a las estadísticas y análisis de datos más tradicionales.
La fuerza de la validación cruzada es que puede obtener una medida de precisión basada en una muestra de prueba relativamente independiente, y una que sea empírica, no teórica. También es importante tener más de una submuestra (es decir, la k en k veces), para que no tenga una estimación sesgada de la precisión. El tipo exacto de medida (correlación de Pearson, error cuadrado promedio, error absoluto medio, etc.) no debería importar mucho si tiene una gran cantidad de submuestras.
Validación cruzada (estadísticas)