¿Cómo definirías y medirías el poder predictivo de una métrica?

Supongo que tiene el problema de elegir entre algunos métodos de métricas que proporcionan información similar, y me gustaría saber cuál es más predictivo.

Hay dos métodos principales para esto:
1. simulación
2. Enfoques de validación cruzada, así como técnicas de remuestreo.

Podría considerar 1 vs. 2 el mismo problema que paramétrico vs. no paramétrico.

Las simulaciones muestran cómo se han validado tradicionalmente muchas métricas. Sin embargo, las simulaciones se basan en supuestos y están limitadas por esos supuestos. Así es como los criterios como BIC y AIC se desarrollaron por primera vez y demostraron ser efectivos. El cuadrado R y el cuadrado R ajustado podrían incluirse en esto.

La validación cruzada, de la que hay muchos sabores (no voy a entrar), generalmente es el enfoque mucho mejor, porque hace muchas menos suposiciones. Sin embargo, es más computacional intenso, por lo que su uso puede no verse tanto. Pero la validación cruzada es un gran ejemplo de los enfoques que el ‘aprendizaje automático’ y la ‘minería de datos’ aportan a las estadísticas y análisis de datos más tradicionales.

La fuerza de la validación cruzada es que puede obtener una medida de precisión basada en una muestra de prueba relativamente independiente, y una que sea empírica, no teórica. También es importante tener más de una submuestra (es decir, la k en k veces), para que no tenga una estimación sesgada de la precisión. El tipo exacto de medida (correlación de Pearson, error cuadrado promedio, error absoluto medio, etc.) no debería importar mucho si tiene una gran cantidad de submuestras.

Validación cruzada (estadísticas)

Depende de la tarea subyacente y hablar generalidades no es muy útil. Si su métrica es la media, entonces el error estándar de la media le permite definir intervalos de confianza. Si está haciendo una regresión lineal, entonces tiene su correlación. Si se trata de un modelo predictor binario, le preocupan los errores de Tipo I y Tipo II y una Curva ROC podría ayudarlo a comprender el poder del modelo. En algunos casos tiene valores teóricos, y en otros casos puede confiar en cosas como bootstrapping o crossvalidation.

Si define “poder predictivo” como la precisión del éxito de una métrica para predecir el empírico, todos son específicos del dominio. Sin embargo, lo importante es cuán fácil es observar la predicción.

En campos como la fabricación, donde las tasas de falla de las herramientas son fácilmente observables, se puede entrenar un modelo o una métrica y la tasa de éxito se puede medir fácilmente como una desviación con el tiempo de lo observado.

Trabajo en seguridad de la información, y en seguridad (realmente cualquier campo con casi errores) es casi imposible observar el poder predictivo. Después de todo, si te digo que viene un ataque y debes hacer X, ¿mi recomendación detuvo el ataque o el ataque nunca llegó? Este es el problema fundamental con la falta de observaciones, e intentamos correlacionar una métrica con fuentes de datos externas, situaciones similares, o aplicar los modelos a conjuntos de datos pasados ​​para ver qué tan efectivos son.

More Interesting

Cómo resolver el problema relacionado con pequeños datos de capacitación que conducen el aprendizaje automático o el aprendizaje profundo

¿Qué habilidades necesito para construir un sitio web basado en big data?

¿Los datos grandes son más útiles que los datos pequeños?

¿Cuál es el futuro de Big Data en la gestión del talento?

¿Dónde obtengo datos para el aprendizaje automático?

¿Qué odias de la ciencia de datos?

¿Cómo ingresa un estudiante de física en el campo de la ciencia de datos?

¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

¿Cómo aborda un científico de datos experto un problema de aprendizaje automático? ¿Puedes explicar paso a paso?

¿Cómo explicará la precisión media promedio ( [correo electrónico protegido] ) a un cliente comercial en una sola oración?

¿Qué nivel de preguntas de codificación del algoritmo Python le pedirían para una entrevista de ciencia de datos (nivel interno)?

¿Cuánto tiempo puede sobrevivir Informatica en el mundo de los grandes datos?

¿Qué campo de estudio es el más fácil de aprender como principiante completo: información / seguridad cibernética, ciencia de datos o investigación de operaciones?

¿Puedo obtener un trabajo de ciencia de datos después de completar el curso de certificación junto con un proyecto en él?

¿Cómo son exactamente estos 'X mil millones de hechos' en la red semántica de Google Knowledge Graph / Vault?