¿Cómo definirías y medirías el poder predictivo de una métrica?

Supongo que tiene el problema de elegir entre algunos métodos de métricas que proporcionan información similar, y me gustaría saber cuál es más predictivo.

Hay dos métodos principales para esto:
1. simulación
2. Enfoques de validación cruzada, así como técnicas de remuestreo.

Podría considerar 1 vs. 2 el mismo problema que paramétrico vs. no paramétrico.

¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?
¿Qué hace el equipo de datos en Addepar?
¿Cómo se puede determinar si un conjunto de datos es grande o pequeño?
¿Qué opciones de carrera están disponibles en Big Data si uno no tiene un fondo de estadísticas / codificación?
¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?

Las simulaciones muestran cómo se han validado tradicionalmente muchas métricas. Sin embargo, las simulaciones se basan en supuestos y están limitadas por esos supuestos. Así es como los criterios como BIC y AIC se desarrollaron por primera vez y demostraron ser efectivos. El cuadrado R y el cuadrado R ajustado podrían incluirse en esto.

La validación cruzada, de la que hay muchos sabores (no voy a entrar), generalmente es el enfoque mucho mejor, porque hace muchas menos suposiciones. Sin embargo, es más computacional intenso, por lo que su uso puede no verse tanto. Pero la validación cruzada es un gran ejemplo de los enfoques que el ‘aprendizaje automático’ y la ‘minería de datos’ aportan a las estadísticas y análisis de datos más tradicionales.

La fuerza de la validación cruzada es que puede obtener una medida de precisión basada en una muestra de prueba relativamente independiente, y una que sea empírica, no teórica. También es importante tener más de una submuestra (es decir, la k en k veces), para que no tenga una estimación sesgada de la precisión. El tipo exacto de medida (correlación de Pearson, error cuadrado promedio, error absoluto medio, etc.) no debería importar mucho si tiene una gran cantidad de submuestras.

Validación cruzada (estadísticas)

análisisAnálisis PredictivoCiencia de datosEstadísticaMinería de datosPregunta de encuestaRSAS

Cómo restaurar los archivos en mi partición eliminada

¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?

¿Qué empresas están haciendo aprendizaje automático real en lugar de ciencia de datos hacky?

¿Qué controles / auto revisión aplica para la visualización de datos?

¿Cómo se crean las subredes en la red? ¿Red de computadoras?

¿Qué música suelen escuchar los científicos de datos mientras trabajan?

Depende de la tarea subyacente y hablar generalidades no es muy útil. Si su métrica es la media, entonces el error estándar de la media le permite definir intervalos de confianza. Si está haciendo una regresión lineal, entonces tiene su correlación. Si se trata de un modelo predictor binario, le preocupan los errores de Tipo I y Tipo II y una Curva ROC podría ayudarlo a comprender el poder del modelo. En algunos casos tiene valores teóricos, y en otros casos puede confiar en cosas como bootstrapping o crossvalidation.

Justin Ma

Si define “poder predictivo” como la precisión del éxito de una métrica para predecir el empírico, todos son específicos del dominio. Sin embargo, lo importante es cuán fácil es observar la predicción.

En campos como la fabricación, donde las tasas de falla de las herramientas son fácilmente observables, se puede entrenar un modelo o una métrica y la tasa de éxito se puede medir fácilmente como una desviación con el tiempo de lo observado.

Trabajo en seguridad de la información, y en seguridad (realmente cualquier campo con casi errores) es casi imposible observar el poder predictivo. Después de todo, si te digo que viene un ataque y debes hacer X, ¿mi recomendación detuvo el ataque o el ataque nunca llegó? Este es el problema fundamental con la falta de observaciones, e intentamos correlacionar una métrica con fuentes de datos externas, situaciones similares, o aplicar los modelos a conjuntos de datos pasados para ver qué tan efectivos son.

Justin Ma

More Interesting

Cómo resolver el problema relacionado con pequeños datos de capacitación que conducen el aprendizaje automático o el aprendizaje profundo

¿Qué habilidades necesito para construir un sitio web basado en big data?

¿Los datos grandes son más útiles que los datos pequeños?

¿Cuál es el futuro de Big Data en la gestión del talento?

¿Dónde obtengo datos para el aprendizaje automático?

¿Qué odias de la ciencia de datos?

¿Cómo ingresa un estudiante de física en el campo de la ciencia de datos?

¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

¿Cómo aborda un científico de datos experto un problema de aprendizaje automático? ¿Puedes explicar paso a paso?

¿Cómo explicará la precisión media promedio ( [correo electrónico protegido] ) a un cliente comercial en una sola oración?