¿Cuál es una metodología sólida para abordar un problema de regresión?

Hablaré un poco sobre los dos problemas que mencionas.

  1. Elección de la función de ajuste

Si sabe que algún tipo de ley se aplica a sus datos, debe probar primero las versiones parametrizadas de la función que está “adjunta” a la ley. P.ej. si tiene una gráfica de radiación vs. tiempo, digamos de una ley [matemática] R (t) [/ matemática], debe intentar la regresión con la aproximación de la función [matemática] f_R (t) = A \ exp (B \, t ) [/ math] y encuentre el par de valores [math] (A, B) [/ math] que minimiza el error cuadrático sobre sus puntos de datos [math] K [/ math] [math] (t_k, r_k) [/ matemáticas], es decir,

[matemáticas] \ min_ {A, B} J = \ sum_ {k = 1} ^ K (r_k-A \ exp (B \, t_k)) ^ 2 [/ matemáticas]

La regresión está parametrizada por [matemáticas] A [/ matemáticas] y [matemáticas] B [/ matemáticas] pero la forma funcional está relacionada con la física que respalda sus datos. Entonces, esto probablemente se llamaría un modelo no paramétrico de sus datos.

Pero en la práctica, generalmente se encuentra regresión contra muchas variables y sin pistas sobre la aproximación funcional (porque a menudo no existen o no se pueden resolver). En este caso, le sugiero que comience con la línea [matemática] f (t) = A + B \, t [/ matemática], otras funciones simples (cuadrática, cúbica, exponencial, logaritmo, [matemática] 1 / (A + B \, t) [/ math], …) y luego, si la aproximación no es lo suficientemente buena, puede probar la transformación polinómica en los datos y luego aplicar sobre ella un modelo lineal. Estoy sugiriendo el enfoque enseñado por Yaser Abu-Mostafa en su MOOC “Aprendiendo de los datos” (libro agradable y barato en MOOC Aprendiendo de los datos). Puede ver su lección sobre el tema o leer las diapositivas en Learning From Data MOOC; la transformación no lineal se divide entre las clases 3 y 4, pero se encuentra principalmente en la clase 4. Otro conjunto de diapositivas de uno de los colaboradores de Abu (o ex alumno) está en http://www.cs.rpi.edu/~magdon/co …

La transformación polinómica se presenta allí como una herramienta útil tanto en la clasificación (para obtener un “límite agradable” que separe las clases incrustadas en los datos) como en la regresión, el tema que le interesa.

  1. Criterios de detención

En las diapositivas antes mencionadas también se discuten las medidas de error en la aproximación por medio de la transformación polinómica (ya sea regresión o clasificación). Ejemplos son el promedio del error al cuadrado tomado para todos los puntos de datos. Sin embargo, no debemos olvidar que estamos tratando con metodologías de aprendizaje automático, por lo que el modelo de regresión optimizado debe verificarse y probarse con datos ocultos (datos de prueba), dejar de lado después de ser elegido al azar del conjunto de datos inicial disponible (o “guardado en la caja fuerte! “) y totalmente sin usar en la definición y capacitación del modelo. Un buen modelo debe dar aproximadamente el mismo error en los datos de entrenamiento (error [matemático] E_ {in} [/ matemático] en las diapositivas) y en ese dato de prueba (error [matemático] E_ {out} [/ matemático]). Entonces, una parte de un buen criterio de detención debería ser que estos dos errores sean casi iguales.

Con respecto a la reducción del error, se sabe que cuantos más parámetros haya en el modelo, más reducirá el error de entrenamiento [math] E_ {in} [/ math]. El problema es que al hacer esto, está sobreajustando los datos, y eso tiene la consecuencia de que, en general, está empeorando el error [math] E_ {out} [/ math], la cifra de mérito que debe tratar de mantener tan baja como sea posible. Por lo tanto, debe elegir sabiamente la forma funcional del modelo (ajuste polinómico, ajuste de Fourier, ajuste de funciones ortogonales, …) así como, si no más, el número de parámetros en el modelo, ya que un número demasiado bajo da lugar a un error de entrenamiento grande (y para un mal modelo) y demasiados promueven el sobreajuste y un error alto [matemático] E_ {out} [/ matemático]. Este tema también se discute en las diapositivas mencionadas anteriormente.

Además de la evaluación de errores como un medio para validar la calidad de un modelo, existen algunos criterios cuantitativos utilizados en el modelado general del sistema , como el Criterio de información de Akaike (AIC) que proporciona aproximadamente el número “ideal” u óptimo de parámetros que un ajuste modelo (estadístico) debería tener, haciendo un compromiso entre una situación de no ajuste y un error aceptable (pequeño). Ver criterio de información de Akaike – Wikipedia.

More Interesting

¿Qué quiere decir con redes neuronales lineales profundas / no lineales?

¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

¿Puede el aprendizaje automático ayudar en la detección de malware? ¿Cuáles son los cuellos de botella en tal implementación de ML?

¿Cuáles son algunas estructuras de datos esenciales y conocimiento de algoritmos necesarios para estudiar ciencia de datos?

¿Por qué es tan difícil la IA? ¿Por qué todavía no hemos construido una máquina de IA?

¿Dónde puedo encontrar el conjunto de datos para un sistema de recomendación?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿Cómo puedo medir la precisión de un sistema de recomendación?

¿Cómo toman decisiones las neuronas del cerebro? ¿Funcionan de la misma manera que las neuronas artificiales en ANN?

Cómo validar mi sistema de recomendaciones sin datos previos de interacción del usuario

¿Cuál es una explicación simple de un espacio de características multidimensionales?

¿Cómo funciona la regresión lineal múltiple en variables categóricas?

Cómo usar el codificador automático de Geoffrey Hinton para datos MNIST para clasificar dígitos

Cómo usar Azure Machine Learning para la clasificación de documentos