¿Cuál es una metodología sólida para abordar un problema de regresión? La tecnología cambia la vida futura

Hablaré un poco sobre los dos problemas que mencionas.

Elección de la función de ajuste

Si sabe que algún tipo de ley se aplica a sus datos, debe probar primero las versiones parametrizadas de la función que está “adjunta” a la ley. P.ej. si tiene una gráfica de radiación vs. tiempo, digamos de una ley [matemática] R (t) [/ matemática], debe intentar la regresión con la aproximación de la función [matemática] f_R (t) = A \ exp (B \, t ) [/ math] y encuentre el par de valores [math] (A, B) [/ math] que minimiza el error cuadrático sobre sus puntos de datos [math] K [/ math] [math] (t_k, r_k) [/ matemáticas], es decir,

[matemáticas] \ min_ {A, B} J = \ sum_ {k = 1} ^ K (r_k-A \ exp (B \, t_k)) ^ 2 [/ matemáticas]

La regresión está parametrizada por [matemáticas] A [/ matemáticas] y [matemáticas] B [/ matemáticas] pero la forma funcional está relacionada con la física que respalda sus datos. Entonces, esto probablemente se llamaría un modelo no paramétrico de sus datos.

Pero en la práctica, generalmente se encuentra regresión contra muchas variables y sin pistas sobre la aproximación funcional (porque a menudo no existen o no se pueden resolver). En este caso, le sugiero que comience con la línea [matemática] f (t) = A + B \, t [/ matemática], otras funciones simples (cuadrática, cúbica, exponencial, logaritmo, [matemática] 1 / (A + B \, t) [/ math], …) y luego, si la aproximación no es lo suficientemente buena, puede probar la transformación polinómica en los datos y luego aplicar sobre ella un modelo lineal. Estoy sugiriendo el enfoque enseñado por Yaser Abu-Mostafa en su MOOC “Aprendiendo de los datos” (libro agradable y barato en MOOC Aprendiendo de los datos). Puede ver su lección sobre el tema o leer las diapositivas en Learning From Data MOOC; la transformación no lineal se divide entre las clases 3 y 4, pero se encuentra principalmente en la clase 4. Otro conjunto de diapositivas de uno de los colaboradores de Abu (o ex alumno) está en http://www.cs.rpi.edu/~magdon/co …

La transformación polinómica se presenta allí como una herramienta útil tanto en la clasificación (para obtener un “límite agradable” que separe las clases incrustadas en los datos) como en la regresión, el tema que le interesa.

Criterios de detención

En las diapositivas antes mencionadas también se discuten las medidas de error en la aproximación por medio de la transformación polinómica (ya sea regresión o clasificación). Ejemplos son el promedio del error al cuadrado tomado para todos los puntos de datos. Sin embargo, no debemos olvidar que estamos tratando con metodologías de aprendizaje automático, por lo que el modelo de regresión optimizado debe verificarse y probarse con datos ocultos (datos de prueba), dejar de lado después de ser elegido al azar del conjunto de datos inicial disponible (o “guardado en la caja fuerte! “) y totalmente sin usar en la definición y capacitación del modelo. Un buen modelo debe dar aproximadamente el mismo error en los datos de entrenamiento (error [matemático] E_ {in} [/ matemático] en las diapositivas) y en ese dato de prueba (error [matemático] E_ {out} [/ matemático]). Entonces, una parte de un buen criterio de detención debería ser que estos dos errores sean casi iguales.

Con respecto a la reducción del error, se sabe que cuantos más parámetros haya en el modelo, más reducirá el error de entrenamiento [math] E_ {in} [/ math]. El problema es que al hacer esto, está sobreajustando los datos, y eso tiene la consecuencia de que, en general, está empeorando el error [math] E_ {out} [/ math], la cifra de mérito que debe tratar de mantener tan baja como sea posible. Por lo tanto, debe elegir sabiamente la forma funcional del modelo (ajuste polinómico, ajuste de Fourier, ajuste de funciones ortogonales, …) así como, si no más, el número de parámetros en el modelo, ya que un número demasiado bajo da lugar a un error de entrenamiento grande (y para un mal modelo) y demasiados promueven el sobreajuste y un error alto [matemático] E_ {out} [/ matemático]. Este tema también se discute en las diapositivas mencionadas anteriormente.

Además de la evaluación de errores como un medio para validar la calidad de un modelo, existen algunos criterios cuantitativos utilizados en el modelado general del sistema , como el Criterio de información de Akaike (AIC) que proporciona aproximadamente el número “ideal” u óptimo de parámetros que un ajuste modelo (estadístico) debería tener, haciendo un compromiso entre una situación de no ajuste y un error aceptable (pequeño). Ver criterio de información de Akaike – Wikipedia.

EstadísticaMachine LearningRegresiónResolución de Problemas