Hay varias razones por las cuales la probabilidad y las estadísticas son importantes en el aprendizaje automático, pero creo que una de las razones más importantes es porque ayudan a justificar las elecciones realizadas por muchos modelos.
Aquí hay un ejemplo de cómo un enfoque probabilístico y estadístico puede justificar la regresión de mínimos cuadrados y crestas:
En el problema de los mínimos cuadrados ordinarios, a menudo intenta encontrar el conjunto de pesos [math] w [/ math] que minimiza el siguiente objetivo:
- ¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?
- ¿Cuál es una buena fuente para aprender la optimización convexa?
- Cómo etiquetar los datos conversacionales para la capacitación en PNL
- ¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?
- ¿Apache Spark es un buen marco para implementar Reinforcement Learning?
[matemáticas] \ | Xw – y \ | ^ 2 [/ matemáticas]
donde [matemáticas] X [/ matemáticas] representa sus datos de entrenamiento y [matemáticas] y [/ matemáticas] representa la verdad fundamental. Puede resolver este problema mediante la aplicación de la ecuación normal [matemática] ([/ matemática] [matemática] X ^ \ top X) ^ {- 1} X ^ \ top y [/ matemática].
Un problema inmediato con esta solución es que cuando [math] X ^ \ top X [/ math] se vuelve muy cercano a no invertible (sus valores propios están muy cerca de 0), esto resulta en pesos que son muy grandes y tienen una alta varianza cuando se trata de predicciones. Esto es un problema porque si intentas predecir datos similares a los datos de entrenamiento, podrías terminar con predicciones muy diferentes, que intuitivamente hablando, no tienen ningún sentido.
La regresión de cresta resuelve este problema al proponer la siguiente modificación a la función objetivo:
[matemáticas] \ | Xw – y \ | ^ 2 + \ lambda \ | w \ | ^ 2 [/ matemáticas]
donde [math] \ lambda [/ math] representa algo llamado parámetro de regularización. Este parámetro puede interpretarse como una penalización adicional por hacer que nuestras estimaciones de [math] w [/ math] tengan normas grandes (recuerde que este fue el problema central con la formulación original de mínimos cuadrados).
En este punto, puede pensar, está bien, todo esto es genial, pero ¿por qué estas son las funciones objetivas que hemos elegido? ¿Por qué funciona esto?
Aquí es donde una perspectiva probabilística / estadística se vuelve increíblemente útil.
Podemos reformular el problema de los mínimos cuadrados de manera un poco diferente considerando lo siguiente:
Al final de la, estamos tratando de determinar [matemáticas] y = f (x) [/ matemáticas] para cada [matemáticas] x [/ matemáticas] y [matemáticas] y [/ matemáticas] en nuestro conjunto de datos donde tenemos una buena razón creer que nuestra función [matemáticas] f [/ matemáticas] es lineal. Ahora es poco probable que podamos ajustar perfectamente una función lineal porque los datos del mundo real a menudo tienden a ser ruidosos. Resulta que un buen modelo para el ruido es la distribución normal (a menudo es una distribución normal multivariada cuando se trata de datos de forma conjunta) que por cierto se justifica por un resultado increíble en la teoría de probabilidad llamada teorema del límite central (CLT).
Por lo tanto, podemos modelar nuestro problema como [matemática] y = f (x) + N [/ matemática] donde el término de ruido agregado [matemática] N [/ matemática] proviene de una distribución normal con media 0 y alguna variación. Ahora vamos a tratar de estimar un modelo lineal [matemática] y = h (x) [/ matemática].
¿Cómo deberíamos hacer esto desde una perspectiva probabilística? Bueno, sabemos que debido a que nuestros datos [matemáticos] (x, y) [/ matemáticos] tienen algo de ruido que es inherentemente aleatorio (pero algunos ruidos son más probables que otros debido a las propiedades de la distribución normal), hay un rango de valores posibles que puede tomar cada punto en nuestro conjunto de datos de entrenamiento. Sin embargo, idealmente, nos gustaría elegir un modelo [matemático] h [/ matemático] que se ajuste a los datos que es más probable que ocurra dado nuestro modelo de ruido subyacente.
Esto lleva directamente a una formulación de una estimación de máxima verosimilitud (MLE) problema. Una vez que resuelva este problema de MLE, resulta que la función objetivo que maximiza es muy similar a la función objetivo de mínimos cuadrados. En otras palabras, MLE justifica por qué la función objetivo de mínimos cuadrados es una buena opción.
Ahora, desde un punto de vista probabilístico, cuando estamos tratando de estimar [math] h (x) [/ math] también podemos tener alguna noción previa de qué posibles opciones de [math] h (x) [/ math] son buenas. ¿Cómo podemos incorporar este conocimiento previo?
En la teoría de la probabilidad y especialmente en un marco estadístico bayesiano, esto se convierte en un problema de estimación máxima a posteriori (MAP). Y milagrosamente si asume que su [matemática] h (x) [/ matemática] sigue una distribución normal multivariada desplazada (que nuevamente está formalmente justificada por el CLT), cuando resuelve este problema, maximiza un objetivo que se parece mucho a ¡El objetivo en la regresión de crestas! Intuitivamente, esto también tiene sentido. Volviendo al marco de regresión de crestas, al agregar una penalización a la norma de nuestro vector de peso [math] w [/ math], estamos agregando implícitamente una noción previa de que la norma de nuestro vector de peso no debería ser demasiado grande para modelar esto datos.
Esta capacidad de justificar las elecciones que hacen los algoritmos particulares es increíblemente importante en el campo del aprendizaje automático. Aquí hablé mucho sobre la regresión lineal, pero la probabilidad y las estadísticas también desempeñan un papel importante en la elección de las funciones de pérdida en modelos discriminatorios como la regresión logística y las máquinas de vectores de soporte. Las ideas de MLE también son cruciales en modelos generativos como el análisis discriminante lineal y cuadrático.