¿Cuáles son los roles de probabilidad y estadística en el aprendizaje automático? ¿Qué tan importantes son? ¿Cuáles son sus aplicaciones en el aprendizaje automático?

Hay varias razones por las cuales la probabilidad y las estadísticas son importantes en el aprendizaje automático, pero creo que una de las razones más importantes es porque ayudan a justificar las elecciones realizadas por muchos modelos.

Aquí hay un ejemplo de cómo un enfoque probabilístico y estadístico puede justificar la regresión de mínimos cuadrados y crestas:

En el problema de los mínimos cuadrados ordinarios, a menudo intenta encontrar el conjunto de pesos [math] w [/ math] que minimiza el siguiente objetivo:

[matemáticas] \ | Xw – y \ | ^ 2 [/ matemáticas]

donde [matemáticas] X [/ matemáticas] representa sus datos de entrenamiento y [matemáticas] y [/ matemáticas] representa la verdad fundamental. Puede resolver este problema mediante la aplicación de la ecuación normal [matemática] ([/ matemática] [matemática] X ^ \ top X) ^ {- 1} X ^ \ top y [/ matemática].

Un problema inmediato con esta solución es que cuando [math] X ^ \ top X [/ math] se vuelve muy cercano a no invertible (sus valores propios están muy cerca de 0), esto resulta en pesos que son muy grandes y tienen una alta varianza cuando se trata de predicciones. Esto es un problema porque si intentas predecir datos similares a los datos de entrenamiento, podrías terminar con predicciones muy diferentes, que intuitivamente hablando, no tienen ningún sentido.

La regresión de cresta resuelve este problema al proponer la siguiente modificación a la función objetivo:

[matemáticas] \ | Xw – y \ | ^ 2 + \ lambda \ | w \ | ^ 2 [/ matemáticas]

donde [math] \ lambda [/ math] representa algo llamado parámetro de regularización. Este parámetro puede interpretarse como una penalización adicional por hacer que nuestras estimaciones de [math] w [/ math] tengan normas grandes (recuerde que este fue el problema central con la formulación original de mínimos cuadrados).

En este punto, puede pensar, está bien, todo esto es genial, pero ¿por qué estas son las funciones objetivas que hemos elegido? ¿Por qué funciona esto?

Aquí es donde una perspectiva probabilística / estadística se vuelve increíblemente útil.

Podemos reformular el problema de los mínimos cuadrados de manera un poco diferente considerando lo siguiente:

Al final de la, estamos tratando de determinar [matemáticas] y = f (x) [/ matemáticas] para cada [matemáticas] x [/ matemáticas] y [matemáticas] y [/ matemáticas] en nuestro conjunto de datos donde tenemos una buena razón creer que nuestra función [matemáticas] f [/ matemáticas] es lineal. Ahora es poco probable que podamos ajustar perfectamente una función lineal porque los datos del mundo real a menudo tienden a ser ruidosos. Resulta que un buen modelo para el ruido es la distribución normal (a menudo es una distribución normal multivariada cuando se trata de datos de forma conjunta) que por cierto se justifica por un resultado increíble en la teoría de probabilidad llamada teorema del límite central (CLT).

Por lo tanto, podemos modelar nuestro problema como [matemática] y = f (x) + N [/ matemática] donde el término de ruido agregado [matemática] N [/ matemática] proviene de una distribución normal con media 0 y alguna variación. Ahora vamos a tratar de estimar un modelo lineal [matemática] y = h (x) [/ matemática].

¿Cómo deberíamos hacer esto desde una perspectiva probabilística? Bueno, sabemos que debido a que nuestros datos [matemáticos] (x, y) [/ matemáticos] tienen algo de ruido que es inherentemente aleatorio (pero algunos ruidos son más probables que otros debido a las propiedades de la distribución normal), hay un rango de valores posibles que puede tomar cada punto en nuestro conjunto de datos de entrenamiento. Sin embargo, idealmente, nos gustaría elegir un modelo [matemático] h [/ matemático] que se ajuste a los datos que es más probable que ocurra dado nuestro modelo de ruido subyacente.

Esto lleva directamente a una formulación de una estimación de máxima verosimilitud (MLE) problema. Una vez que resuelva este problema de MLE, resulta que la función objetivo que maximiza es muy similar a la función objetivo de mínimos cuadrados. En otras palabras, MLE justifica por qué la función objetivo de mínimos cuadrados es una buena opción.

Ahora, desde un punto de vista probabilístico, cuando estamos tratando de estimar [math] h (x) [/ math] también podemos tener alguna noción previa de qué posibles opciones de [math] h (x) [/ math] son ​​buenas. ¿Cómo podemos incorporar este conocimiento previo?

En la teoría de la probabilidad y especialmente en un marco estadístico bayesiano, esto se convierte en un problema de estimación máxima a posteriori (MAP). Y milagrosamente si asume que su [matemática] h (x) [/ matemática] sigue una distribución normal multivariada desplazada (que nuevamente está formalmente justificada por el CLT), cuando resuelve este problema, maximiza un objetivo que se parece mucho a ¡El objetivo en la regresión de crestas! Intuitivamente, esto también tiene sentido. Volviendo al marco de regresión de crestas, al agregar una penalización a la norma de nuestro vector de peso [math] w [/ math], estamos agregando implícitamente una noción previa de que la norma de nuestro vector de peso no debería ser demasiado grande para modelar esto datos.

Esta capacidad de justificar las elecciones que hacen los algoritmos particulares es increíblemente importante en el campo del aprendizaje automático. Aquí hablé mucho sobre la regresión lineal, pero la probabilidad y las estadísticas también desempeñan un papel importante en la elección de las funciones de pérdida en modelos discriminatorios como la regresión logística y las máquinas de vectores de soporte. Las ideas de MLE también son cruciales en modelos generativos como el análisis discriminante lineal y cuadrático.

Dado que incluso las mejores máquinas envejecen y tienen dificultades para aprender, ya que el inicio del envejecimiento las afecta, es crucial contar con buenas métricas. Tener conocimiento de la probabilidad puede ayudarlo a establecer el MBTF: tiempo medio entre fallas para una pieza específica de maquinaria.

Al igual que con los humanos, el ejercicio físico regular y los ejercicios mentales ayudarán en gran medida a mantener niveles adecuados de aprendizaje. Las estadísticas son vitales ya que sirven como punto de referencia para comparar. Por ejemplo, el diagnóstico temprano de muchos problemas de aprendizaje generalmente se puede identificar temprano, si algunos de los ejercicios regulares no se pueden completar dentro de un período estadístico de tiempo.

El campo del aprendizaje automático sigue siendo un campo de estudio muy joven. Puedo decir con confianza que la probabilidad y las estadísticas juegan un papel fundamental muy importante en la expansión de la investigación y la comprensión. El aprendizaje automático es en sí extremadamente crítico, ya que nos preocupamos por la mentalidad de las máquinas que creamos ahora y en el futuro. Proceder ética y moralmente en estos esfuerzos requiere que tengamos datos detallados, una vez más, esos 2 temas son integrales.

Son muy importantes. Primero dictan qué tipo de análisis se requiere en los datos (si necesita estadísticas o un algoritmo de aprendizaje) y luego está el hecho de que algunos algoritmos se derivan de las estadísticas (softmax es una distribución multinomial, Bayes ingenua se basa en estadísticas bayesianas ) La comprensión de las probabilidades también es crucial para comprender la salida de sus algoritmos. También lo necesita para saber qué algoritmo funciona para qué datos / propósito (existen diferentes técnicas para el preprocesamiento y la reducción de dimensionalidad y algunas realizan ciertas modificaciones en los datos, por lo que dependiendo de la naturaleza de las variables necesitará un algoritmo diferente, luego hay técnicas de regularización ) ..

TL; DR: es un requisito previo muy necesario, especialmente si desea tener una comprensión profunda de ML

la totalidad del aprendizaje automático equivale a la probabilidad máxima o la optimización a posteriori (o la equivalencia de minimización de la probabilidad negativa (log) o posterior) -> probabilidad y estadísticas.

todo lo demás son supuestos de estimación funcional y técnicas de ajuste numérico.

Un ejemplo es el análisis discriminante lineal. La teoría de la probabilidad se utiliza para desarrollar la técnica usando nociones de probabilidad previa, vectores medios específicos de la clase y matriz de covarianza. Esto da como resultado una función discriminante lineal, que se puede utilizar para separar clases de datos de entrenamiento.

Tengo un curso en línea sobre matemáticas para el aprendizaje automático. Para más información visite:

Introducción Lectura Matemáticas para Machine Learning