¿El análisis discriminante lineal funciona para distribuciones que no sean gaussianas?

“Esto es lo que Hastie et al. Tienen que decir al respecto (en el contexto de LDA de dos clases) en The Elements of Statistical Learning, sección 4.3:

Dado que esta derivación de la dirección LDA a través de mínimos cuadrados no utiliza una suposición gaussiana para las características, su aplicabilidad se extiende más allá del ámbito de los datos gaussianos. Sin embargo, la derivación de la intersección particular o punto de corte dado en (4.11) requiere datos gaussianos. Por lo tanto, tiene sentido elegir el punto de corte que minimiza empíricamente el error de entrenamiento para un conjunto de datos dado. Esto es algo que hemos encontrado que funciona bien en la práctica, pero no lo hemos visto mencionado en la literatura.

No entiendo completamente la derivación a través de los mínimos cuadrados a los que se refieren, pero en general creo que este párrafo tiene sentido: incluso si los datos son muy no gaussianos o las covarianzas de clase son muy diferentes, el eje LDA probablemente arrojará cierta discriminabilidad . Sin embargo, el punto de corte en este eje (que separa dos clases) dado por LDA puede estar completamente desactivado. Optimizarlo por separado puede mejorar sustancialmente la clasificación “.

Fuente:
Análisis discriminante lineal y datos distribuidos no normales

Tengo entendido que LDA utiliza supuestos gaussianos, pero tendrá que verificarlo. Creo que LDA funcionará para algunas distribuciones de Poisson (si este es el caso) porque los supuestos gaussianos funcionan bien para las distribuciones de Poisson con media> = 10. Sin embargo, si tiene distribuciones de Poisson con bajo conteo, ahí es donde falla la aproximación gaussiana a un Poisson . Afortunadamente, existen modelos de kernels / errores de Poisson para casi todos los métodos de Machine Learning que pueden ayudarlo en este caso.

Por ejemplo, existe la PCA de Poisson, una variante de la PCA lineal-gaussiana estándar que utiliza un modelo de error de Poisson en lugar de la suma gaussiana de la función de pérdida de error al cuadrado.

También hay regresiones de Poisson que puede ejecutar para hacer retroceder datos distribuidos por Poisson que funcionan mejor en datos de bajo conteo que en Regresión lineal. Ajustar una regresión de Poisson a datos dispersos de Poisson puede ser un desafío. Para hacer que la regresión de Poisson sea más útil, también debe mirar los modelos de Poisson inflados a cero para manejar la dispersión / exceso de ceros en los datos.

El análisis discriminante lineal debería funcionar para la distribución de Poisson, ya que ambos son modelos lineales generalizados, terminaría con una expresión exponencial de expresión similar, pero los pesos de las características no serán los mismos que en el caso de Gaussian, pero de todos modos terminaría con un suave -max como expresión incluso en el caso de la distribución de Poisson (en general para todas las distribuciones exponenciales)

[matemáticas] $ \ frac {e ^ {xlog \ lambda_i + \ lambda_i}} {\ sigma e ^ {xlog \ lambda_i + \ lambda_i} $ [/ matemáticas]

Sus propiedades de optimización realmente solo se aplican para el gaussiano multivariante. Sin embargo, puede usarlo para variables que no son gaussianas siempre que no lo sean drásticamente. A menudo es mejor que QDA en situaciones heteroscedasticas, incluso si no es del todo correcto. Un Poisson con un parámetro de velocidad sustancialmente mayor que 0 sería un buen ejemplo. La transformación a menudo hace maravillas.

More Interesting

¿Cómo cambiará el aprendizaje automático la sociología?

¿Cómo se usa el aprendizaje automático en la inversión?

¿Puedo incluir el aprendizaje automático en mi currículum después de aprender scikit-learn?

Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?

¿Qué es el HTML? ¿Cuáles son las características que tiene sobre una representación de datos en texto plano?

¿Cuáles son algunos buenos recursos para aprender sobre el control y la optimización de procesos sin modelos?

¿Cuál es el punto de probar los datos en k-fold cross validation?

¿Cuál es la filosofía de la matriz, la descomposición del tensor para encontrar la estructura latente?

¿Hay algún curso sobre blockchain, Python o aprendizaje automático durante un máximo de 6 meses en el extranjero que también pueda conseguirme un trabajo allí?

¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

¿Cuáles son las cosas más difíciles o problemáticas para los ingenieros de Machine Learning / Deep Learning?

¿Dónde puedo encontrar los mejores tutoriales de aprendizaje automático como principiante?

¿Cuál es la diferencia entre una cadena de Markov recurrente y una cadena de Markov absorbente?

¿Cuál es la mejor herramienta de optimización bayesiana para optimizar hiperparámetros de grandes redes neuronales?