¿Los científicos de datos suelen utilizar el análisis discriminante lineal? ¿Por qué o por qué no?

No he visto que la LDA se utilice ampliamente en la industria, al menos no en problemas de recomendación y predicción a escala de Internet. Hay dos razones principales que se me ocurren para esto, que son las siguientes.

Practicidad: LDA requiere la estimación de una matriz de covarianza nxn de los datos y el cálculo de su inverso. Aquí n denota el número de variables en el modelo. Los problemas de modelado industrial actuales se ocupan habitualmente de cientos de miles a miles de millones de variables. El cálculo de las matrices de covarianza resultantes es prohibitivo: por lo general, simplemente no hay suficientes datos para estimar una matriz de covarianza de 100,000 x 100,000, sin mencionar la capacidad de almacenamiento. Además, hacer predicciones usando un modelo LDA requiere una multiplicación de matriz de vectores que involucra operaciones de multiplicación y suma [matemáticas] O (n ^ 2) [/ matemáticas]. Existen métodos de regresión mucho más eficientes y escalables (por ejemplo, regresión logística) para resolver muchos problemas de predicción industrial. Hacer predicciones usando, por ejemplo, la regresión logística implica tomar un producto vectorial, que requiere [math] O (n) [/ math] multiplícalo y, por lo tanto, requeriría significativamente menos hardware para manejar el mismo rendimiento que LDA.

Rendimiento predictivo: LDA puede verse como un modelo generativo mediante el cual las distribuciones condicionales de clase de las variables predictoras se modelan utilizando distribuciones gaussianas multivariadas. Las predicciones de clase se obtienen luego aplicando el teorema de Bayes para calcular las probabilidades de clase dada una observación. Entonces, LDA resuelve un problema más complejo que el que requieren muchas aplicaciones de predicción industrial. Por ejemplo, suponga que la tarea es predecir la probabilidad de que un cliente alquile una propiedad dados los ingresos, el nivel educativo y el número de hijos del cliente. La LDA modelaría explícitamente la relación entre ingresos, nivel educativo y número de hijos, y luego la usaría para predecir la probabilidad de alquilar. Como resultado, el número de parámetros del modelo se vuelve del orden de [matemáticas] O (n ^ 2) [/ matemáticas], donde n es el número de variables predictoras.

Por el contrario, un enfoque más directo (discriminatorio) sería modelar la probabilidad de alquilar en función del ingreso, la educación y el número de niños sin centrarse en modelar las relaciones entre estas variables. Si aplicamos la regresión logística en esta tarea, el número de parámetros será [matemática] O (n) [/ matemática]. Por lo tanto, dada la misma cantidad de datos, el modelo LDA tendrá una mayor varianza que la regresión logística. Además, LDA hace suposiciones de modelado algo fuertes, por lo que también esperaría que su sesgo sea mayor. Por lo tanto, esperaría que la LDA tenga en general peores características de variación de sesgo (es decir, rendimiento predictivo) que la regresión logística.

Otra razón podría ser:

A pesar de algunas otras versiones extendidas de LDA, la versión original del modelo LDA requiere que los datos sigan una distribución normal multivariada, que generalmente no es correcta incluso para datos con solo variables continuas, por no decir que los datos del mundo real probablemente consisten en toneladas de variables categóricas . Incluso si convertimos esas variables categóricas en variables ficticias 0-1, ciertamente no siguen una distribución normal multivariada.

Por otro lado, otro método de clasificación como SVM, los árboles de decisión son mucho más flexibles para incluir variables categóricas en los modelos.


Sí. En lugar de una regresión multivariada, puede usarla a veces.

En términos simples, utiliza el análisis discriminante para crear una combinación lineal de variables que también maximiza la ‘distancia’ entre las variables examinadas.