¿Cuál es un ejemplo ilustrativo donde LDA y SVM dan límites de decisión diferentes?

Primero haré una distinción entre SVM como modelo discriminativo y LDA como modelo generativo. Los modelos discriminativos solo modelan (implícita o explícitamente) la distribución condicional de la variable de salida, dadas las variables de entrada. No les importa cómo surgieron las entradas, sino solo la asignación de las entradas a la salida:

Los SVM encuentran un mapeo cuya separación lineal entre dos clases es lo más amplia posible si las clases son linealmente separables (y, por lo tanto, el nombre alternativo clasificadores de margen máximo ), o minimizan la holgura permitida en ejemplos mal clasificados en escenarios no linealmente separables. Un SVM producirá el mismo límite lineal incluso si cambia las distribuciones de los puntos en ambos lados de la cerca.

Ahora compare este comportamiento con el de LDA, que es un modelo generativo. LDA se preocupa por la distribución de entrada (además de la entrada -> distribución de salida), y lo hace modelando explícitamente las entradas como distribuidas gaussianas. En el caso de LinearDA (un caso especial de QuadraticDA), ambos gaussianos comparten la misma covarianza. Compartir covarianzas implica que la probabilidad de clasificación es equitativa a mitad de camino entre los dos gaussianos.

En resumen, los límites de SVM dependen de la distancia entre los vectores de soporte (ejemplos más cercanos al límite, una minoría ), mientras que los límites de LDA dependen de los medios gaussianos, que a su vez dependen de todos los datos.

Por último, aquí hay un ejemplo ilustrativo de juguete:

Related Content

¿Podemos automatizar las búsquedas a través del aprendizaje automático? Tengo cientos de sitios web de diferentes fabricantes de automóviles, si tengo la intención de extraer toda la información (sobre todas las bicicletas / automóviles) junto con los enlaces.

¿Cómo puedo comenzar el análisis de datos en un gran conjunto de datos?

¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?

¿Qué es una explicación intuitiva de DBSCAN?

¿Scikit-learn admite paralelismo, es decir, se puede usar en un grupo de máquinas que ejecutan tareas en paralelo?

¿Cómo beneficia la computación en la nube al comercio electrónico?

Dado que existen marcos optimizados en línea, ¿vale la pena implementar manualmente implementaciones vectorizadas para redes neuronales complicadas?

More Interesting

¿Qué es un clasificador transductivo?

¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?

¿Cómo asociaría un producto con una categoría y subcategoría basada en la descripción de texto del producto?

¿Cuál es la diferencia entre el entrenamiento por lotes, en línea y mini-lote en redes neuronales? ¿Cuál debo usar para un conjunto de datos de pequeño a mediano tamaño con fines de predicción?

¿Cómo almacena un sistema de aprendizaje automático su memoria aprendida?

¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?

Composición musical algorítmica: idea para una investigación

¿Puede una sola red neuronal de capa oculta aprender a jugar Atari Pong desde píxeles sin formato de un solo cuadro?

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Los bosques aleatorios son solo un tipo de Monte Carlo?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

He estado aprendiendo la red neuronal de retroalimentación y la propagación hacia atrás durante 3 meses y todavía no puedo entenderlo, ¿qué debo hacer?

Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?

¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?

Web Analytics