¡Oh muchacho, esto puede ser largo! Trataré de asegurarme de poder explicar las diferencias más importantes entre la regresión logística y los SVM, luego podemos generalizar a NN.
La regresión logística supone que sus predictores (atributos) probablemente no sean suficientes para separar sus clases, por lo que LR coloca los puntos en una función continua y calcula la probabilidad de que cada punto pertenezca a cada clase. Basado en este LR es un algoritmo muy bueno cuando tiene un número reducido de dimensiones o cuando su conjunto de datos tiene mucho ruido. LR usa TODOS los puntos del conjunto de datos para clasificarlo, de modo que puede ser sensible a los valores atípicos, pero es robusto contra el ruido.
- ¿Puede proporcionar las tareas que se le han asignado mientras buscaba una maestría en el campo CS?
- ¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?
- ¿Cuáles son los principales problemas con el uso de la codificación one-hot?
- ¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?
- ¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.
Los SVM suponen que tiene suficientes predictores para decidir de manera determinista la clase para cada punto e intenta encontrar un hiperplano de separación para hacerlo. Los SVM son muy buenos cuando tiene muchas características (dimensiones) porque es muy probable que sus clases sean linealmente separables. Cuando ese no es el caso, se puede usar un núcleo para proyectar los datos en dimensiones infinitas y encontrar la separación.
SVM es un método basado en instancias, intentará encontrar las instancias que se necesitan para separar los puntos (vectores de soporte) y pasar por alto el resto para que sean casi inmunes a los valores atípicos.
La diferencia entre SVM y NN es un poco más complicada, podemos decir que son cosas completamente diferentes o iguales dependiendo del vidrio que usamos para verlas. Una diferencia importante es que las NN intentarán minimizar la función de pérdida y al hacerlo pueden quedar atrapados en los mínimos locales, esto a menudo no es terrible porque los mínimos locales tienden a estar cerca de los mínimos globales, pero es un punto que se menciona con frecuencia cuando se discute NN. Los SVM son convexos, por lo que no tienen mínimos locales, intentan encontrar el mejor hiperplano de separación y siempre lo encuentran, pero eso no significa que sean óptimos, solo que no pueden quedar atrapados en los mínimos locales.
Usted mencionó características correlacionadas en su respuesta, así que diré algo al respecto: a los SVM realmente no les importa. El problema con las características correlacionadas puede surgir cuando su clasificador asume que las características son independientes (hola Naive Bayes), entonces puede pasar de ningún daño a que el clasificador se comporte de maneras completamente impredecibles.
Luis