¿Es más fácil trabajar en SVM o LR para una persona con antecedentes menores de estadísticas y minería de datos?

Tanto LR como SVM son algoritmos de clasificación supervisados. Podemos decidir con qué modelo ir de antemano, si tenemos una idea sobre el número total de características (n) y los puntos de datos de entrenamiento totales (m).

Si n es relativamente mayor que m (como para la clasificación de texto), se pueden usar LR y SVM lineal (con núcleo lineal) y ambos tienen una complejidad similar.
Si n es pequeño ym es intermedio (lo suficiente como para hacer el modelado), entonces SVM con kernel como el kernel gaussiano proporciona mejores resultados y será un poco más difícil de trabajar que LR.
Si n es pequeño ym es muy grande, entonces esto tiende a no ajustarse a los datos de la prueba. Por lo tanto, reúna características adicionales o agregue características polinómicas para que se acerque a nuestro primer caso y use LR o SVM lineal
Si n es muy grande ym es pequeño, entonces esto tiende a sobreajustar los datos. Por lo tanto, tratamos de eliminar las correlaciones entre características, eliminar características no significativas, reunir más conjuntos de datos para capacitación o usar la regularización. Finalmente, terminamos nuevamente con el primer caso y usamos LR o SVM lineal.

Muchos algoritmos, como Neutral Networks, proporcionan una mejor precisión y rendimiento en todos los casos anteriores, pero tienen un mayor tiempo de ejecución. Según la necesidad, tenemos que elegir nuestro algoritmo porque siempre hay una compensación entre precisión y tiempo de ejecución.

Entonces, para responder a su pregunta, comience trabajando con LR y SVM lineal. Luego vaya a SVM con kernels que proporciona un límite no lineal.

Análisis de datosAprendizaje automáticoCiencia de datosdatosestadísticasMinería de

¿Cuál es la mejor capacitación en aula para la ciencia de datos en Bangalore?

Cómo hacer la debida diligencia en la elección de un campamento de ciencia de datos

¿Qué es el soporte y la confianza en la minería de datos?

¿Cuáles son algunas de las mejores predicciones / pronósticos que se hayan hecho utilizando el aprendizaje automático y las estadísticas computacionales?

¿Qué son las preguntas de la entrevista de Big Data?

¿Cuáles son los alcances después de aprender Big Data Analytics?

Yo diría que si bien SVM puede ser un método más poderoso, la regresión logística es probablemente más fácil de entender y debería explorarse primero como una opción.

Mientras que LR es un modelo probabilístico, lo que significa que trata de encontrar un modelo que maximice la probabilidad de los datos, el SVM duro está más motivado geométricamente porque trata de encontrar no solo cualquier clasificador que sirva como un hiperplano de separación, sino más bien el óptimo que maximice el margen. Comprender completamente SVM y cómo funciona requiere una comprensión de las matemáticas subyacentes; es decir, programación lineal, el problema dual y dimensiones VC. SVM también solo se preocupa realmente por los vectores de soporte, que son esencialmente los puntos de datos más restrictivos; todos los demás realmente no importan.

Así que diría que, dado que los métodos son decentemente comparables en la práctica, LR es probablemente más fácil de entender y trabajar a menos que tenga una buena razón para usar SVM (que necesita datos del núcleo no lineales que podrían no ser linealmente separables, más tolerancia para valores atípicos, etc.).

Yujun Deng

Es cierto para LR. Pero SVM puede ser muy complicado hoy en día.

Yujun Deng

More Interesting

¿Cómo es suficiente Python para la ciencia de datos? ¿Tenemos que aprender R y Python?

¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

¿Existe una relación entre la compresión de datos y la optimización del código?

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?

¿De qué maneras una empresa de radio puede beneficiarse de Big Data?

¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?

Soy un graduado de economía que planea realizar análisis de datos. ¿Cuál debería ser mi primer paso?

¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?