¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

En gran medida es impulsado por su intuición. Es muy esencial que comprenda bien el problema. Todos y cada método tiene sus ventajas. & contras. Para la clasificación en conjuntos de datos pequeños, SVM funciona bastante bien porque tiene la flexibilidad de usar núcleos no lineales. También SVM es un algoritmo teóricamente sólido y bien versado. A medida que aumenta el tamaño del conjunto de datos, el rendimiento de SVM tiende a disminuir. Para conjuntos de datos muy grandes, no se puede usar el método tradicional del núcleo y aquí las pérdidas de SVM son una ventaja. La regresión logística nuevamente no difiere mucho de la SVM, aparte del hecho de que siempre que desee proporcionar al problema una formulación probabilística. Además, la regresión logística es adecuada para la capacitación en línea y en condiciones de alto ruido funciona bien. Pero una vez más, la regresión logística pierde la pista como no. de categorías aumenta. Para las redes neuronales, el misterio aún no está completamente resuelto. Todavía es un tipo de caja negra para una gran cantidad de personas que generalmente funciona. El poder principal de las redes neuronales radica en su capacidad para representar funciones complejas no lineales. En días anteriores, el gradiente tiende a desaparecer después de algunas capas y todos nos quedamos con ruido aleatorio, por lo que tiende a sobreajustar los datos. Pero recientemente, debido a las nuevas técnicas de regularización para evitar el sobreajuste, la disponibilidad de alta potencia de cálculo y el descenso de gradiente estocástico (sí, es imp.) Las redes neuronales (o algún tipo de variante) se han convertido en la mejor apuesta que se jugaría para datos a gran escala y Lo interesante es que no decepciona 😛
Entonces, nuevamente diría que comprenda bien el algoritmo, estudie sus fundamentos lógicos y eso le dará el sabor de cada técnica.
Hablando francamente en la mayoría de los escenarios, la gente todavía tiende a creer en la validación cruzada. Prueban varios algoritmos y tienden a elegir el que se desempeña mejor para ese caso.