¿Es cierto que una vez que tenemos grandes conjuntos de datos, la selección del clasificador ML no tiene mucho efecto? ¿Qué significa ‘grande’ aquí?

Pregunta 1: ¿Es cierto que una vez que tenemos grandes conjuntos de datos, la selección del clasificador ML no tiene mucho efecto?
Respuesta: No.

Clasificadores generativos: si entrena a un clasificador generativo sobre sus datos (suponiendo que su hipótesis de modelado sea correcta), los diferentes modelos de clasificación simplemente son dados por varios métodos de estimación de parámetros, a saber, MLE, MAP y Full Bayes. La estimación completa de Bayes no es muy fácil de usar en la práctica, por lo que los dos métodos más comunes son MLE y MAP y, en un escenario de datos grandes, MAP tiende a MLE, es decir, las estimaciones de parámetros proporcionadas por MLE y MAP tienden a ser las mismas, es decir, el efecto de anteriores desaparece para grandes datos. Entonces, supongo que en este sentido, su hipótesis sobre la selección del clasificador es verdadera, sin embargo, …

Clasificadores lineales versus no lineales (discriminativos): si intenta entrenar un clasificador lineal en datos no lineales, no importa cuánto aumente los datos, eso no mejorará su rendimiento, mientras que el aumento de datos para un no lineal El clasificador mejorará su rendimiento en datos no lineales. Por lo tanto, no es muy difícil encontrar configuraciones adversas en las que los clasificadores lineales y no lineales brinden un rendimiento muy diferente incluso en configuraciones de datos grandes.

Figura 1. SVM lineal en el conjunto de datos de banana.

Figura 2. RBF SVM en Banana Dataset.

Clasificadores no lineales (discriminativos): ¿Qué pasa si consideramos el grupo de clasificadores no lineales? ¿Es cierta la hipótesis dentro del conjunto de clasificadores no lineales? Los dos clasificadores no lineales más destacados son SVM con kernel no lineal y árboles de decisión. No hay una forma directa de comparar estos dos y afirmar que sus rendimientos serán idénticos en la configuración de datos grandes. Tanto SVM con kernel no lineal como árboles de decisión imponen sesgos muy diferentes sobre el espacio de hipótesis. Para tener una idea, compare la superficie de decisión de la Figura 3 con la superficie de decisión de la Figura 2.

Fig. 3. Árboles de decisión sobre el conjunto de datos bananeros

Observe cómo la superficie de decisión es diferente de SVM RBF en la Figura 2. Estos dos clasificadores no lineales terminan eligiendo funciones muy diferentes del espacio de hipótesis. Por lo tanto, es difícil comparar su comportamiento en configuraciones de datos grandes. Dicho esto, los SVM tienen una sólida base matemática que le dice que “a medida que aumenta el tamaño de los datos de entrenamiento, el error en la estimación tiende a ser cero”. Entonces, en conclusión, diría que entre el grupo de clasificadores no lineales, los clasificadores no son fácilmente comparables y, por lo tanto, no podemos decir nada acerca de que la hipótesis sea cierta en este escenario o no. Pero en general, dada la forma en que las superficies de decisión tienden a ser diferentes entre sí, es más seguro afirmar que en entornos de datos grandes, sus rendimientos probablemente diferirán.

Pregunta 2: Estoy trabajando con un conjunto de datos en busca de convulsiones en pacientes con epilepsia. Mis datos son de aproximadamente 1 TB que contiene aproximadamente 120 incautaciones. Quiero hacer un detector automático de convulsiones, pero no estoy seguro de qué clasificador seleccionar.
Respuesta: Existen algunas restricciones implícitas que surgen de su problema. Supongo que los “falsos negativos” tienen un “costo más alto” que los “falsos positivos”. Es decir, probablemente esté bien si su clasificador predice falsamente que alguien tiene epilepsia en lugar de predecir falsamente que alguien no tiene epilepsia cuando realmente la tiene.

Esencialmente, dado su conjunto de datos, debe buscar clasificadores sensibles al costo. Aquí hay un enlace tutorial [1] con un enlace a varios documentos y code-baseetc. Otro trabajo relacionado es la optimización de SVM para AUC parcial [2].

[1] Página en nicta.com.au
[2] Un enfoque basado en SVM estructural para optimizar el AUC parcial

** Todas las imágenes aquí han sido tomadas del Código de Aprendizaje Profundo del Núcleo Local (LDKL) para la predicción eficiente de SVM no lineal

¿Por qué no simplemente ajustar varios clasificadores y usar pesos de información para hacer promedios de modelos (o cribado de modelos) a la Burnham y Anderson? Bastante simple: el arte del modelado matemático

a2a. Sugeriría leer Page en caltech.edu para obtener una descripción excelente y directa de los diversos problemas involucrados. Aferro a esto porque deduzco de la formulación de la pregunta que una explicación más detallada que una respuesta de Quora sería más útil.

buceta