¿Existe un mejor clasificador de aprendizaje automático?

Teorema sin almuerzo gratis (NFL Theorem) [Wol96] [WM + 95]: Para cualquier algoritmo de aprendizaje La y Lb, si La es mejor que Lb para algunos problemas, entonces debe haber algunos problemas Lb es mejor que La. En otras palabras, La y Lb tienen el mismo rendimiento en expectativa.

Ningún teorema del almuerzo gratis nos dice que no tiene sentido hablar de “qué algoritmo de aprendizaje es mejor” a partir de un problema concreto, porque si se consideran todos los problemas potenciales, todos los algoritmos de aprendizaje son igualmente buenos. Para hablar sobre la relativa superioridad de los diferentes algoritmos de aprendizaje, debemos abordar problemas de aprendizaje específicos. Una vez que se dan las características, y una vez que se da la distribución de datos, se ha resuelto un “problema”.

El aprendizaje automático no es un conjunto de algoritmos. Los algoritmos son límite, pero las tareas del mundo real varían. Debe haber algunas tareas que no puede resolver si solo usa estos algoritmos existentes sin cambios. Por lo tanto, no solo debemos centrarnos en la derivación de algoritmos y sus implementaciones de programación. Las ideas detrás de los algoritmos son las claves para modificar los algoritmos para que se ajusten a las tareas de la realidad.

[Wol96] David H Wolpert. La falta de distinciones a priori entre los algoritmos de aprendizaje. Cálculo neuronal, 8 (7): 1341-1390, 1996.

[WM + 95] David H Wolpert, William G Macready, et al. No hay teoremas de almuerzo gratis para la búsqueda. Informe técnico, Informe técnico SFI-TR-95-02-010, Instituto Santa Fe, 1995.

No, no existe un mejor clasificador universal de aprendizaje automático. Cada enfoque de aprendizaje automático tiene un sesgo inductivo. Por lo tanto, para cualquier clasificador, existe cierta distribución de datos donde funciona peor que otro clasificador.

Ver también: No hay teoremas de almuerzo gratis

Hola chicos,

Encontré un seminario web muy interesante sobre Machine Learning que se supone que se llevará a cabo mañana. Syed Rizvi, gerente de ingeniería de TI, le mostrará cómo diseñar un clasificador de spam con la ayuda de las API de Machine Learning .

Estoy compartiendo esto, ya que creo que muchos de ustedes estarían interesados ​​en aprender las técnicas. Entonces, si alguno de ustedes interesado puede asistir a su seminario web, regístrese aquí

Puntos focales de Naive Bayes: Súper sencillo, simplemente estás haciendo un paquete de cuentas. En el caso de que la sospecha de autonomía contingente NB realmente se mantenga, un clasificador Naive Bayes se fusionará más rápido que los modelos discriminatorios como la recaída logística, por lo que necesita menos información de preparación. Además, independientemente de la posibilidad de que la presunción NB no se cumpla, un clasificador NB todavía hace una demostración impresionante en términos prácticos. Una apuesta decente si necesita algo rápido y simple que funcione completamente bien. Su carga fundamental es que no puede aprender colaboraciones entre componentes (p. Ej., No puede descubrir que a pesar del hecho de que adoras las películas con Brad Pitt y Tom Cruise, desprecias las películas donde están como una sola) .

Circunstancias favorables de regresión logística: muchos enfoques para regularizar su modelo, y no necesita preocuparse tanto por sus elementos que se corresponden, como lo hace en Naive Bayes. Del mismo modo, tiene una aclaración probabilística decente, en absoluto similar a los árboles de elección o SVM, y puede, sin mucho esfuerzo, actualizar su modelo para recibir nueva información (utilizando una técnica de caída de ángulo en línea), nuevamente diferente a los árboles de elección o SVM. Úselo en caso de que necesite una estructura probabilística (por ejemplo, para modificar sin esfuerzo los bordes de la disposición, para decir cuándo no está seguro, o para obtener certeza interina) o en el caso de que espere obtener toda la información más preparatoria más adelante debe tener la capacidad de fusionarse rápidamente con su modelo.

Desde el punto de vista teórico, KNN (vecinos más cercanos a K) es un clasificador perfecto. Puedes probar eso.

El problema es que a medida que aumenta la dimensionalidad de los datos, KNN comienza a ser menos efectivo.

No existe un único “mejor” clasificador per se, generalmente se trata de sus datos, y muchas veces, la forma en que procesa sus datos es más importante que el clasificador que usa.

Al final del día, el clasificador será tan bueno como los datos que ingrese.

Como dijo otro: No hay almuerzo gratis. Pero si no tienes idea de qué probar, puedes probar el bosque aleatorio. Este documento muestra que es bastante bueno en muchos problemas jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf

Uno de los aspectos más difíciles de la ciencia de datos y el aprendizaje automático es que siempre hay diferentes problemas para atacar.

Es por eso que no hay mejores clasificadores. Pero probablemente el mejor clasificador para el problema único (clasificador de árbol o clasificador de regresión).

Creo que no hay mejor clasificador de aprendizaje automático. Esto es lo que nos enseña la teoría del aprendizaje estadístico, especialmente el teorema “Sin almuerzo gratis”.

Todos estamos buscando el “algoritmo maestro” como Pr. A Pedro Domingos le gusta llamarlo.

¿Para todos los conjuntos de datos posibles (lo que significa que superará a otros, sin importar la entrada)? No.

Los árboles de decisión potenciados por AFAIK se consideran el mejor algoritmo de aprendizaje “listo para usar”. Dicho esto, no puedes hablar de “mejor” si no tienes ningún tipo de métrica.