¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

(También puede leer la versión en español de esta respuesta aquí)

Identificar los 10 algoritmos principales en el resumen es un ejercicio bastante complicado a menos que haya una dimensión clara para hacer la comparación. ¿Popularidad? ¿Utilidad? Mérito de la investigación? Permítanme abordar esto desde un punto de vista bastante subjetivo: si lo estuviera entrevistando para un puesto de Data Mining, ¿cuáles serían los 10 algoritmos principales que esperaría que supiera en orden de prioridad?

Regresión lineal
Regresión logística
k-significa
SVM
Conjuntos de árboles que incluyen bosques aleatorios y árboles / máquinas de decisión potenciados por gradientes
Factorización matricial / SVD
Bayes ingenuos
Redes neuronales artificiales
Para los dos últimos, te dejaría elegir entre los siguientes:

Redes neuronales profundas (redes convolucionales o recurrentes)
Redes elásticas
Cualquier otro agrupamiento de algo además de k-means
LDA
HDP u otro modelo no paramétrico bayesiano
Redes Bayesianas
Campos aleatorios condicionales

Una vez más, una lista bastante subjetiva, pero creo que es bastante representativa de lo que necesita hacer un trabajo de minería de datos real en la industria.

Apache SparkAprendizaje automáticoCiencia de datosMinería de datosPython (lenguaje de programación)Reconocimiento de patrones

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

Algunas cosas "fueron modeladas como procesos de Poisson". ¿Qué quieren decir con eso?

¿Cuál es una buena definición de big data?

¿Qué curso se sugiere para el aprendizaje automático que sea más un curso basado en proyectos?

¿Cuál es el mejor algoritmo para descubrir características bien correlacionadas?

¿Qué dominios / problemas se pueden obtener del uso de la nueva arquitectura de chip que es más rápida pero menos precisa (“aritmética descuidada”)? por ejemplo, aprendizaje automático, visión artificial

Una posible respuesta a esta pregunta proviene de la documentación de Analytics 1305 [2]:

Estimación de densidad de kernel y clasificador de Bayes no paramétrico
K-medias
Análisis de componentes principales del núcleo
Regresión lineal
Vecinos (más cercano, más lejano, rango, k, clasificación)
Factorización de matriz no negativa
Máquinas de vectores de soporte
Reducción de dimensionalidad
Descomposición rápida del valor singular
Árbol de decisión
SVM con arranque

Los 11 algoritmos implementados por 11Ants [1] proporcionan otra respuesta potencial para esta pregunta:

Árbol de decisión
Procesos Gaussianos
Regresión logística
Logit Boost
Árbol modelo
Naïve Bayes
Vecinos más cercanos
PLS
Bosque al azar
Regresión de cresta
Máquinas de vectores soporte

Otra posible respuesta proviene de los algoritmos en Oracle Data Mining [3]

Clasificación: regresión logística, ingenuo bayes, SVM, árbol de decisión
Regresión: regresión múltiple, SVM
Importancia del atributo: MDL
Detección de anomalías: SVM de una clase
Agrupación: k-means, partición ortogonal
Asociación: A Priori
Extracción de características: NNMF

Nota: Yo personalmente no respaldo estas opciones, ni siquiera las convenciones de nombres. Solo pensé que era otra lista útil.

[1] http://jtonedm.com/2011/06/07/fi…
[2] http://www.analytics1305.com/doc …
[3] http://www.oracle.com/technetwor …

Niko Gamulin

1. Regresión lineal (curso de Andrew Ng)
2. Regresión logística (Andrew Ng coursera)
3. SVM (curso Prof. Abu Mustafa Ml en youtube)
4. SVD / PCA / Kernel PCA (curso de Andrew Ng)
5. k-means y agrupamiento jerárquico (búsqueda en youtube)
6. Árboles de decisión y bosque aleatorio (curso de ML del profesor Nando de Freitas)
7. Redes neuronales (Andrew Ng coursera), es bueno saber un poco sobre las redes neuronales profundas
8. Regularización para la regresión.
9. Impulso
10. Bayes ingenuos

Niko Gamulin

More Interesting

¿Qué es AdaBoost?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿El trabajo de finanzas corporativas será reemplazado por aprendizaje automático?

¿Qué opinas del TensorFlow Eager en comparación con Pytorch?