¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

(También puede leer la versión en español de esta respuesta aquí)

Identificar los 10 algoritmos principales en el resumen es un ejercicio bastante complicado a menos que haya una dimensión clara para hacer la comparación. ¿Popularidad? ¿Utilidad? Mérito de la investigación? Permítanme abordar esto desde un punto de vista bastante subjetivo: si lo estuviera entrevistando para un puesto de Data Mining, ¿cuáles serían los 10 algoritmos principales que esperaría que supiera en orden de prioridad?

  1. Regresión lineal
  2. Regresión logística
  3. k-significa
  4. SVM
  5. Conjuntos de árboles que incluyen bosques aleatorios y árboles / máquinas de decisión potenciados por gradientes
  6. Factorización matricial / SVD
  7. Bayes ingenuos
  8. Redes neuronales artificiales
  9. Para los dos últimos, te dejaría elegir entre los siguientes:
  • Redes neuronales profundas (redes convolucionales o recurrentes)
  • Redes elásticas
  • Cualquier otro agrupamiento de algo además de k-means
  • LDA
  • HDP u otro modelo no paramétrico bayesiano
  • Redes Bayesianas
  • Campos aleatorios condicionales

Una vez más, una lista bastante subjetiva, pero creo que es bastante representativa de lo que necesita hacer un trabajo de minería de datos real en la industria.

Una posible respuesta a esta pregunta proviene de la documentación de Analytics 1305 [2]:

  • Estimación de densidad de kernel y clasificador de Bayes no paramétrico
  • K-medias
  • Análisis de componentes principales del núcleo
  • Regresión lineal
  • Vecinos (más cercano, más lejano, rango, k, clasificación)
  • Factorización de matriz no negativa
  • Máquinas de vectores de soporte
  • Reducción de dimensionalidad
  • Descomposición rápida del valor singular
  • Árbol de decisión
  • SVM con arranque

Los 11 algoritmos implementados por 11Ants [1] proporcionan otra respuesta potencial para esta pregunta:

  • Árbol de decisión
  • Procesos Gaussianos
  • Regresión logística
  • Logit Boost
  • Árbol modelo
  • Naïve Bayes
  • Vecinos más cercanos
  • PLS
  • Bosque al azar
  • Regresión de cresta
  • Máquinas de vectores soporte

Otra posible respuesta proviene de los algoritmos en Oracle Data Mining [3]

  • Clasificación: regresión logística, ingenuo bayes, SVM, árbol de decisión
  • Regresión: regresión múltiple, SVM
  • Importancia del atributo: MDL
  • Detección de anomalías: SVM de una clase
  • Agrupación: k-means, partición ortogonal
  • Asociación: A Priori
  • Extracción de características: NNMF

Nota: Yo personalmente no respaldo estas opciones, ni siquiera las convenciones de nombres. Solo pensé que era otra lista útil.

[1] http://jtonedm.com/2011/06/07/fi…
[2] http://www.analytics1305.com/doc
[3] http://www.oracle.com/technetwor

1. Regresión lineal (curso de Andrew Ng)
2. Regresión logística (Andrew Ng coursera)
3. SVM (curso Prof. Abu Mustafa Ml en youtube)
4. SVD / PCA / Kernel PCA (curso de Andrew Ng)
5. k-means y agrupamiento jerárquico (búsqueda en youtube)
6. Árboles de decisión y bosque aleatorio (curso de ML del profesor Nando de Freitas)
7. Redes neuronales (Andrew Ng coursera), es bueno saber un poco sobre las redes neuronales profundas
8. Regularización para la regresión.
9. Impulso
10. Bayes ingenuos

More Interesting

¿Qué es AdaBoost?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿El trabajo de finanzas corporativas será reemplazado por aprendizaje automático?

¿Qué opinas del TensorFlow Eager en comparación con Pytorch?

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

¿Qué tan útil es un trabajo cuantitativo en Goldman Sachs para un doctorado posterior en Machine Learning?