Primero, una cita importante de fondo:
Breiman, L. 2001. “Modelización estadística: las dos culturas (con comentarios y una réplica del autor)”. Statistical Science 16: 199-231.
Aprendizaje supervisado
Regresión: Panik, MJ 2009. Modelado de regresión: métodos, teoría y computación con SAS. Boca Ratón, FL: CRC Press. (Divulgación: mi libro de regresión favorito).
Árbol de decisión: Breiman, L., Friedman, J., Olshen, R. y Stone, C. 1984. Árboles de clasificación y regresión. Belmont, CA: Wadsworth.
Bosque aleatorio: Breiman, L. 2001. “Bosques aleatorios”. Machine Learning 45: 5–32.
Aumento de gradiente: Friedman, JH 2001. “Aproximación de la función codiciosa: una máquina de aumento de gradiente “. Annals of Statistics 29: 1189-1232.
Red neuronal: Rumelhart, DE, Hinton, GE y Williams, RJ 1986. “Representaciones de aprendizaje por errores de propagación hacia atrás”. Nature 323: 533–536.
Máquina de vectores de soporte: Cortes, C. y Vapnik, V. 1995. “Redes de vectores de soporte”. Machine Learning 20: 273–297.
Naïve Bayes: Friedman, N., Geiger, D. y Goldszmidt, M. 1997. “Clasificadores de red bayesianos”. Machine Learning 29: 131–163.
Vecinos: Cover, T. y Hart, P. 1967. “Clasificación de patrón de vecino más cercano”. Transacciones IEEE sobre teoría de la información 13: 21–27.
Procesos gaussianos: Seeger, M. 2004. “Procesos gaussianos para el aprendizaje automático”. International Journal of Neural Systems 14: 69-106.
Aprendizaje sin supervisión
Reglas a priori: Agrawal, R., Imieliński, T. y Swami, A. 1993. “Reglas de asociación minera entre conjuntos de elementos en grandes bases de datos”. ACM SIGMOD Registro 22: 207–216.
Agrupación de k-medias: Hartigan, JA y Wong, MA 1979. “Algoritmo AS 136: Un algoritmo de agrupación de k-medias”. Revista de la Royal Statistical Society, Serie C 28: 100-108.
Incrustaciones a término GloVe : Jeffrey Pennington, Richard Socher y Christopher D Manning. “GloVe: Vectores globales para la representación de palabras”.
Agrupación de desplazamiento medio: Cheng, Y. 1995. “Desplazamiento medio, búsqueda de modo y agrupación”. Transacciones IEEE sobre análisis de patrones e inteligencia artificial 17: 790–799.
Agrupación espectral: Von Luxburg, U. 2007. “Un tutorial sobre agrupación espectral”. Estadísticas y computación 17: 395–416.
Estimación de la densidad del núcleo: Silverman, BW 1986. Estimación de densidad para estadísticas y análisis de datos. Vol. 26. Boca Ratón, FL: CRC Press.
Factorización matricial no negativa: Lee, DD y Seung, HS 1999. “Aprender las partes de los objetos mediante la factorización matricial no negativa”. Nature 401: 788-791.
Kernel PCA: Schölkopf, B., Smola, A. y Müller, K.-R. 1997. “Análisis de componentes principales del núcleo”. En redes neuronales artificiales — ICANN’97, 583–588. Berlín: Springer.
PCA dispersa : Zou, H., Hastie, T. y Tibshirani, R. 2006. “Análisis de componentes principales dispersos”. Journal of Computational and Graphical Statistics 15: 265–286.
Descomposición de valores singulares: Golub, GH y Reinsch, C. 1970. “Descomposición de valores singulares y soluciones de mínimos cuadrados”. Numerische Mathematik 14: 403–420.
Aprendizaje semi-supervisado *:
Codificadores automáticos de denoising: Vincent, P., Larochelle, H., Bengio, Y. y Manzagol, PA 2008. “Extracción y composición de características robustas con codificadores automáticos de denoising”. Actas de la 25ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York: ACM.
Maximización de expectativas: Nigam, K., McCallum, AK, Thrun, S. y Mitchell, T. 2000. “Clasificación de texto de documentos etiquetados y no etiquetados usando EM”. Machine Learning 39: 103-134.
Regularización múltiple: Belkin, M., Niyogi, P. y Sindhwani, V. 2006. “Regularización múltiple: un marco geométrico para aprender de ejemplos etiquetados y no etiquetados”. The Journal of Machine Learning Research 7: 2399-2434.
Máquinas de vectores de soporte transductivo: Joachims, T. 1999. “Inferencia transductiva para la clasificación de texto usando máquinas de vectores de soporte”. Actas de la 16ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York: ACM.
Incrustaciones a término de Word2Vec : Mikolov, Tomas, et al. “Estimación eficiente de representaciones de palabras en el espacio vectorial”. preimpresión de arXiv arXiv: 1301.3781 (2013).
* En el aprendizaje semi-supervisado, los algoritmos de predicción y clasificación supervisados a menudo se combinan con la agrupación. Los algoritmos mencionados aquí proporcionan soluciones de aprendizaje semi-supervisadas directamente.
Comentarios y preocupaciones bienvenidos.