¿Cuáles son algunos textos recientes sobre el aprendizaje a gran escala? La tecnología cambia la vida futura

Flujos de publicaciones de los principales laboratorios de la industria:

Google: http://research.google.com/pubs/…
Yahoo: http://research.yahoo.com/Machin…
Microsoft: http://research.microsoft.com/en…
IBM: https://researcher.ibm.com/resea…
Laboratorios NEC: http://www.nec-labs.com/research…
HP Labs: http://www.hpl.hp.com/techreports/
Investigación de Disney: http://www.disneyresearch.com/

Artículos individuales, blogs, etc.

Bottou, Aprendizaje a gran escala: http://leon.bottou.org/research/…
Langford, Machine Learning (Teoría): http://hunch.net/

Bell & Koren, filtrado colaborativo escalable con derivación conjunta
Pesos de interpolación de vecindarios (2007):
http://public.research.att.com/~…
Brants et al., Modelos de lenguaje grande en la traducción automática (2007): http: //static.googleusercontent….
Snelson, modelos de proceso gaussianos flexibles y eficientes para el aprendizaje automático: http://www.gatsby.ucl.ac.uk/~sne…
Thrun et al., Stanley: El robot que ganó el gran desafío DARPA (2006): http://www.springerlink.com/cont…
Ferrucci et al., Building Watson: una visión general del proyecto DeepQA (2010): http://www.stanford.edu/class/cs…
Kalal et al., Muestreo ponderado para el refuerzo a gran escala (2008):
http://info.ee.surrey.ac.uk/Pers…
Moghaddam et al., Reconocimiento facial bayesiano (2000): http://www.sciencedirect.com/sci…
Kang et al., Análisis espectral para miles de millones de gráficos a escala: descubrimientos e implementación (2011): http://www.cs.cmu.edu/~ukang/pap…
Kang et al., Mining Large Graphs: Algorithms, Inference, and Discoveries (2011): http://www.cs.cmu.edu/~dchau/pap…
Kulhavy, Bayesian Smoothing and Information Geometry, 2003: http://staff.utia.cas.cz/kulhavy…
Bottou y Vapnik, Algoritmos de aprendizaje local (1992): http://leon.bottou.org/publicati…
García et al., Completamente Lazy Learning (2009): http://www.ee.washington.edu/res…
Cybenko, Aprendizaje y estimación justo a tiempo (1996): http://actcomm.dartmouth.edu/gvc…
Saad, Métodos numéricos para grandes problemas de valores propios (2011): www.cs.umn.edu/~saad/eig_book_2ndEd.pdf
Shaw y Jebara, volumen mínimo incrustado (2007), http://www.cs.columbia.edu/~jeba…
Domando grandes distribuciones de probabilidad (a través de la página de inicio de Clément Canonne)
Alka, Algoritmos eficientes y estructuras de datos para conjuntos de datos masivos (tesis doctoral, IIT Guwahati, 2010): http://arxiv.org/abs/1005.3473
Malewicz et al., Pregel, un sistema para el procesamiento de gráficos a gran escala (2010): http://portal.acm.org/citation.c…
Domke, Descomposición dual para inferencia marginal (2011): http://people.rit.edu/jcdicsa/pa…
Domke, Aprendizaje de parámetros con paso de mensajes truncados (2011): http://people.rit.edu/jcdicsa/pa…
Gibbons & Matias, estructuras de datos de sinopsis (1998):
www.cs.princeton.edu/courses/archive/spring04/cos598B/bib/GibbonsM-syn.pdf
Aspnes & Shah, Skip Graphs (2007): http://www.cs.yale.edu/homes/asp…
Bengio, Y. y LeCun, Y. Algoritmos de aprendizaje progresivos hacia la IA. En máquinas de kernel a gran escala , MIT Press (2007). (a través de David Warde-Farley)
http://yann.lecun.com/exdb/publi…
Feldman et al., Sobre la complejidad del procesamiento de datos distribuidos masivos, desordenados, 2006: http://arxiv.org/abs/cs/0611108
Halko et al., Encontrar estructura con aleatoriedad: algoritmos estocásticos para
construcción de descomposiciones matriciales aproximadas, 2009:
http://arxiv.org/abs/0909.4061
Beyer et al., ¿Cuándo es significativo el “vecino más cercano”? (1999): http://citeseer.ist.psu.edu/view…
Castelli et al., CSVD: Clustering and Singular Value Decomposi-
ción para búsquedas de similitud aproximada en alta
Espacios dimensionales (2003): http://ieeexplore.ieee.org/xpls/…
Bucila et al., Model Compression (2006): http://citeseerx.ist.psu.edu/vie… (a través de Ted Dunning)
Collobert, Aprendizaje automático a gran escala (tesis doctoral, Universite de Paris VI, 2004): http://citeseerx.ist.psu.edu/vie…
Fradkin y Madigan, Experimentos con proyecciones aleatorias para el aprendizaje automático (2003): http://citeseerx.ist.psu.edu/vie… (a través de Robert J. Durrant)
Bottou & Bousquet, Aprendizaje utilizando grandes conjuntos de datos (2008): http://leon.bottou.org/publicati…
Boyd et al., Optimización distribuida y aprendizaje estadístico a través del método de multiplicación de la dirección de multiplicadores, 2010: http://www.stanford.edu/~boyd/pa…
Yuan et al., Una comparación de métodos y software de optimización para la clasificación lineal regularizada a gran escala L1 (2010): http://jmlr.csail.mit.edu/papers… (a través de Georgiana Ifrim)
Kang et al., PEGASUS: A Peta-Scale Graph Mining System- Implementation and Observaciones (2009): http://citeseerx.ist.psu.edu/vie…

Langford, Instrucciones de investigación para el aprendizaje automático y los algoritmos, 2011: http://cacm.acm.org/blogs/blog-c…

Rakhlin et al., Aprendizaje en línea: promedios aleatorios, parámetros combinatorios y capacidad de aprendizaje (2010): http://books.nips.cc/papers/file… (a través de Alex Smola)

Shalev-Shvartz et al., Pegasos: Primal Estimated sub-GrAdient SOlver for SVM (2007): http://portal.acm.org/citation.c…
Graf et al., Parallel Support Vector Machines: The Cascade SVM (2004): http://books.nips.cc/papers/file…
Weinberger et al., Feature Hashing for Large Scale Multitask Learning, 2009: http://arxiv.org/abs/0902.2206
Friedman, Regresión escasa rápida y clasificación (2008): http://www-stat.stanford.edu/~jh…
Kim et al., Un método de punto interior para mínimos cuadrados regularizados a gran escala L1 (2007): http://ieeexplore.ieee.org/xpls/…
Panda et al., PLANET: Aprendizaje masivo en paralelo de conjuntos de árboles con MapReduce, 2009: http://www.bayardo.org/ps/vldb20…
Bingham & Mannila, Proyección aleatoria en reducción de dimensionalidad:
Aplicaciones a datos de imagen y texto (2001): http://portal.acm.org/citation.c…

Sculley, Agrupación de k-medias a escala web (2010): http://www.eecs.tufts.edu/~dscul…
Horwitz, Técnicas para gestionar grandes conjuntos de datos: compresión, indexación y resumen (1997): http://www.nesug.org/Proceedings…
Karatzoglou et al., Filtrado colaborativo en un presupuesto (2010): http://jmlr.csail.mit.edu/procee…
Shi et al., Hash Kernels (2009), http://jmlr.csail.mit.edu/procee…, http://users.cecs.anu.edu.au/~jp…
Kleinberg, Bursty and Hierarchical Structure in Streams (2002): http://www.cs.cornell.edu/home/k…
Poulet & Do, Minería de conjuntos de datos muy grandes con algoritmos de máquina de vectores de soporte (2005): http://www.springerlink.com/cont…
Core Vector Machines: Entrenamiento rápido de SVM en conjuntos de datos muy grandes (2005): http://www.cse.ust.hk/~ivor/publ…
Chen et al., Clustering espectral paralelo en sistemas distribuidos (2011): http://alumni.cs.ucsb.edu/~wyche…
Newman et al., Algoritmos distribuidos para modelos temáticos (2009): http://www.ics.uci.edu/~asuncion…
Maillard y Munos, Regresión de mínimos cuadrados comprimidos (2009): http://sequel.futurs.inria.fr/mu… (a través de Robert J. Durrant)
McCallum et al., Agrupación eficiente de conjuntos de datos de alta dimensión con aplicación para la correspondencia de referencias (2000): http://www.kamalnigam.com/papers…
Schraudolph et al., A Stochastic Cuasi-Newton Method for Online Convex Optimization (2007): http: //eprints.pascal-network.or… (a través de Joseph Turian)

Krizhevsky, Learning Multiple Layers of Features from Tiny Images (Tesis de maestría, U de Toronto, 2009): http://www.cs.utoronto.ca/~kriz/… (a través de Brian Vandenberg)
Taylor et al., Modelado del movimiento humano utilizando variables binarias latentes (2006): http://citeseer.ist.psu.edu/view…
Bengio, Learning deep arquitectures for AI (2009): http://citeseerx.ist.psu.edu/vie…

Martinsson, Cómo hacer posibles cálculos algebraicos lineales a gran escala mediante aleatorización (2009): http://nips.cc/Conferences/2009/… y http://videolectures.net/nips09_… (a través de Alexandre Passos y Stelios Sfakianakis)
PyCon 2011: Manejo de cantidades ridículas de datos con estructuras de datos probabilísticas: http://blip.tv/pycon-us-videos-2…
Ankur Dave, CloudClustering (2010): http://www.ankurdave.com/microso…
Saad, reducción de dimensiones y métodos basados en gráficos en minería de datos (2009):
http://www-users.cs.umn.edu/~saa… (también
http://www-users.cs.umn.edu/~saa…)
Yoo, Running Large Graph Algorithms (2010):
Rivest, bibliografía de Machine Learning: http://people.csail.mit.edu/rive…
Michels-Slettvet, Resolución de problemas en grupos de gran escala (2007):
Curso corto de NVIDIA sobre informática de alto rendimiento con CUDA: página el 64.93.201

Vishkin, Pensando en paralelo: algunos algoritmos y técnicas de datos paralelos básicos (2010): www.umiacs.umd.edu/~vishkin/PUBLICATIONS/classnotes.pdf
Michael Nielsen, Tutorial de Pregel: http://www.michaelnielsen.org/dd…
Petar Maymounkov y David Mazières, Kademlia: un sistema de información entre pares basado en la métrica XOR (2002): http://www.springerlink.com/cont…
Arge et al., SkipWebs: estructuras de datos distribuidos eficientes para
Conjuntos de datos multidimensionales (2005):
www.ics.uci.edu/~goodrich/pubs/skipweb.pdf
Chandra et al., Sibyl, un sistema para el aprendizaje automático a gran escala: http://ladisworkshop.org/sites/d…
Keyes, Escalado de la descomposición del dominio y métodos de múltiples cuadrículas, 2007: http://www.yale.edu/QCDNA/talks4…
Bickson, Algoritmos de factorización de matriz: ¿qué algoritmos se pueden paralelizar ?: http://bickson.blogspot.com/2011…
Lessig, Eigenvalue Computation con CUDA (2007):
http: //developer.download.nvidia…
Berry, cálculos de escaso valor escaso a gran escala (1992): http://citeseerx.ist.psu.edu/vie…
Santos y Chu, Algoritmos paralelos eficientes y óptimos para la descomposición de Cholesky (2006): http://www.springerlink.com/cont…
Smola & Ahmed, Modelos gráficos para Internet, 2011: http://alex.smola.org/drafts/www…
Blog de Google Research, Lecciones aprendidas desarrollando un sistema práctico de aprendizaje automático a gran escala, 2010: http: //googleresearch.blogspot.c…
Gehrke et al., RainForest: un marco para la construcción rápida de árboles de decisión de grandes conjuntos de datos (2000): http://www.springerlink.com/cont…
Hulten, Mining streams de datos que cambian el tiempo (2001): http://portal.acm.org/citation.c…
Ye & Keogh, Time Series Shapelets: A New Primitive for Data Mining (2009): http://citeseerx.ist.psu.edu/vie…
Macready & Wolpert, Optimización restringida distribuida (2004): http://citeseerx.ist.psu.edu/vie… (a través de Hiroshi Ono)
Tsitsiklis y Roy, Métodos basados en funciones para la programación dinámica a gran escala (1996): http://www.springerlink.com/cont…
Khan, Consenso de dimensiones superiores: aprendizaje en redes a gran escala (2009): http://arxiv.org/abs/0904.1840
Aprendizaje en línea en Clojure: http://mark.reid.name/sap/online…
MLdiscuss: http://mldiscuss.appspot.com/
Tutorial de reducciones: http://hunch.net/~reductions_tut…
Aprendizaje automático con algoritmos cuánticos: http: //googleresearch.blogspot.c…

Artículos anteriores de Valiant: http://people.seas.harvard.edu/~…
Tridgell, Algoritmos eficientes para ordenar y sincronizar: http://www.samba.org/~tridge/phd…
Wilkinson, Comenzando con MCMC paralelo: http://darrenjw.wordpress.com/20…
Langford, la clase ideal de aprendizaje a gran escala:
http://hunch.net/?p=1729
Langford, Hadoop AllReduce y Terascale Learning: http://hunch.net/?p=2094, http://www.slideshare.net/pauldi…
Colección de recursos de Rui: https://sites.google.com/site/rx…
Venkatasubramanian, Modelos para MapReduce:
http://geomblog.blogspot.com/201…
Goodrich et al., Clasificación, búsqueda y simulación en el marco de MapReduce: http://arxiv.org/abs/1101.1902
Karloff et al., Un modelo de computación para MapReduce: http://theory.stanford.edu/~serg…
Chandra et al., Sibyl: un sistema para el aprendizaje automático a gran escala: http: //static.googleusercontent….

Libros:

Bekkerman, Bilenko & Langford, Scaling Up Machine Learning (próximo libro, 2011): http://www.cs.umass.edu/~ronb/sc…
Rumelhart et al., Parallel Distributed Processing , 1987: http://www.amazon.com/Parallel-D…
Rajaraman y Ullman, Minería conjuntos de datos masivos, 2010, http://infolab.stanford.edu/~ull… (a través de Marin Dimitrov)
Samet, Fundamentos de estructuras de datos multidimensionales y métricas (2006), http://www.amazon.com/Foundation…
Maimon y Rokach, Metodología de descomposición para descubrimiento de conocimiento y minería de datos (2005): http://books.google.com/books?id…
Press et al., Numerical Recipes : http://www.nrbook.com
Vazirani, Algoritmos de aproximación (2004): http://www.amazon.com/Approximat…
Motwani y Raghavan, Algoritmos aleatorizados (1995): http://www.amazon.com/Randomized…
Boyd y Vandenberghe, Optimización convexa (2004): http://www.stanford.edu/~boyd/cv…
Censor y Zenios, Optimización paralela (1997): http: //www.amazon.com/Parallel-O…
Bersekas y Tsitsiklis, computación paralela y distribuida: métodos numéricos (2003): http://dspace.mit.edu/handle/172…
Nocedal & Wright, Optimización numérica (2000): http://www.amazon.com/Numerical-…
Fletcher, métodos prácticos de optimización
(2000): http://www.amazon.com/Practical-…
Dongarra et al., Álgebra lineal numérica en computadoras de alto rendimiento (1998): http://www.amazon.com/Numerical-…
Saad, Métodos iterativos para sistemas lineales dispersos (2003): www-users.cs.umn.edu/~saad/IterMethBook_2ndEd.pdf
Smola y Vishwanathan, Introducción al aprendizaje automático (borrador): http://alex.smola.org/drafts/the…

Hastie y Tibshirani, Los elementos del aprendizaje estadístico (2009) : http://www-stat.stanford.edu/~ti…
Rasmussen y Williams, Procesos gaussianos para el aprendizaje automático (2006): http://www.gaussianprocess.org/g…
Jensen y Graven-Nielsen, Redes Bayesianas y Gráficos de Decisión (2007):
http://www.amazon.com/Bayesian-N…
MacKay, Teoría de la información, inferencia y algoritmos de aprendizaje (2005): http: //www.inference.phy.cam.ac….
Bai et al., Plantillas para la solución de problemas de valores propios algebraicos (1987): http://web.eecs.utk.edu/~dongarr…

Relacionado:
¿Cuáles son algunos talleres sobre aprendizaje a gran escala?
¿Cuáles son algunas bibliotecas de software para el aprendizaje a gran escala?
¿Cuáles son algunos cursos de aprendizaje a gran escala?
¿Cuáles son algunos buenos recursos para aprender sobre la reducción de dimensionalidad? ¿Por qué?
¿Cuáles son algunos buenos recursos para aprender sobre la minería de flujo? ¿Por qué?
¿Cuáles son algunos buenos recursos para aprender sobre computación distribuida? ¿Por qué?
¿Cuáles son algunos buenos recursos para aprender sobre la compresión de datos? ¿Por qué?
¿Cómo aprendo el aprendizaje automático?
¿Cuáles son algunos textos recientes sobre métodos de kernel?
¿Cómo se pueden usar R y Hadoop juntos?
¿Cuáles son algunos buenos recursos para aprender sobre la optimización distribuida?
¿Cuáles son algunos buenos proyectos de clase para el aprendizaje automático usando MapReduce? Debería: ser paralelizable a ~ 3 personas, ~ 2–3 horas a la semana, tener un resultado secundario verificable.
¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

(Esta es una lista en vivo. Ediciones y adiciones son bienvenidas)