¿Cuáles son los avances importantes en el aprendizaje automático en la última década?

Aquí está la respuesta que le di a esta pregunta similar:
¿Qué nuevas innovaciones se han producido en el campo de la inteligencia artificial entre 2000 y 2010?

Esto no pretende ser exhaustivo, solo un par que viene a la mente:
1. El surgimiento de métodos variacionales, es decir, tratar los problemas de razonamiento y aprendizaje probabilístico como problemas de optimización. Alrededor de 2000 o un poco antes, la gente comenzó a tratar de comprender la propagación de creencias, y esto condujo a muchas conexiones entre la programación lineal y otros marcos de optimización bien estudiados en otros campos, y un gran avance tanto en términos teóricos como prácticos. Una descripción técnica pero completa está aquí:
MJ Wainwright y MI Jordan Modelos gráficos, familias exponenciales e inferencia variacional. Fundamentos y tendencias en el aprendizaje automático, vol. 1, Números 1–2, págs. 1–305, diciembre de 2008.
http://www.eecs.berkeley.edu/~wa…

2. “Aprendizaje profundo“: la gran idea nueva (que hace que realmente funcione) es construir primero representaciones de nivel superior del mundo antes de intentar que su modelo haga lo que quiere que haga. Por ejemplo, antes de intentar decidir si una noticia es buena o mala, primero descubra las regularidades en el lenguaje. Geoff Hinton ofrece varios enlaces desde su página de inicio: http://www.cs.toronto.edu/~hinton/ o visite este sitio web que trata de reunir los esfuerzos de los investigadores en esa área: http://deeplearning.net

Una idea reciente es la viabilidad de grandes conjuntos de datos a escala de Internet como reemplazo de la complejidad en el modelado. Los clasificadores lineales simples y los modelos Naive Bayes pueden superar a los modelos sofisticados en muchas tareas si se les dan conjuntos de datos suficientemente grandes para aprender. Google fue el primero en tener acceso a los conjuntos de datos a la escala necesaria, y lo han utilizado para mejorar sus sugerencias de búsqueda, traducción, detección de spam, etc. Alon Halevy, Peter Norvig y Fernando Pereira de Google tienen un muy bien escrito artículo titulado “La efectividad irracional de los datos”.

http://www.scribd.com/doc/138631

El artículo hace referencia al trabajo de finalización de escena de Hays y Efros de CMU.
http://graphics.cs.cmu.edu/proje

Un desarrollo relacionado es el aprovechamiento de la potencia de procesamiento en paralelo disponible en hardware básico (procesadores de celda, GPU). El Instituto Rowland de Harvard tiene un grupo que trabaja en el aprendizaje de características simples para la visión artificial que realizan reconocimiento facial y de objetos de última generación mediante la generación y detección automática de características candidatas a gran escala.

http://www.rowland.harvard.edu/r

El desarrollo de solucionadores L1 de muy alto rendimiento y ampliamente disponibles, como liblinear, graphlab, votepal wabbit, etc.

En términos más generales, la adopción, formulación e implementación a gran escala de problemas de aprendizaje automático como optimizaciones convexas (SVM, detección comprimida, NMF convexo, redes elásticas, SVM estructurales, etc.) utilizando una variedad de técnicas numéricas (punto interior, subgraduados, métodos de paquete, paralelo coordinar el descenso, seguir al líder proximal) y ponerlos a disposición del investigador aplicado

Además, la comprensión de que muchos problemas convexos de ML se pueden resolver de manera efectiva utilizando métodos paralelos de baja precisión, sin bloqueo e incluso en un entorno en línea. Esto permite tratar miles de millones de ejemplos y millones de funciones en tiempo real.

Agradecimientos especiales a Smale por su trabajo teórico inicial, a Tao por su trabajo en detección comprimida, a Niyogi por aprendizaje transductivo y el paquete smvlin, y al desarrollo de métodos NMF (factorización de matriz no negativa) (algoritmos de siembra, convexos -NMF formulaciones, y las extensiones generalizadas