¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT? La tecnología cambia la vida futura

¡Estaba empezando a preguntarme por qué nadie había hecho esta pregunta antes! Creo que es porque 9.520 no es una clase muy “conocida” o “popular” en el MIT. Antes de inscribirme, ni siquiera sabía que existía. Sin embargo, me alegro de haberlo hecho, una de las mejores clases que he tomado.

La clase es muy abstracta en el sentido de que presentan el material de una manera matemáticamente “pura”. Algunas personas podrían argumentar que algunas partes son muy teóricas, y estoy de acuerdo, sin embargo, durante el semestre te muestran cómo diseñaron los algoritmos que te están enseñando y su derivación puede ser difícil, pero algunos de ellos son muy fáciles de entender. implementar.

El término lo tomé, el profesor Rosasco hizo un excelente trabajo al explicar los “resultados fundamentales en la teoría del aprendizaje estadístico”. Esta es una forma muy comprimida de decir que nos mostró, de abajo hacia arriba, cómo se derivó la definición de capacidad de aprendizaje, comenzando por cómo las personas intentaron definir el algoritmo “maestro” que podía aprenderlo todo y cómo conducir a una definición diferente de capacidad de aprendizaje y el algoritmo para lograr la capacidad de aprendizaje. Las personas familiarizadas con la teoría del aprendizaje estadístico probablemente lo conocen como el “teorema del almuerzo sin almuerzo” y cómo esto, junto con otros resultados como el teorema de probabilidad de Glivenko Cantelli, etc., conducen a ERM (relacionado con las dimensiones VC y otras cosas) como el algoritmo de elección para lograr la capacidad de aprendizaje. De todos modos, básicamente justifican por qué todo lo que nos enseñarán en el semestre tiene sentido y por qué está justificado.

Luego continúan enseñándole la regularización junto con ERM y cómo cambiar la regularización realmente puede afectar los diferentes tipos de funciones que aprende. Una de las mejores cosas que nos enseñaron fue cómo puede derivar SVM de la regularización de Tikhonov simplemente cambiando la función de pérdida para que sea la pérdida de bisagra. Esto era tan hermoso y simple y no requería comprensión de los duales ni cosas por el estilo. Era una vista completamente diferente de SVM y era realmente simple. De todos modos, para mí, sentí que realmente nos enseñaron cómo diseñar algoritmos de aprendizaje automático cambiando la función de pérdida o el parámetro de regularización, algo que realmente no sentí que aprendí en otras clases. En otras clases sentí que simplemente nos dieron un libro de cocina con cosas que funcionan o algo así, sin las increíbles justificaciones presentadas en esta clase.

De todos modos, también nos enseñan sobre los métodos de Kernel y la reproducción de espacios de Kerbert Hilbert y fue genial ver cuán general está relacionado el concepto de productos internos, vectores de características y núcleos con el análisis funcional. Esta fue una de las partes muy abstractas, pero el personal proporciona notas detalladas que explican todos los antecedentes matemáticos (y el pensamiento abstracto) que esperarán.

Curiosamente, la clase es definitivamente conceptualmente bastante difícil (porque puede ser muy abstracta). Cuanta más madurez matemática tengas, mejor. Además, realmente no lo recomendaría como la primera clase de aprendizaje automático que uno debería tomar. Podría ser abrumadora conceptualmente y creo que sin las otras clases que tomé, no lo hubiera disfrutado tanto. Sin embargo, la clase solo tiene dos conjuntos de problemas cuando la tomé. Te dan dos semanas, 4 preguntas teóricas o derivaciones y 1 componente de programación (en matlab). De hecho, pensé que los conjuntos de problemas eran muy manejables, especialmente porque nos dan dos semanas. También asistieron como parte de la clase y hubo un proyecto final que tampoco fue muy difícil. Las opciones eran: escribir un artículo de Wikipedia sobre su tema favorito, presentar “preguntas y soluciones para problemas” o algún problema de investigación abierto. Siento que la mayoría de la gente tomó el artículo de Wikipedia porque es la opción más fácil. Es tedioso, pero definitivamente ayuda a aprender mejor el material.

La clase realmente no tenía horario de oficina, a menos que los solicitaras, algo que no me gustó del todo. Además, la clase no tenía recitaciones. Siento que habría aprendido aún más si lo hiciera … oh, bueno.

Para darle una idea de las cosas que enseñaron, déjenme darles una lista. Enseñan a partir de resultados fundamentales en la teoría del aprendizaje estadístico, regularización, mapas de características, RKHS, mínimos cuadrados, regularización mediante detención temprana, dispersión, métodos proximales para ML, aprendizaje de múltiples núcleos, estabilidad, generalización, aprendizaje de salida múltiple, salida múltiple, representaciones de datos , aprendizaje profundo y más. Puedes ver una lista en:

http://www.mit.edu/~9.520/fall14/

Recomiendo encarecidamente la clase, el profesor Rosasco es un gran profesor y, junto con el profesor Poggio, contribuyen con una hermosa vista del aprendizaje automático (que es bastante único en mi opinión) y que definitivamente vale la pena aprender, incluso si es solo como un oyente.

(como comentario adicional, algunos de mis amigos me “molestaron” diciendo que en realidad estaba tomando una clase de “matemáticas” porque no estaban familiarizados con los símbolos / conceptos del análisis funcional que usé. Siempre les dije que, realmente no es una clase de matemáticas, no como un insulto ni nada (¡las matemáticas son increíbles!), pero las personas que tienen una exposición real a la clase de matemáticas reales, como un análisis real, reconocerán de inmediato que esta clase, aunque abstracta, no fue lo suficientemente rigurosa a lo que será / debería ser una clase real de matemáticas. En este sentido, era un poco extraño que 9.520 no fuera una clase conjunta con el departamento del curso 6).