¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?

¡Estaba empezando a preguntarme por qué nadie había hecho esta pregunta antes! Creo que es porque 9.520 no es una clase muy “conocida” o “popular” en el MIT. Antes de inscribirme, ni siquiera sabía que existía. Sin embargo, me alegro de haberlo hecho, una de las mejores clases que he tomado.

La clase es muy abstracta en el sentido de que presentan el material de una manera matemáticamente “pura”. Algunas personas podrían argumentar que algunas partes son muy teóricas, y estoy de acuerdo, sin embargo, durante el semestre te muestran cómo diseñaron los algoritmos que te están enseñando y su derivación puede ser difícil, pero algunos de ellos son muy fáciles de entender. implementar.

El término lo tomé, el profesor Rosasco hizo un excelente trabajo al explicar los “resultados fundamentales en la teoría del aprendizaje estadístico”. Esta es una forma muy comprimida de decir que nos mostró, de abajo hacia arriba, cómo se derivó la definición de capacidad de aprendizaje, comenzando por cómo las personas intentaron definir el algoritmo “maestro” que podía aprenderlo todo y cómo conducir a una definición diferente de capacidad de aprendizaje y el algoritmo para lograr la capacidad de aprendizaje. Las personas familiarizadas con la teoría del aprendizaje estadístico probablemente lo conocen como el “teorema del almuerzo sin almuerzo” y cómo esto, junto con otros resultados como el teorema de probabilidad de Glivenko Cantelli, etc., conducen a ERM (relacionado con las dimensiones VC y otras cosas) como el algoritmo de elección para lograr la capacidad de aprendizaje. De todos modos, básicamente justifican por qué todo lo que nos enseñarán en el semestre tiene sentido y por qué está justificado.

Luego continúan enseñándole la regularización junto con ERM y cómo cambiar la regularización realmente puede afectar los diferentes tipos de funciones que aprende. Una de las mejores cosas que nos enseñaron fue cómo puede derivar SVM de la regularización de Tikhonov simplemente cambiando la función de pérdida para que sea la pérdida de bisagra. Esto era tan hermoso y simple y no requería comprensión de los duales ni cosas por el estilo. Era una vista completamente diferente de SVM y era realmente simple. De todos modos, para mí, sentí que realmente nos enseñaron cómo diseñar algoritmos de aprendizaje automático cambiando la función de pérdida o el parámetro de regularización, algo que realmente no sentí que aprendí en otras clases. En otras clases sentí que simplemente nos dieron un libro de cocina con cosas que funcionan o algo así, sin las increíbles justificaciones presentadas en esta clase.

De todos modos, también nos enseñan sobre los métodos de Kernel y la reproducción de espacios de Kerbert Hilbert y fue genial ver cuán general está relacionado el concepto de productos internos, vectores de características y núcleos con el análisis funcional. Esta fue una de las partes muy abstractas, pero el personal proporciona notas detalladas que explican todos los antecedentes matemáticos (y el pensamiento abstracto) que esperarán.

Curiosamente, la clase es definitivamente conceptualmente bastante difícil (porque puede ser muy abstracta). Cuanta más madurez matemática tengas, mejor. Además, realmente no lo recomendaría como la primera clase de aprendizaje automático que uno debería tomar. Podría ser abrumadora conceptualmente y creo que sin las otras clases que tomé, no lo hubiera disfrutado tanto. Sin embargo, la clase solo tiene dos conjuntos de problemas cuando la tomé. Te dan dos semanas, 4 preguntas teóricas o derivaciones y 1 componente de programación (en matlab). De hecho, pensé que los conjuntos de problemas eran muy manejables, especialmente porque nos dan dos semanas. También asistieron como parte de la clase y hubo un proyecto final que tampoco fue muy difícil. Las opciones eran: escribir un artículo de Wikipedia sobre su tema favorito, presentar “preguntas y soluciones para problemas” o algún problema de investigación abierto. Siento que la mayoría de la gente tomó el artículo de Wikipedia porque es la opción más fácil. Es tedioso, pero definitivamente ayuda a aprender mejor el material.

La clase realmente no tenía horario de oficina, a menos que los solicitaras, algo que no me gustó del todo. Además, la clase no tenía recitaciones. Siento que habría aprendido aún más si lo hiciera … oh, bueno.

Para darle una idea de las cosas que enseñaron, déjenme darles una lista. Enseñan a partir de resultados fundamentales en la teoría del aprendizaje estadístico, regularización, mapas de características, RKHS, mínimos cuadrados, regularización mediante detención temprana, dispersión, métodos proximales para ML, aprendizaje de múltiples núcleos, estabilidad, generalización, aprendizaje de salida múltiple, salida múltiple, representaciones de datos , aprendizaje profundo y más. Puedes ver una lista en:

http://www.mit.edu/~9.520/fall14/

Recomiendo encarecidamente la clase, el profesor Rosasco es un gran profesor y, junto con el profesor Poggio, contribuyen con una hermosa vista del aprendizaje automático (que es bastante único en mi opinión) y que definitivamente vale la pena aprender, incluso si es solo como un oyente.

(como comentario adicional, algunos de mis amigos me “molestaron” diciendo que en realidad estaba tomando una clase de “matemáticas” porque no estaban familiarizados con los símbolos / conceptos del análisis funcional que usé. Siempre les dije que, realmente no es una clase de matemáticas, no como un insulto ni nada (¡las matemáticas son increíbles!), pero las personas que tienen una exposición real a la clase de matemáticas reales, como un análisis real, reconocerán de inmediato que esta clase, aunque abstracta, no fue lo suficientemente rigurosa a lo que será / debería ser una clase real de matemáticas. En este sentido, era un poco extraño que 9.520 no fuera una clase conjunta con el departamento del curso 6).

More Interesting

¿Cómo entrenamos redes neuronales en datos numéricos?

¿Existe algún programa que pueda ajustar computacionalmente funciones armónicas esféricas en un conjunto de datos?

¿Cómo se puede modelar la interacción Radar y Jammer a través del aprendizaje automático?

Además de las universidades mejor clasificadas (# 1-20), ¿qué otra universidad ofrece un buen programa de maestría en informática con especialización en IA / ML en EE. UU.?

¿Por qué los NN recurrentes son tan susceptibles al problema del gradiente de fuga?

¿Cómo calcularía el ROI del uso de Big Data y el aprendizaje automático en los productos de la compañía?

¿Necesito tener grupos similares en una regresión de diferencia en diferencia?

¿Cuál es la capacidad del aprendizaje automático? Quiero decir, ¿cuánto puede 'aprender' una máquina?

¿Qué tan buena será una carrera en IA / aprendizaje automático en el futuro?

¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?

Astronomía: ¿Cómo se puede usar el aprendizaje automático para la clasificación de galaxias?

¿Cómo se puede utilizar el aprendizaje automático para la transcriptómica?

¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

¿Cuál es la diferencia entre aprendizaje automático, minería de datos y recuperación de información?