¿Qué conceptos en aprendizaje automático te tomaron mucho tiempo en comprender?

La compensación de la variación de sesgo.

Por lo general, veo la compensación de BV explicada en términos de elegir la capacidad del modelo que minimiza el error en los datos de prueba. También he visto el ejemplo visual de disparar a un objetivo y observar la extensión y la concentración de los agujeros de bala utilizados para describir la compensación de BV (ver Figura 1 en Comprender la compensación de variación de sesgo, el mejor artículo que he visto sobre el tema) . Si bien podría ajustar un modelo bastante bueno en la práctica o recrear la figura descrita anteriormente de memoria, nunca sentí que “lo entendí”.

No fue hasta que estaba leyendo un libro de consultoría de gestión, de todas las cosas, cuando me encontré con una línea que hacía que las cosas “encajaran” en mi mente. El autor estaba usando el ejemplo de una cocina como una metáfora para describir las complejidades de trabajar en un negocio moderno.

Dijo que la razón para usar una cocina era porque “nuestra experiencia de cocina es completa y contenida”.

Los conceptos de integridad y contención capturan los conceptos de varianza y sesgo, respectivamente. Desde entonces, descubrí que pensar en los datos y los sistemas en términos del rango de experiencias que pueden atravesar y los factores que contienen (o son representantes) de la influencia causal en los resultados ha contribuido en gran medida a informar mi intuición sobre el modelado problemas. Específicamente, qué tipos de datos son necesarios y los enfoques de modelado que pueden ser apropiados para diferentes problemas, así como qué fuentes de error de modelado podemos encontrar.

Aquí hay dos conceptos que me llevaron mucho tiempo comprender (todavía estoy aprendiendo estos y estoy lejos de ser un experto).

  • ¿Cómo funciona la optimización del hiperparámetro [2] bayesiano [léase Bayesiano [1]]?
  • ¿Cómo funciona el apilamiento [3] (para crear modelos de varias capas)?

Para el primer tema, he organizado una charla [4] que trata un poco sobre el tema. Para el segundo, estoy planeando una publicación de blog en el futuro (distante).

Probablemente existan otros conceptos “duros”, pero aún son incógnitas desconocidas por ahora. Probablemente se trate de los campos del aprendizaje por refuerzo [5], las redes neuronales recurrentes [6] y las redes adversas generativas [7] en las que soy un principiante completo.

Espero que esto ayude.

Notas al pie

[1] Probabilidad bayesiana – Wikipedia

[2] Hiperparámetro (aprendizaje automático) – Wikipedia

[3] Ensemble learning – Wikipedia

[4] yassineAlouini / optimización de hiperparámetros

[5] Aprendizaje de refuerzo – Wikipedia

[6] Red neuronal recurrente – Wikipedia

[7] Redes de confrontación generativas – Wikipedia

Solo comencé con ML hace 3 meses y tengo una gran experiencia matemática (matemática mucho más pura que la aplicada), por lo que solo he encontrado una pequeña fracción de los conceptos y tengo una gran ventaja para comprenderlos rápidamente. De las cosas con las que me he encontrado, nada me ha llevado demasiado tiempo entender, pero una cosa me llevó mucho más tiempo del que debería. Durante tres minutos seguidos miré la pantalla preguntándome por qué demonios no aplicamos la regularización al término de sesgo en una regresión lineal. Obviamente, tres minutos no es mucho tiempo, pero por un concepto tan simple, me sentí un poco tonto.

En caso de que alguien que lea esto tenga el mismo bloqueo cerebral que yo, es porque no queremos penalizar más el modelo solo porque la media de la variable exógena es mayor. Si desea predecir Y o Y + 7 no debería afectar su precisión.

Creo que voy a actualizar la respuesta mientras esté aprendiendo.

  1. normalización de lotes [1].
  2. inicialización de las neuronas ReLu según He et al [2].

Notas al pie

[1] Acelerar el entrenamiento de redes profundas al reducir el cambio interno de covariable

[2] Superando el rendimiento a nivel humano en la clasificación de ImageNet

Razones de probabilidad. No los entendí en mi curso de estadística matemática. No los entendí en la escuela de posgrado. Finalmente entiendo que no hay nada misterioso sobre ellos. Son simplemente proporciones de modelos que prueban si un modelo es mejor que otro. Y pueden usarse para probar modelos de aprendizaje automático, así como modelos lineales generalizados o distribuciones de probabilidad.

Inferencia variacional

Procesos gaussianos

Cadena Markov Monte Carlo