¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

Depende de la definición de trabajar en el aprendizaje profundo: si la intención es jugar con diferentes arquitecturas para resolver un problema específico, entonces no necesita muchos conocimientos matemáticos para comenzar a trabajar en el aprendizaje profundo. La mayoría de los kits de herramientas en estos días vienen con ejemplos de diferentes arquitecturas, diferenciación automática y funciones de pérdida predefinidas. Por lo tanto, todo lo que se necesita es definir la arquitectura y el boom de la red: tiene un modelo poderoso que espera ser entrenado. Debe conocer los conceptos básicos de la multiplicación de matrices y un conocimiento superficial de la regla de la cadena (también conocida como retropropagación) para poder definir una buena arquitectura. También debe tener algunos conocimientos de aprendizaje automático para descubrir qué arquitectura se adapta a su problema y datos. Pero aparte de eso, el aprendizaje profundo es tan plug and play como el aprendizaje automático puede obtener.

Si desea desarrollar nuevos algoritmos, debe profundizar en las estadísticas y la optimización: cuáles son las causas de las soluciones subóptimas, por qué funciona una determinada arquitectura, por qué algunas funciones de pérdida son adecuadas para ciertos tipos de problemas, y así en. Esto lo ayudará a desentrañar la caja negra del aprendizaje profundo y luego podrá comenzar a escribir algoritmos novedosos que aborden su problema específico.

En general, encontrará métodos de optimización y cálculo diferencial multivariable como el descenso de gradiente.

Para calcular el gradiente de la función de ‘aptitud’ (pérdida) de una red neuronal a los datos de entrenamiento, es importante comprender la regla de la cadena para derivados multivariables. La propagación hacia atrás (utilizada durante el entrenamiento) se basa esencialmente en la regla de la cadena.

Actualización: también necesitará algo de álgebra lineal (operaciones de matriz y vector) y teoría de probabilidad.

More Interesting

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

¿Es un SVM o un clasificador MaxEnt apropiado para este escenario de clasificación de texto y por qué?

¿Qué lenguaje de programación se usa para el aprendizaje automático?

¿Cuál es el nuevo enfoque o idea en la tecnología de Vicarious Systems?

Estoy tratando de construir un proyecto de aprendizaje automático para predecir el precio del automóvil usado. ¿Dónde puedo obtener una base de datos para la reventa de los autos usados?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

Cuando la gente dice que la inteligencia artificial destruirá a la raza humana, ¿es que alguien los programará para que estén predispuestos a no gustarle la vida orgánica, o que de alguna manera adquirirán naturalmente las mismas emociones o algoritmos que lo llevan a uno a matar?

En términos simples, ¿cómo funciona Gibbs Sampling?

¿Cuáles son los ejemplos de redes neuronales profundas extremas (más de 150 capas)?

¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Puedo terminar en trabajos de aprendizaje automático si tengo una maestría en neurociencia?

¿Cuál es la relación entre la teoría de la Gestalt y el aprendizaje profundo?