¿Cuál es una buena definición de Generalización wrt Deep Learning?

No es fundamentalmente diferente de la definición de “generalización” para otros tipos de aprendizaje automático:

  1. alguien (“naturaleza”) tiene una distribución de probabilidad a sus espaldas; no le dirán qué es, pero están dispuestos a proporcionar muestras individuales de esa distribución;
  2. dadas esas muestras, está intentando
    1. “Adivinar” cuál es la distribución (y por “adivinar” me refiero a capturarla en una forma que le permita tomar muestras de ella a voluntad, sin necesidad de la “naturaleza” real de nuevo), mientras
    2. suponiendo que dicha distribución es estable en el tiempo, de modo que los resultados de este “aprendizaje” continuarán siendo útiles durante algún tiempo.

Eso es todo. Conocer la distribución de probabilidad es suficiente para cualquier tipo de consulta que pueda tener sobre el problema en cuestión.

El aprendizaje profundo captura la distribución en un gráfico calculador. Esa forma es conveniente y es probablemente la mejor opción para una solución de forma cerrada. La elección de ir “profundo” permite que el gráfico represente algunas funciones que no son accesibles para alternativas “superficiales” con el mismo número de grados de libertad.

More Interesting

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Cuál es el mejor lenguaje de programación para el aprendizaje automático? ¿Qué idioma es mejor para programar microcontroladores y otras partes de hardware?

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

¿Qué debo hacer para pasar de la bioinvestigación al aprendizaje automático de manera muy eficiente?

¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

¿Cuáles son algunas redes neuronales diferentes que podrían usarse como algoritmos de control en cuadricópteros autónomos?

Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

¿Cuáles son las áreas más activas de investigación de aprendizaje automático para la aplicación de datos tabulares? Mis datos están en forma de CSV con unos pocos miles de instancias.

¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

¿Cuáles son algunos buenos proyectos de aprendizaje automático que implican el uso de estructuras de datos y tienen aplicaciones de la vida real y se pueden hacer en 2-3 semanas?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

¿Qué significa 'clasificación' en la discusión del reconocimiento de patrones?

¿Cuál es la diferencia entre el aprendizaje por refuerzo y la optimización de caja negra?