¿Por qué el aprendizaje profundo funciona tan bien en el mundo real?

Creo que si puedo hablar sobre las reservas de las personas sobre por qué el Aprendizaje Profundo podría no funcionar realmente bien en el mundo real, estaría haciendo lo mismo que por qué funciona en el mundo real.

  1. La extracción automatizada de características no puede superar la capacidad de los humanos para detectar características: eso es cierto para un menor número de dimensiones donde los humanos pueden detectar características importantes (o ejecutar métodos matemáticos para determinar características importantes), pero en casi todos los problemas con datos de alta dimensión, aprendizaje profundo los métodos han derrotado a los métodos de selección de funciones manuales sin dudas. De hecho, la revolución de Deep Learning comenzó cuando los métodos de Feature Learning fueron derrotados por el algoritmo ALexNet en imagenet2012.
  2. Gradient Decent no tiene garantía para converger en mínimos globales: Sí, no tiene garantía. En su mayoría podemos obtener un mínimo local, lo que resulta es que el mínimo local no es tan malo. Según https://arxiv.org/pdf/1412.0233.pdf, la mayoría de los mínimos locales son lo suficientemente buenos y se ven como mínimos globales. También son menos y el verdadero problema es quedar atrapado en la silla de montar y no en los mínimos locales. https://arxiv.org/pdf/1405.4604.pdf
  3. ¿Se generalizarán fuera del conjunto de entrenamiento? Otra cosa es qué tan bien las redes neuronales se generalizan fuera de su conjunto de entrenamiento. Las redes neuronales convergen en mínimos agudos y no en mínimos amplios, y eso podría ser un caso adecuado para el conjunto de datos heteroscedasticos que tenemos. De acuerdo con https://arxiv.org/pdf/1703.04933…. Resulta que la relación de los mínimos generales con algoritmos generalizables no está exactamente establecida y las arquitecturas bien formadas de mínimos precisos también pueden generalizarse.
  4. Todavía hay cosas como https://arxiv.org/pdf/1611.03530… que la comunidad de Neural Network tiene que resolver. Los autores muestran que las Redes Neurales memorizan las entradas y, por lo tanto, son difíciles de generalizar (ya que tenderán a fallar incluso en variaciones considerablemente pequeñas de las pruebas del entrenamiento). Creo que esta es la razón por la cual las redes neuronales de hoy solo funcionan en grandes conjuntos de datos. Todavía no tenemos redes que puedan aprender a relacionar imágenes con la cantidad de datos que los humanos tienen.

Todos somos conscientes de que el mundo real implica complejidades. La no linealidad en el mundo real es tan compleja que realizar una ecuación de orden superior se vuelve más desafiante. Pero con las redes neuronales profundas es más fácil darse cuenta de relaciones no lineales y altamente complejas. Cuanto más compleja sea nuestra arquitectura NN, más aprendizaje profundo puede lograr.

Tiene en cuenta las ‘probabilidades’ / ‘posibilidades’.