¿Qué tan significativo es el artículo de FractalNet?

Probablemente sea demasiado temprano para llamar ya que ha estado en arxiv por menos de tres meses. Además, solo he leído el resumen. Sin embargo, supongo que no es especialmente significativo, principalmente porque el resumen afirma mejores resultados en un solo conjunto de datos, y ese conjunto de datos, CIFAR-100, no es tan popular y competitivo como CIFAR-10 o ImageNet. Pero para ser justos, no debe juzgar este documento hasta que lo haya leído usted mismo o haya escuchado a alguien que lo haya leído; Solo estoy deduciendo del resumen que no es un avance importante.

Un artículo relacionado que creo que es más significativo es este: [1603.09382] Redes profundas con profundidad estocástica

El documento de profundidad estocástico tiene un significado más amplio porque muestra que los modelos profundos que no caen bajo el paradigma de “redes neuronales profundas aprenden una representación diferente en cada capa” pueden funcionar realmente bien. Esto proporciona mucha evidencia a favor del paradigma de “las redes neuronales profundas aprenden un programa de múltiples pasos”. Anteriormente, las personas eran conscientes de ambas interpretaciones. La mayoría de los modelos de aprendizaje profundo podrían describirse por ambos paradigmas igualmente bien, pero creo que la interpretación del aprendizaje de representación fue más popular (teniendo en cuenta que una de las principales conferencias de aprendizaje profundo se llama Conferencia Internacional sobre Representaciones de Aprendizaje). El documento de profundidad estocástico muestra que puede tener una representación única que se actualiza mediante muchos pasos de un programa y que funciona realmente bien. También muestra que solo es útil dejar que este programa se ejecute más tiempo, incluso si no fue entrenado para ejecutarse durante tanto tiempo. Esto sugiere que la interpretación del programa de varios pasos relativamente descuidada puede haber sido la más importante todo el tiempo.

More Interesting

¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?

¿El aprendizaje profundo hará que otros algoritmos de aprendizaje automático sean obsoletos?

¿Cuáles son los pros y los contras del aprendizaje en línea y fuera de línea? ¿En qué escenarios son útiles cada uno?

¿Qué aplicaciones iOS usan TensorFlow del lado del cliente?

¿Existen demostraciones efectivas de relevancia semántica?

¿Existe alguna implementación para un clasificador incremental que pueda ejecutarse en un espacio dinámico de características, lo que significa cuando aparecen nuevas características?

¿Qué es la curva de recuperación de precisión (PR)?

Cómo estructurar sus proyectos de aprendizaje automático

¿ISRO utiliza una inteligencia artificial?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

¿Cuál es la intuición para usar tocones de decisión en el aprendizaje automático?

¿Podría la red neuronal de convolución completa aprender a discriminar entre clases si no hay muestreo descendente y la entrada es igual a salida?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?