¿Para qué tipo de problemas de aprendizaje automático no sería adecuado el aprendizaje profundo?

Existen algunas limitaciones obvias de los NN que restringen el tipo de problemas a los que se pueden aplicar:

Hambriento de datos : este es el obvio, mencionado por otros. Para entrenar NNs, necesita grandes cantidades de datos. ¿Qué haces cuando tienes muy pocos datos? Aquí hay un conjunto estándar de conjuntos de datos de referencia: UCI Machine Learning Repository: conjuntos de datos. Elija cualquier conjunto de datos de este conjunto con menos de 1000 ejemplos de entrenamiento e intente entrenar un NN que supere a SVM en esos datos por un amplio margen. Este es, con mucho, el punto más importante en mi opinión.
Las CNN requieren propiedad espacial : la operación de convolución realiza una operación en un conjunto de píxeles o una secuencia de palabras / señales de audio cercanas. Mezclar los píxeles / palabras / señales de audio cambiará completamente la salida de la CNN. Es decir, el orden de las características es importante o, en otras palabras, la convolución es una operación “espacial”. Los métodos convencionales como SVM no se ven afectados por la combinación aleatoria de características. Por lo tanto, los problemas que no tienen la propiedad espacial no se beneficiarán de las CNN.
Menos interpretable : muchas veces, tiene poca idea de lo que sucede dentro de la red, en particular, en las capas más cercanas a la salida. Esto nuevamente los hace más difíciles de mejorar, ya que no sabes mucho sobre lo que está mal. Entonces, con aplicaciones sensibles donde la vida humana o algo muy valioso está en juego, las personas no estarían dispuestas a usar redes neuronales profundas.
Configuración más larga : a menos que esté haciendo algo muy similar a ImageNet, no encontrará un modelo previamente entrenado en la web. Por lo tanto, tendrá que escribir una cantidad significativa de código para capacitar y evaluar un modelo NN razonable, incluso cuando se base en los marcos de aprendizaje profundo estándar. Con métodos como SVM, solo descarga LibSVM y puede comenzar a entrenar sus modelos en unos minutos. Entonces, dependiendo de la aplicación, si no vale la pena gastar tanto tiempo para obtener ese pequeño aumento de rendimiento, los métodos convencionales podrían preferirse a las NN.
Pequeña restricción de memoria : a menudo, los tamaños de los modelos de aprendizaje profundo se encuentran en decenas a cientos de MB. Entonces, si la predicción debe hacerse en dispositivos de memoria pequeños como teléfonos móviles, los métodos convencionales podrían preferirse debido a los tamaños de modelo más pequeños.

(Basado en la respuesta de Prasoon Goyal a ¿Por qué todavía se usa SVM en el aprendizaje automático cuando las redes neuronales son mucho más precisas?)

Aprendizaje automáticoAprendizaje profundoinformática

¿Cuáles son las aplicaciones del error cuadrático medio?

¿Cuál es la diferencia entre Deep Autoencoders y Deep Belief Networks?

¿Cómo se usa la pérdida de peso para la regularización en las redes neuronales?

¿Qué es un clasificador transductivo?

¿Es MBA con 256 GB de almacenamiento y i7 (8 gb de ram) a prueba de futuro para al menos 2020?

¿Por qué mi Macbook Air se ha vuelto significativamente más lenta a pesar de que no tengo prácticamente nada?

Aquí hay algunos casos en los que no querrías hacer un aprendizaje profundo:

El aprendizaje profundo necesita muchos puntos de datos. Si tiene unos pocos miles de puntos de datos, el aprendizaje profundo generalmente no funcionará.
Los sistemas de aprendizaje profundo son esencialmente máquinas de aproximación de funciones. Al igual que los métodos de aprendizaje automático anteriores, no pueden ayudarlo a decidir la cuestión de la causalidad de si A causa B (A → B). En todo caso, el aprendizaje profundo aumenta las posibilidades de descubrir correlaciones espurias. Recientemente leí un artículo que trataba el problema de predecir si A → B o B → A como un problema de clasificación binaria y utilicé el aprendizaje profundo para “resolverlo”. Esto es ciencia falsa.
Grandes problemas económicos como predecir la próxima recesión. Los sistemas económicos son sistemas de agentes múltiples excepcionalmente complejos y frágiles, cargados de paradojas conductuales y decisiones irracionales. Los mecanismos deficientes del mercado pueden llevar a los agentes adversarios a mentir u ocultar sistemáticamente la información que cualquier sistema de aprendizaje necesita capacitar. Es difícil predecir todas las formas en que las cosas pueden salir mal antes de que comience a ir cuesta abajo.
Descubrimientos creativos que son tan raros como una aguja en un pajar. Si desea buscar una cura para el cáncer, el aprendizaje profundo por sí solo no lo hará, al contrario de todo el bombo publicitario. Por ejemplo, las aplicaciones para el descubrimiento de fármacos se han estilizado cuidadosamente en experimentos de predicción (Aplicaciones de aprendizaje profundo para predecir las propiedades farmacológicas de los fármacos y la reutilización de fármacos utilizando datos transcriptómicos).

Abhinav Maurya

Además de los requisitos para la cantidad de datos, algunos problemas de aprendizaje automático pueden no necesitar un enfoque de aprendizaje profundo. Creo que la siguiente definición de aprendizaje profundo lo explica bastante bien:

[Los métodos de aprendizaje profundo son] ” métodos de aprendizaje de representación con múltiples niveles de representación, obtenidos mediante la composición de módulos simples pero no lineales que transforman la representación en un nivel (comenzando con la entrada sin formato) en una representación en un nivel más alto, un poco más nivel abstracto “(Y. LeCun, Y. Bengio y G. Hinton,” Aprendizaje profundo “, Nature 521, 436–444 (2015))

En otras palabras, con el aprendizaje profundo, somos estructuras de entrenamiento que aprenden múltiples niveles de representaciones de cosas. Por ejemplo, considere una imagen de una bicicleta. El primer nivel de representación son los bordes en la imagen de una bicicleta y la primera capa de la red lo aprende. La segunda capa aprendería formas básicas (como la curva de un neumático). Y así sucesivamente. En algunas capas más, la red estaría aprendiendo representaciones de neumáticos, ruedas, etc. Y la capa final combina todas estas representaciones para aprender la representación de la bicicleta.

Muchos problemas de aprendizaje automático pueden no requerir aprender tales representaciones de nivel militar. Por ejemplo, si desea tener un clasificador lineal (lo que significa que la clasificación se realizará en base a combinaciones lineales de las características de entrada), entonces no necesita ningún aprendizaje profundo.

Para resumir, si el problema que desea resolver no involucra representaciones de niveles múltiples, entonces no necesita un aprendizaje profundo.

Prasoon Goyal

Descargo de responsabilidad: no soy un experto en aprendizaje profundo.

Dicho esto, lógicamente, un factor es el tamaño y la complejidad de los datos. Si los datos tienen menos de 500,000 registros y menos de 30 características, el aprendizaje profundo probablemente no sea una buena opción. Con un conjunto de datos pequeño es muy difícil para los algoritmos aprender las características. Es probable que el algoritmo también se ajuste demasiado.

Una de las razones por las cuales el aprendizaje profundo ha tenido un impacto en los últimos años es la cantidad de datos y el poder de procesamiento que tenemos a nuestra disposición.

Abhinav Maurya

Cuando aplica el aprendizaje profundo a las imágenes faciales, funciona muy bien para la extracción de características, pero ¿qué sucede si proporciona datos en formato de texto como la distancia entre las cejas y el radio de los ojos? Creo que allí causaría problemas.

Por favor, corríjame si estoy equivocado. Una vez asistió a un seminario y escuché allí.

PD: – No estoy en el aprendizaje profundo.

Prasoon Goyal

More Interesting

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

¿Cuál es la diferencia entre Bayes ingenuo y la entropía máxima?

¿Cuáles son las ventajas de ReLU sobre softmax en la red neuronal profunda?

He implementado con éxito el Descenso de gradiente estocástico y el Descenso de gradiente más pronunciado en C ++. ¿Qué puedo hacer a continuación?

Si solo aumento el número de capas de Neural Net simple con alguna función de activación, ¿lo convierte en Deep Learning?

¿Qué hace que una red neuronal convolucional sea excelente?

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Cuál es la mejor tarea para las redes neuronales en 2017 y tal vez para los próximos 5 años?