¿Es una exageración aplicar un conjunto de redes neuronales?

¡Absolutamente no! Al menos no siempre. Lo estoy haciendo ahora mismo. En mi problema, tengo una imagen de 384 × 256 y necesito extraer información de movimiento muy compleja (una imagen en 3D pasa por una deformación no rígida y luego se proyecta en 2D y, para usarla, necesito reconstruir la imagen en 3D). Las CNN son excelentes para la mayoría de los datos de imágenes, pero cosas como el paso y la agrupación pierden muchos datos de movimiento. En cambio, estoy rompiendo la imagen en 96 parches 32 × 32 y entrenando una red simple en cada uno de ellos. Luego estoy aplicando un modelo lineal además de eso en lugar de simplemente promediar porque los parches son adyacentes y, por lo tanto, tendrán errores correlacionados.

Los parches individuales tienden a funcionar bastante bien en promedio, pero a veces pueden estar muy lejos. Al usar un conjunto de 96 de ellos, paso de un promedio de aproximadamente 10% de error a menos de .5% de error.

De acuerdo, supongo que es diferente porque mis redes se ejecutan con datos diferentes, pero aun así, el concepto es válido.

En términos más generales, puede encontrar que puede obtener el mismo poder predictivo que una red mucho más profunda y compleja mediante el uso de un conjunto de redes más superficiales y rápidas. También ayuda mucho a prevenir el sobreajuste. Es similar a lo que son los bosques aleatorios para los árboles de decisión.

Si está persiguiendo cada ventaja para maximizar el rendimiento de su modelo, no es exagerado. A modo de ejemplo, los comités de redes neuronales convolucionales lograron las tasas de error más bajas en el conocido punto de referencia de la base de datos MNIST.

En un entorno práctico, generalmente sería excesivo. La idea básica del ensamblaje es combinar varios estudiantes débiles en un estudiante fuerte. Sin embargo, las redes neuronales son aprendices muy fuertes, lo que significa que la ventaja adicional obtenida por el ensamblaje no será dramática. Obtener algo así como un rendimiento del 0.1% (como en el caso de MNIST) no es suficiente para garantizar la complejidad adicional de un conjunto en todas las situaciones, excepto en las más extremas. Por otro lado, las redes neuronales son cuadros negros complejos en primer lugar, por lo que la complejidad es difícil de evitar de todos modos.

Otra consideración es que las redes neuronales pueden ser muy caras de entrenar. Con los conjuntos, esto se multiplica.

Creo que no, a menos que el tamaño de su conjunto sea en millones, lo que probablemente no sea el caso. ¿Por qué creamos conjunto?

La fusión de clasificadores es otra técnica de creación de conjuntos en lugar de métodos de embolsado / refuerzo. Recientemente completé un trabajo donde entrené a diferentes autoencoders en diferentes canales de un acelerómetro y un giroscopio para la aplicación de detección de caídas. Descubrí que entrenar un gran autoencoder no funciona bien en comparación con el conjunto. Principalmente, la razón es que entrenar AE en diferentes canales demostró ser útil para aprender diversas características, lo que condujo a clasificadores diversos + precisos y su conjunto funcionó mejor.

No. Una red neuronal es una función básica como cualquier otro algoritmo de aprendizaje automático que puede “ensamblarse” en conjunto, donde el rendimiento agregado supera al de cualquier función básica individual en la expansión.

Si bien muchos incluso sostienen que muchas arquitecturas de redes neuronales son, de hecho, una especie de técnica de ensamblaje. No se puede discutir con el rendimiento bruto.

Los ganadores de la estrategia principal de COCO 2016 fue un conjunto de redes neuronales . Eligieron 5 redes neuronales que compensan estratégicamente la debilidad del otro. Ganaron, principalmente porque usaron el conjunto correcto.

La respuesta es no 🙂

No creo que sea excesivo aplicar el conjunto en la red neuronal, si realmente quieres obtener la máxima precisión. Una cosa a tener en cuenta es que la aplicación del conjunto lleva bastante tiempo, por lo que puede ser demasiado lento si su negocio u objetivo requiere velocidad. Si necesita precisión y velocidad, es posible que deba invertir en un servidor de alto rendimiento.

No, particularmente si tienen diferentes funciones de mapeo o componentes estructurales. La diversidad es clave en el aprendizaje conjunto.

Definitivamente no es una exageración. De hecho, es probable que le brinde una ligera mejora, por lo que si busca el mejor rendimiento, puede valer la pena intentarlo.

More Interesting

¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?

¿Por qué el aumento de gradiente funciona tan bien para tantos problemas de Kaggle?

En una unidad LSTM, ¿cuál es la razón detrás del uso de una activación de tanh?

¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Cuál es el mejor método de selección de características cuando los datos del tren tienen más características que el número de puntos de datos? ¿Asumir que los datos son muy grandes?

¿Cuáles son algunos chatbots de IA de código abierto que usan aprendizaje automático?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Le resulta aburrido resolver los problemas de aprendizaje automático tipo kaggle intelectualmente aburrido (en comparación con la programación competitiva, por ejemplo)?

¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

¿Por qué se le da tanta atención a xgboost que al aprendizaje profundo a pesar de su ubicuidad en ganar soluciones de Kaggle?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

Minería de datos: utilizando el análisis de la cesta de la compra para el pronóstico de ventas, ¿cuál es el mejor algoritmo?