¿Puede haber mejoras en el tiempo de ejecución al usar GPU para la red neuronal incluso si el conjunto de datos es de baja dimensión?

* A2A *

Respuesta corta:

Para elaborar, debe comprender que cualquier red neuronal en cualquier dato es básicamente un grupo de multiplicaciones matriciales intercaladas con no linealidades como ReLU o tanh ().

Por lo tanto, está buscando realizar las mismas operaciones de coma flotante en filas, columnas o incluso toda la matriz (o tensor). Las GPU son básicamente muchas CPU menos potentes (sin puertas lógicas, por ejemplo) juntas en una tarjeta con memoria compartida. Por lo tanto, cualquier cálculo que tenga una aplicación repetida de la misma operación se acelera.

Cuando se entrena NN superficial con datos de baja dimensión, el alcance de la aceleración puede ser pequeño en términos de segundos porque las CPU modernas tienen un soporte limitado para operaciones paralelas (operaciones vectoriales). Sin embargo, definitivamente no es cero.

Sí.

Las capas ocultas no necesitan ser más estrechas que la capa de entrada.

Sí, solo significa que sería más factible en cpus, pero definitivamente mucho más rápido en gpus.

More Interesting

¿Puedo usar el aprendizaje automático para pronosticar datos de series temporales para puntos de datos discretos dispersos?

¿Se mejorará la mayor ganancia en el reconocimiento de objetos en los algoritmos de representación y aprendizaje, en lugar de modelos simples y datos más grandes?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

¿Qué es una red neuronal bayesiana?

¿Cuáles son las diferentes áreas donde los bancos pueden usar NLP (procesamiento del lenguaje natural) para mejorar las operaciones comerciales?

¿Cómo debo aprender el aprendizaje automático? ¿Puede proporcionar una hoja de ruta específica desde un principiante hasta un experto?

¿Por qué Google TensorFlow usa OpenCL y no OpenGL? ¿Cuáles son las ventajas?

¿Cuál es la solución del ejercicio 1.3 del libro Machine Learning de Tom M. Mitchell?

Al entrenar a un clasificador, ¿cómo trato con clases que tienen números muy diferentes de muestras en el conjunto de entrenamiento? ¿Cómo evito un ajuste excesivo en la clase que tiene la mayor cantidad de muestras?

¿Cuál es la relación entre IA, aprendizaje automático y ciencias de la computación? ¿Hay especializaciones en IA o aprendizaje automático, o son especializaciones en informática?

Cómo derivar la propagación hacia atrás desde la segunda capa de convolución

¿Es posible conseguir un trabajo en Machine Learning sin experiencia laboral?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?

¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?