¿Qué tan bien funcionará una GTX 1060 en Windows para el aprendizaje profundo?

Tuve una computadora portátil con Windows 10 y una GTX 1060, así que decidí hacer una pequeña prueba de velocidad.

Aquí están las especificaciones de mis procesadores:

UPC
Intel Core i7-6700 de cuatro núcleos a 2,60 GHz

GPU
NVIDIA GTX 1060 6GB GDDR5 @ 8.1 Gbps, 1920 núcleos CUDA, reloj de 1809 MHz

Para el experimento, utilicé la biblioteca CNTK de Microsoft en el conjunto de datos MNIST de enteros escritos a mano, que es un punto de referencia bien conocido. Utilicé una red de feedforward simple que está predefinida en uno de los tutoriales que se envían con CNTK.

Topología de la red
Entrada: 784 características (28 × 28 píxeles)
Capas ocultas: 400 neuronas para cada capa
Salida: 10 neuronas (una por cada dígito)

El conjunto de entrenamiento tiene 60 000 muestras. Hice 10 barridos sobre el conjunto de entrenamiento en mini lotes de 64 muestras para un total de 600 000 muestras en 9375 mini lotes. Aquí están los tiempos de entrenamiento con diferentes números de capas ocultas.

2 capas ocultas
CPU: 40 segundos
GPU: 10 segundos (4 veces más rápido)

4 capas ocultas
CPU: 59 segundos
GPU: 12 segundos (5 veces más rápido)

10 capas ocultas
CPU: 115 segundos
GPU: 19 segundos (6 veces más rápido)

MNIST no es un conjunto de datos muy grande. Tampoco la red era particularmente profunda. Sin embargo, es un aprendizaje profundo, y creo que el experimento muestra que la GTX 1060 puede ser una herramienta efectiva para ese propósito.

Por cierto, la red con 2 capas ocultas logró una tasa de error del 1,7% en el conjunto de prueba. Bastante bueno para un modelo que tardó 10 segundos en entrenar.

More Interesting

¿Cómo es el curso de aprendizaje automático NPTEL?

¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?

¿Cuál es la diferencia entre un sistema experto y el aprendizaje automático?

¿Cuál es el mejor algoritmo para descubrir todos los nodos de la red y mantener esa red en tiempo real?

¿Qué datos puedo recopilar y hacer un procesamiento de Big Data para diagnosticar en mis sistemas?

¿Qué es la regresión no lineal vs regresión lineal?

En una unidad LSTM, ¿cuál es la razón detrás del uso de una activación de tanh?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Cómo se puede reducir el tamaño del modelo TFIDF sin reducir significativamente la precisión?

¿Existe alguna relación entre el aprendizaje automático y el campo de la electrónica analógica o digital?

¿Cuáles son las configuraciones adecuadas para la agrupación de documentos con K-means?

Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?