¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?

No me preocuparía demasiado por eso, si solo estás aprendiendo, es decir, no tu red. 🙂 [Tengo una respuesta similar más larga en otro lugar si quieres desenterrar …]

Cualquier CPU es utilizable. Algunas bibliotecas usan GPU *, generalmente (¿siempre?) Opcionalmente, de modo que cualquier PC funcionaría, por ejemplo, con TensorFlow.

Google tiene Unidades de procesamiento de tensor (TPU) que hicieron para su TensorFlow. Sería ideal para eso … pero no puedes comprarlos de todos modos; solo podrás usarlos en “la nube”.

Si cree que necesita entrenar / procesar muchos datos, tenga en cuenta que no necesita localmente y, por ejemplo, Amazon también tiene máquinas con GPU en alquiler.


Una configuración industrial (como lo que hace Google a escala internamente) no solo tiene una GPU, sino muchas, por lo que no puede competir con eso tampoco. Más solo hará el trabajo más rápido, por lo que solo necesita una, si eso.


* Una GPU no puede hacer nada que una CPU no puede hacer, en teoría, por lo que no son estrictamente necesarios. Sin embargo, si habilita el soporte de GPU en su biblioteca, está hecho para GPU, no para su CPU, por lo que una GPU específica podría funcionar mejor que otras. Es posible que se necesite soporte de CUDA, es decir, Nvidia, e incluso uno que no sea antiguo, ya que el controlador que necesita no los admitirá. No estoy al día con las mejores GPU que desea obtener la mejor velocidad o realmente trabajar por encima de lo que le da la CPU.

La otra publicación es acertada.

Si está aprendiendo, entonces la mayoría de las computadoras portátiles tienen mucho jugo para construir modelos pequeños con fines de capacitación.

Para las ANN del mundo real, la respuesta suele ser un proveedor de la nube. Tenga en cuenta que casi todas sus redes neuronales del mundo real están supervisadas, por lo que deberá almacenar sus datos en algún lugar.

La extracción de datos del disco para cualquier propósito suele estar vinculada al subsistema. Eso significa que no solo el modelo será pesado en términos de escucha, sino que extraer esos datos del disco para su modelo será costoso, sin mencionar la saturación de su tubería con todos esos datos.

Incluso los modelos con unos cientos de millones de filas derribarán la mayoría de las cajas.

En este momento, si estuviera construyendo un modelo con 500 gigas de datos o más, lo estaría haciendo en Google Cloud Platform.

Tiraría mis datos a BigQuery y apuntaría mi cuaderno de datalab a mis datos.

Alerta de enchufe: Si está interesado en cómo haría esto paso a paso, comience aquí con mi curso gratuito sobre aprendizaje automático y luego continúe con mi serie sobre ingeniería de datos.

Una introducción al aprendizaje automático para ingenieros de datos