¿Existe algún hardware especializado para algoritmos de aprendizaje profundo?

Podría decirse que las GPU de NVIDIA están cada vez más especializadas para el aprendizaje profundo. Las decisiones de diseño tomadas en su última microarquitectura de GPU (Pascal) reflejan la gran inversión de la compañía en impulsar arquitecturas de aprendizaje profundo.

Nervana systems también está trabajando en hardware personalizado para Deep Learning. Están mirando un enfoque de pila completa.

Sospecho que varios fabricantes de FPGA también están realizando serias actividades de I + D en tableros especializados para Deep Learning. No conozco ninguna compañía en particular, pero veo muchas tesis de maestría / doctorado relacionadas con esto. De hecho, un conocido mío hizo un trabajo relacionado con la implementación del aprendizaje profundo en hardware aritmético de precisión de registro, y ahora está trabajando en una destacada empresa tecnológica conocida por su hardware.

Creo que una inversión seria en innovación de hardware (no solo el costo de producir una placa, sino también reclutar talentos raros de EE + DL) solo es rentable una vez que desea producir en masa una gran cantidad de hardware de aprendizaje profundo optimizado.

Otra área que podría usar muchas mejoras en el futuro serán los núcleos del sistema operativo que están optimizados para este tipo de cosas.

El grupo de Yann LeCun en la NYU tiene un par de publicaciones que mencionan los FPGA por llevar a cabo una conv profunda. redes

Página en farabet.net
Página en lecun.com
Página en lecun.com

Actualización 20. Septiembre 2015:
Extracto de una publicación en Facebook de Yann LeCun – Mis comentarios sobre la red neuronal IBM TrueNorth …:

El laboratorio de NYU de [LeCun] inició el proyecto NeuFlow, que implementa redes neuronales convolucionales en hardware (ver http://www.neuflow.org/). El proyecto NeuFlow se implementó inicialmente en NYU en un FPGA Xilinx Virtex-6 ([bib2web] Publicaciones de Yann LeCun), y luego se convirtió en un diseño ASIC por Eugenio Culurciello y su equipo en Purdue ([bib2web] Publicaciones de Yann LeCun)

TeraDeep | Visual Intelligence es otra compañía con fuertes lazos con el grupo de investigación NYC de LeCun para optimizar el hardware para ejecutar algoritmos de aprendizaje profundo.

Sí lo hay y fue presentado la semana pasada en la conferencia de NIPS en Montreal por Joe Bates.

El hardware en cuestión se llama hardware aproximado ?

Supongamos que las máquinas hicieron una aritmética que fue 99% correcta (por ejemplo, 1.0 + 1.0 = 1.98… 2.02).

En consecuencia, el hardware se reduce 100 veces, las máquinas usan menos energía, menos costo y los chips tienen sustancialmente más núcleos. Una GPU moderna tiene aproximadamente 3.000 núcleos. En contraste, el “Singular Chip (S1)” tiene 250,000 núcleos. Un bastidor podría contener 50 millones de núcleos.

En comparación con una GPU, el chip S1 ofrece 50 veces mejor cómputo por vatio, gramo y $, así como 250 veces mejor ancho de banda de memoria.

Las matemáticas / hardware aproximados ya se han utilizado para varios problemas, tales como: borrado de imágenes, detección de movimiento, MNIST, TIMIT, WSJ (Speech) y más. Recientemente mostraron una mejora de 6400x en los objetos de seguimiento de la relación velocidad / potencia en video para la Marina de los EE. UU. La tesis de Leo Liu en el MIT fue sobre el uso de matemáticas aproximadas para varias tareas.

El chip S1 es un prototipo pero ha mostrado resultados prometedores. Quizás todo el hardware para ML estará hecho con chips singulares.

Very Fast Box es DIGITS DevBox, que es básicamente un sistema preconstruido que viene con Linux preinstalado junto con el software DIGITS. El software DIGITS es una suite que puede usar para configurar redes neuronales y entrenarlas utilizando (lo adivinó) el aprendizaje profundo.

Dentro de Digits DevBox, los compradores encontrarán cuatro tarjetas gráficas GTX Titan X junto con el resto del sistema. Las especificaciones exactas no fueron reveladas. Lo que sí sabemos es que utiliza una fuente de alimentación de 1300 W, y Jen-Hsun se jactó de que esta es la potencia más computacional que puede extraer de un enchufe de pared. También enfatizó que en el año 2000, para alcanzar 1 TFlop de rendimiento SP necesitaría un millón de vatios de potencia, y que el DevBox DIGITS logra hacer 28 TFlops de cómputo SP en sus GPU de solo 1300 W.
DIGITS DevBox estará disponible en mayo y se venderá por $ 15,000. Obviamente, estás pagando por mucho más que solo el hardware.

http://www.tomshardware.com/news

Google ha desarrollado un chip personalizado (ASIC) para implementaciones más rápidas y de mayor eficiencia energética de las redes neuronales. Estos ASIC, denominados Unidad de procesamiento de tensor (TPU) realizan una aritmética de menor precisión (estándar actual de menos de 32 o 64 bits), que es lo suficientemente bueno para muchos algoritmos.

Los AI Bots de Google se ejecutan en chips de computadora personalizados

Es muy probable que otras organizaciones que planean utilizar el aprendizaje profundo a escala también sigan el ejemplo de Google.

El desarrollo de ASIC no es económico, por lo que hay un mercado para que uno o más terceros se conviertan en proveedores de dichos ASIC para el mundo fuera de Google.

Varias empresas tecnológicas han organizado su estación de trabajo específica para el aprendizaje profundo.

Facebook: Big Sur. Facebook para el diseño de hardware AI de código abierto

Nvidia: DevBox. NVIDIA® DIGITS ™ DevBox

SenseTime y Amax: SenseBox. Comunicados de prensa – Proveedor de soluciones informáticas totales

En general, son estaciones de trabajo de alto rendimiento con un montón de GPU de alta gama como GTX TITAN X. Hasta donde yo sé, son bastante adecuadas para la investigación actual de aprendizaje profundo, y no hay una gran demanda de un hardware totalmente nuevo para Deep aprendizaje.

Por cierto, la instancia de GPU Amazon AWS (Instancias de GPU de Linux) se está volviendo popular para el aprendizaje profundo en estos días.

¡Hola chicos!

En los próximos días, esperamos reunir comentarios y sugerencias de la comunidad de Deep Learning sobre la mejor forma de comparar el DGX-1 de NVIDIA para la formación de arquitecturas DL.

Pronto tendremos esta supercomputadora a nuestra disposición para realizar pruebas y nos gustaría conocer su opinión sobre cómo evaluar mejor su rendimiento.

Si está interesado en realizar sus pruebas, contáctenos lo antes posible.

Ya hemos realizado Benchmarks en NVIDIA GTX1080 -TITAN X Maxwell -TITAN X Pascal – K40 Deep Learning Benchmarks

Consulte nuestra publicación de blog para obtener información: bit.ly/DGX1-Benchmark

Escriba un comentario debajo de las publicaciones del blog y nos pondremos en contacto con usted; si lo prefiere, escriba un correo electrónico para obtener más información: [correo electrónico protegido]

Construido comercialmente:

NVIDIA DGX-1

En el centro de DGX-1 hay ocho unidades de procesamiento de gráficos Tesla P100, equipadas con una potencia de GPU de 128 GB.

Este es el primer sistema del mundo especialmente diseñado para el aprendizaje profundo y el análisis acelerado de IA, que ofrece un rendimiento igual a 250 servidores convencionales. Viene completamente integrado con hardware, software de aprendizaje profundo, herramientas de desarrollo y ejecuta aplicaciones populares de análisis acelerado. Esto significa que puede acortar inmediatamente el tiempo de procesamiento de datos, visualizar más datos, acelerar los marcos de aprendizaje profundo y diseñar redes neuronales más sofisticadas.

La computadora está diseñada para el aprendizaje profundo, que Nvidia está enfatizando para autos autónomos, robótica y supercomputación. Nvidia afirma que el DGX-1 puede ser entrenado para tareas como el reconocimiento de imágenes y funcionará significativamente más rápido que otros servidores. Los vehículos y robots autónomos pueden identificar objetos mediante referencias cruzadas con imágenes que residen en sistemas de aprendizaje profundo basados ​​en la nube que usan computadoras como el DGX-1.

La computadora puede ofrecer alrededor de 170 teraflops de rendimiento, y varias cajas en un rack pueden ofrecer 2 petaflops de rendimiento. La computadora más rápida del mundo ofrece un rendimiento máximo de aproximadamente 10 petaflops.

Fuente: la supercomputadora DGX-1 de Nvidia incluye la potencia de 250 servidores

Echa un vistazo a estos sistemas. Idéntico a las cajas de desarrollo de dígitos de NVIDIA a mitad de precio. Viene con el mismo software, más cosas adicionales como openCV y una garantía completa de 3 años. Parece que también se pueden personalizar para los presupuestos.

Soluciones de GPU de aprendizaje profundo
y
Spectrum TXN003-128N – Exxact Corp

El software preinstalado incluye: Digits 1.1, Digits 2.0, cuDNN, Theano, openCV, Caffe, Torch, NVIDIA toolkit.

Optimizado para la comunicación P2P entre todas las GPU y, de forma exclusiva, estos sistemas se queman durante más de 24 horas para validar las GPU Titan-X; esa es una validación más extensa que NVIDIA con sus tarjetas Tesla.

Google tiene TPU. Supongo que están usando amplificadores operacionales no discretos y continuos de integración / diferenciación dentro del proceso de propagación hacia atrás y capacitan a estos amplificadores operacionales con un tipo de RNN (LSTM dentro de DNC) para aprender y producir funciones de activación personalizadas. No solo serían magnitudes de orden más rápidas que los procesos digitales discretos actuales de diferenciación e integración, sino que también consumirían menos energía, sino que lo más importante es que producirían funciones de activación aprendidas.

Creo que este hilo (donde he participado) podría responder a su pregunta:
La demanda de procesamiento gráfico rápido trajo la GPU. ¿Podría la demanda de procesamiento de big data generar hardware de aprendizaje automático para fines especiales?

NVIDIA Digits Dev Box (por Exxact) – con una pila de software mucho más amplia y actualizada a la mitad del precio: Deep Learning GPU Solutions. Servidor grado y PCI-E de igual a igual hardware. Quantum TXR430-1500R

Incluye actualizaciones automáticas y soluciones alternativas para la pila de controladores basada en apt-get con errores de NVIDIA en sistemas Ubuntu de doble socket.

Artificial Learning está trabajando en circuitos integrados ultraeficientes para el aprendizaje automático. Ver http://www.artificiallearning.com

Sí hay: TeraDeep | Inteligencia visual
Ver también esto:
Un chip diseñado para el “aprendizaje profundo” podría ayudar a los teléfonos inteligentes a comprender sus fotos | MIT Technology Review

También compañías como CEVA y Synopsys están tratando de hacer hardware ip.

Ex. Red neuronal profunda CEVA (CDNN)

More Interesting

Cómo derivar la propagación hacia atrás desde la segunda capa de convolución

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

¿Cuáles son los prerrequisitos matemáticos para estudiar el aprendizaje automático?

¿Cómo funciona el modelo de red neuronal profunda en la predicción de regresión en los datos del sensor?

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?

¿Cuál es la función de zeropad en CNN?

Después de la selección de características utilizando el método de rankeador, WEKA, el número de atributos en el conjunto de prueba es diferente del conjunto de entrenamiento. ¿Cómo los comparas?

¿Cuáles son algunas de las herramientas de procesamiento de lenguaje natural más comunes utilizadas por las grandes corporaciones minoristas?

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Cuál es la intuición detrás de la propagación hacia atrás?

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Cuáles son las probabilidades de ingresar a un programa de posgrado de aprendizaje automático en una escuela superior si mi experiencia en investigación es en bioinformática y algo de experiencia en investigación en PNL?

¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?

¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?