¿Los centros de datos cambiarán a procesadores personalizados para aplicaciones de aprendizaje automático?

Los centros de datos adoptarán la tecnología que mejor soporte las aplicaciones; a su vez, las aplicaciones adoptarán el enfoque / técnica que mejor apoye el problema comercial.

Considere una analogía de Big Data. Hoy en día, los problemas de Big Data dependen de mover los cálculos a los datos (Hadoop, SPARC). Esto es una inversión del enfoque de mover datos a un procesador central.

A medida que las aplicaciones de aprendizaje automático se vuelven más estándar e importantes, los procesadores personalizados proporcionarán una ventaja competitiva.

Dicho esto, la ventaja competitiva puede ser de corta duración. A medida que la velocidad del procesador ‘básico’ continúa mejorando y la capacidad de poner la capacidad de cuatro núcleos (o superior) en un solo chip, la solución de ‘hardware optimizado’ puede superarse.

Aquí hay algunos ejemplos de dónde los avances de hardware dieron un impulso inicial y luego fueron venerados.

La máquina de la base de datos Britton-Lee utilizó hardware optimizado para superar al software únicamente en bases de datos relacionales que se ejecutan en máquinas de consumo. La ventaja duró algunos años. Finalmente, Britton-Lee dio paso a SYBASE, escrito por personas que habían aprendido mucho al construir la máquina de base de datos Britton-Lee.

(Un desarrollo clave de Britton-Lee fue la invención del ‘procedimiento almacenado’, que ahora es estándar en la mayoría de las bases de datos relacionales. Originalmente fue creado para superar los cuellos de botella de comunicación que eran relativamente bajos en comparación con las velocidades de computación. Por lo tanto, tenía sentido para mover la lógica a los datos en lugar de al revés).

Otro ejemplo es “The Thinking Machine Corporation” Thinking Machines Corporation – Wikipedia La ventaja del hardware del procesamiento masivo paralelo basado en hardware fue inicialmente una gran ventaja. Sin embargo, gran parte de lo que se aprendió sobre el procesamiento paralelo se pudo recrear en software y dio lugar, al menos en parte, a Ab Initio; Una solución de procesamiento masivamente paralela utilizada hoy para muchas cargas de trabajo computacionales y ETL.

Aprendizaje automáticoCentros de datos

¿Cuál es una forma útil de clasificar los usos de las tecnologías de inteligencia artificial?

¿Cuál es la mejor manera de analizar y predecir en base a un conjunto de datos que tiene texto y números?

¿Qué hace que un modelo sea interpretable?

¿Qué significa 'alineado suavemente' en un contexto de aprendizaje profundo?

¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?

¿La conexión de banda ancha BSNL está disponible en el sur de Mumbai?

Hay mucha presión sobre los sistemas de software para mantenerse al día. Hay un tema llamado sistemas paralelos heterogéneos en el que se incluyen iniciativas como OpenCL para mantenerse al día con la caza. OpenCL está bajo la presión de Intel y Microsoft, que tienen productos como coprocesadores xeon phi en el bus PCI-E para combatir el ataque GPU GPU en su mercado (Microsoft está presionando a AMP para eludir OpenCL) y otros están inventando kits de herramientas aún más nuevos de las tradiciones como MPI y openMP y seda y … Ahora, Big Data ha reinventado estos y Hardoop y otros productos que están luchando por un procesamiento paralelo efectivo. Hasta ahora no hay nada nuevo aquí. Pero subyacente a la palabra heterogéneo está el concepto de diferentes soluciones de hardware, diferentes proveedores y un conjunto de herramientas de software común. OpenCL pareció desafiar a CUDA en el juego de GPU, pero en realidad no hubo desafío: permitió la carga de núcleos de software e incluso compilaciones de núcleos para una variedad de dispositivos y proveedores, incluidos los sistemas FPGA muy generales suministrados por Altera y Xilinx. Esto ha sido eclipsado por personas que, en lo que a mí respecta, han perdido la trama. Están intentando suministrar soluciones de software para procesamiento paralelo que ya tenemos. Hay muchos por ahí y hay otros que han sido olvidados por ahora, probablemente perdidos.

Aquí está el punto. El lado de la IA no requiere un procesador intensivo una vez que se han aplicado todos los conjuntos de capacitación, déjelo al proveedor. Un conjunto entrenado se convierte en un proceso de búsqueda. Big Data no sabe si es una técnica de IA que busca un rol, o un proceso heurístico (semi-matemático) para manipular datos para encontrar soluciones de búsqueda óptimas o parte de un conjunto de clústeres paralelos utilizados en proyectos como la radioastronomía. Deje grandes datos fuera de él hasta que tenga una identidad plausible. El aprendizaje automático es un nicho y probablemente seguirá siéndolo, a pesar de la exageración masiva actual, y la preocupación por la próxima generación de bases de datos de propósito general incluye aquellas destinadas específicamente a Internet excesivamente general (la generalización generalizada de datos podría convertirse en un pozo de dinero). Puede haber un caso para un centro que ejecuta búsquedas grandes (algoritmo de búsqueda de páginas de Google). Esto es E / S (entrada / salida intensiva (evitaría GPU en ese caso). Pero los sistemas grandes con paralelismo pero que manejan grandes volúmenes de E / S … quizás haya un caso.

Estos “chips de IA” que Google y otros están mirando … déjelos resolver eso primero, solo puedo suponer que se promocionarán primero y decepcionarán después. Esto está en la tradición de la IA, donde cada generación gasta mucho dinero en soluciones informáticas sin el beneficio de una base filosófica sólida. He vivido 3 de estos ciclos.

La IA no es aprendizaje automático. Y las películas como I robot están describiendo ciencia ficción real. No estoy seguro de que sea una buena idea tratar de emular nuestra capacidad de seguir siendo viables en un entorno cambiante complejo (es decir, IA real)

Jiacui Li

Sí, casi todos los centros de datos ya usan gpus para el aprendizaje profundo, y es probable que eventualmente cambien a los asics mencionados. Para algunos algoritmos de aprendizaje automático como los bosques aleatorios, los cpus permanecen bien en su mayor parte.

Jiacui Li

More Interesting

¿Qué es el aprendizaje activo?

¿Cuál es la diferencia entre los ingenuos Bayes y los algoritmos de máquina de vectores de soporte?

¿Cuál es su proceso para diseñar funciones de pérdida para problemas de Machine Learning?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?

¿Cómo se usa el aprendizaje automático en FinTech (P2P, pagos), particularmente fuera de algo trading? ¿Alguien tiene ejemplos específicos en punto a punto, verificación de crédito, pagos, etc.?

¿Debo aprender el aprendizaje automático (supervisado) antes del aprendizaje profundo (sin supervisión)? Solo tengo una computadora portátil en casa, entonces, ¿será suficiente la potencia informática?

Con respecto al descenso de gradiente funcional, ¿qué significa minimizar un funcional con respecto a una función? Proporcione un ejemplo claro.

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Qué significa el término difusión en bibliotecas numéricas con matrices como MATLAB, Numpy o TensorFlow?