Las redes neuronales se han vuelto muy populares en los últimos años, sin embargo, gran parte de la teoría se desarrolló hace 20 años. ¿Qué avances explican los éxitos recientes?

Las redes neuronales están experimentando el glorioso efecto Fly Wheel .

“La premisa del volante es simple. Un volante es una rueda increíblemente pesada que requiere un gran esfuerzo para empujar. Sigue empujando y el volante genera impulso. Sigue presionando y eventualmente comienza a ayudar a girar y generar su propio ímpetu, y ahí es cuando una empresa va de buena a excelente “. – Volante de Jim Collins

La rueda volante de la red neuronal ahora gira a una velocidad masiva. Tomará muchas horas catalogar todos los pequeños y grandes empujones que le dieron su impulso. Pero, en mi humilde opinión, el mayor empujón que se destaca aparte del trabajo pionero de la teoría es simplemente esto:

Capacidad para aprovechar grandes cantidades de datos : grandes cantidades de datos han estado disponibles para nosotros durante mucho tiempo. Pero eso no significó nada hasta que pudimos aprovecharlo. Para las redes neuronales, eso cambió aproximadamente en 2009 cuando las GPU comenzaron a acostumbrarse a entrenar redes neuronales. El primer gran éxito de Deep Learning, AlexNet en realidad menciona “Una implementación de GPU Convolución altamente optimizada” como una de sus contribuciones. Ese documento menciona “GPU” alrededor de 34 veces.

Aprendizaje automáticoFama y popularidad masivaInteligencia ArtificialRedes neuronales artificiales

Como ingeniero de ML en Quora, ¿alguna vez ha implementado un artículo de investigación en aprendizaje automático para resolver un problema técnico o de producto?

¿Un descenso de gradiente funciona en Big Data?

Cómo comenzar a aprender redes neuronales y aprendizaje profundo

¿Qué es el aprendizaje por refuerzo?

¿Cuál fue su peor interacción con una máquina?

¿Cómo y dónde comienzo un inicio de SaaS?

Datos. Enormes cantidades de eso.

Las redes neuronales necesitan datos para “entrenarlos”. Si observa Silicon Valley, tal vez recuerde que Gavin Belson dijo: “El 92% de los datos se crearon solo en los últimos 2 años” (algo así como cierto). Eso es imágenes, video y otro contenido (las redes sociales son responsables de gran parte de él).

Las redes neuronales se utilizan en clasificación de imágenes, reconocimiento de imágenes (entre otras cosas). Con tantos datos disponibles, es fácil entrenar redes neuronales.

Empresas como Google y Deepmind han estado trabajando en ello durante mucho tiempo. Con eventos recientes como AlphaGo superando a Lee Sedol. Cómo la inteligencia artificial de AlphaGo Beat a Go World Champion de Google, el aprendizaje automático ha recibido mucha atención. También se usa en muchos productos de Google y las personas notan la diferencia, por ejemplo, de cómo se clasifican sus imágenes en las fotos de Google. Apple también ha comenzado a trabajar en eso teniendo en cuenta su última nota clave.

También tenemos que considerar que con tantas compañías que se adaptan a las redes neuronales ha creado muchos trabajos en el campo. Ya no es solo un tema de investigación. Muchas personas están comenzando a aprender redes neuronales y a hacer cosas increíbles con ellas.

Consulte también el sitio web de experimentos de IA de Google.

Experimentos de IA

Ben Alexander

Aumento de la potencia computacional.

El primer paso hacia las redes neuronales artificiales llegó en 1943 cuando Warren McCulloch, un neurofisiólogo, Walter Pitts, escribió un artículo sobre cómo podrían funcionar las neuronas. Modelaron una red neuronal simple con circuitos eléctricos. Puede leer más sobre esto aquí: McCulloch-Pitts Neurons (Descripción general)

Hoy en día hay un gran revuelo en todas partes para las redes neuronales y el aprendizaje profundo. La investigación que se concentra en el desarrollo de redes neuronales es relativamente lenta. Para sacar estos prototipos del laboratorio y ponerlos en uso se requieren chips que puedan manejar cálculos computacionalmente intensivos. Sin embargo, el futuro de las redes neuronales radica en el desarrollo de hardware.

Por lo tanto, las redes neuronales son muy buenas en una amplia variedad de problemas, la mayoría de los cuales implica encontrar tendencias en grandes cantidades de datos. Son más adecuados que los problemas informáticos tradicionales en los que los humanos son naturalmente buenos y en los que las computadoras son tradicionalmente malas: reconocimiento de imágenes, generalizaciones, ese tipo de cosas. Y los investigadores están continuamente construyendo redes que son mejores en estos problemas.

Ben Alexander

Progreso tecnológico con la convergencia de HPC en la informática convencional.
Acceso ubicuo a internet.
Disponibilidad y, lo que es más importante, usabilidad de grandes conjuntos de datos.
Nacimiento de lenguajes fáciles de aprender y usar como Python.
¡Todo es gratis! Código abierto de marcos NN nuevos y emergentes como PyTorch, tensorflow, mxnet, etc.
Caída vertiginosa de precios de potentes PC y portátiles.
Democratización del aprendizaje a través de MOOC: cualquier persona con una mente hermosa y una computadora portátil puede aprender de los mejores. No se necesitan escuelas de la Ivy League.
Acceso a múltiples mercados / economías: múltiples mega economías como China, EE. UU., Ojalá también India pronto, están trabajando en ello. La mera dependencia de los Estados Unidos es cosa del pasado.

Estos son los factores principales por los que presencia el uso y la adopción de redes neuronales a escala.

Parth Mehta

Computación en la nube y hardware dedicado. Un artículo antiguo también se ha convertido en una fuerte argumentación para el entrenamiento en subespacios reducidos, dando a la palabra de moda “descendencia estocástica” alguna referencia a un fundamento analítico, pero de hecho, muy pocas aplicaciones realmente usan alguna teoría de cálculo estocástico al elegir el método de aprendizaje, por lo que esto no es realmente nuevo y no es realmente un caso de innovación en acción.

Parth Mehta

Tiene razón al señalar que la mayor parte de la teoría de la red neuronal se desarrolló en la década de 1990. Pero como cualquier otra teoría, la red neuronal dependía de varios otros factores para ser realmente útiles en la práctica. Dos de los más importantes fueron:

Datos de entrenamiento: las redes neuronales dependen de la disponibilidad de una gran cantidad de datos de entrenamiento de buena calidad. Actualmente, la mayoría de estos están disponibles con gigantes tecnológicos como Amazon, Google, Facebook, etc. La mayoría de estas compañías que excluyen a IBM, Microsoft y Apple comenzaron a fines de los 90 o principios de los 2000. Incluso los que ya estaban presentes se centraron en otros dominios y la “recopilación de datos” no era una prioridad para ellos.
Infraestructura informática: la cantidad de potencia informática disponible en ese momento no era capaz de manejar ningún algoritmo de ‘Red neuronal’ prácticamente útil o la gran cantidad de datos de entrenamiento que conlleva. Recordemos que no había GPU en ese momento. Además, los procesadores comúnmente disponibles no estaban tan cerca, tanto en términos de precio como de capacidad informática, a los disponibles en la actualidad. Esto hizo completamente imposible que las personas realizaran experimentos relacionados con las redes neuronales, excepto si formaban parte de un muy buen laboratorio de investigación.

La mayor parte del éxito se puede atribuir tanto a la infraestructura informática como a los datos de capacitación, tanto como a la teoría original. El éxito no se trata de un solo algoritmo que funcione bien en una sola tarea, sino de todo el ecosistema que tardó más de una década en construirse.

Parth Mehta

Poder computacional. La Ley de Moore inexplicablemente aguanta todos estos años … años después de que la gente seguía diciendo que terminaría.

Piensa en autos sin conductor. Cuando tenía 6 o 7 años, leí en uno de mis libros de robots que un automóvil sin conductor requeriría una computadora del tamaño de una casa.

Los informáticos habían intentado construir uno (incluso uno básico) y fue un fracaso miserable.

Pensé que nunca darían resultado.

Y sin embargo, aquí están. Porque el tamaño de la casa se redujo a la mitad cada 18 meses en los últimos 17 años. Si una casa tiene 35 pies de largo, es como ahora menos de 2 pulgadas. Y probablemente sea aún más extremo, porque el libro fue escrito al menos un año antes sobre la investigación realizada probablemente unos años antes.

Sí, tenemos excelentes señales de GPS y un mapa del mundo, y la Nube … pero lo más importante es la reducción logarítmica en el tamaño de las computadoras en los últimos XX años.

Esa mierda es jodidamente disparatada. ¿Qué más ha seguido explotando de esa manera durante 50 años? Jodidamente nada.

Las personas pueden teorizar, pero no hay sustituto para jugar con modelos, ver resultados, compartir esos modelos, hacer que mucha gente juegue con ellos y piense en más formas de optimizar y compartir eso, etc.

Todo eso se ha habilitado sí, por el código abierto y la relativa apertura académica (que no podemos dar por sentado), sino también por el número ridículo de aplicaciones del mundo real (que aportan $$$$$) habilitado por este tipo de logarítmica trippy aumento de la potencia informática por pulgada cuadrada.

Ben Alexander

More Interesting

¿Qué ofrecen los chips Loihi de Intel con 'autoaprendizaje', 'núcleos neuromórficos' y 'cómputo de aumento asíncrono'?

¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

¿Cuál es la regla de entrenamiento para redes de perceptrón de capa única con umbral?

¿Puede el aprendizaje automático ayudarnos a comprender el cerebro humano?

He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?

Un fundador de un fondo de cobertura me dijo que los graduados de doctorado en Big Data / ML están generando un millón de dólares al año como salario en el comercio / fondos de cobertura. ¿Qué tan correcto es esto?

¿Por qué se usa Python para el aprendizaje profundo si es tan lento?

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

Cómo crear un sistema de predicción de calificación a partir de los comentarios de los revisores para comentarios 360 dados un comentario del revisor y el conjunto de datos de calificación correspondiente

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?