¿Cuáles son las características únicas de una red neuronal en comparación con otras técnicas de aprendizaje automático?

Para citar a Ilya Sutskever:

Los modelos estadísticos convencionales aprenden patrones simples o grupos. En contraste, los LDNN aprenden computación, aunque sea una computación paralela masiva con un número modesto de pasos. De hecho, esta es la diferencia clave entre los LDNN y otros modelos estadísticos.

Fuente: Una breve descripción del aprendizaje profundo

En el aprendizaje automático basado en estadísticas típico, uno propone un modelo (algo simple como una línea recta o algo complejo como una red de Bayes) y luego utiliza datos para estimar parámetros mediante regresión o propagación de creencias. Sin embargo, estos modelos asumen una “estructura” fundamental para el modelo generativo o discriminativo. Se puede intentar aprender la estructura (es decir, decidir cuántos factores usar en un gráfico de factores), pero luego se debe asumir una distribución previa en los hiperparámetros (es decir, un Beta antes de un Bernoulli). Pero, ¿qué sucede si desea aprender automáticamente los parámetros para los hiperparámetros? Son tortugas hasta el fondo.

Las redes neuronales son bastante diferentes porque realmente no involucran ningún modelo estadístico explícito. Por el contrario, realizan una serie de transformaciones en las entradas, que pueden considerarse como “cálculo”. La arquitectura de una red convolucional (popular en las arquitecturas actuales) supone muy poco sobre la estructura del modelo generativo, solo que la entrada tiene una jerarquía de características (algunas características pequeñas, algunas características grandes). Cualquier aproximador de función universal entrenable debería funcionar más o menos de manera similar a una red neuronal.

Con respecto a la precisión / rendimiento: no, las redes neuronales no son tan diferentes de las técnicas existentes. De hecho, los árboles impulsados ​​aún rivalizan con el rendimiento de los DCNN. Escuché que otras técnicas de big data que emplean trucos de aumento de datos similares utilizados por convnets también funcionan bastante bien.

Sin embargo, el punto del Sr. Sutskever es bastante sutil, y creo que depende de si usted cree que un “programa de computadora” es fundamentalmente más expresivo que un modelo estadístico. Mi creencia personal es que otras técnicas estadísticas en el futuro comenzarán a incorporar aspectos de la computación. Deep Learning implementa la “computación” al apilar las no linealidades simples en otras más complejas, pero es posible que se puedan usar no linealidades más complejas (es decir, un programa diseñado explícitamente) para una tarea en particular.

A medida que las redes recurrentes se vuelven más prominentes, tal vez habrá un interés considerable en el futuro hacia la teoría de autómatas celulares, que une la computación con sistemas dinámicos (discretos).

¡Qué momento tan emocionante para estar!

Desde el punto de vista de la visión por computadora, el aprendizaje profundo y las CNN le permiten omitir un paso manual de ingeniería de características. La mayoría de las técnicas de CV tradicionales requieren características como HOG o SIFT, pero el aprendizaje profundo funciona a partir de píxeles sin formato. Detrás de escena, el método aprende las características.

En la forma tradicional de hacer las cosas, tendrías que esperar unos 4 años para que un estudiante de doctorado cree un nuevo conjunto de características útiles, y solo 1 / 10,000 estudiantes pudieron encontrar algo nuevo que no sea lineal combinación de viejos trucos.

Una característica única es que las redes neuronales tienden a expresar características de forma jerárquica. Las capas más cercanas a los datos de entrada extraen características muy granulares sobre los datos, mientras que las capas más cercanas a la capa de salida representan características de alto nivel y abstractas. Recuerde que lo que es único es que cada capa de la red depende de las características de las capas inferiores y representa las características como una combinación no lineal de las características de nivel inferior. Esto es algo comparable a la forma en que funciona nuestro cerebro cuando extrae funciones.

El procesamiento de características es la diferencia más obvia, particularmente dentro de las redes profundas. No obtendrá “sueños” o “alucinaciones” de máquinas de un modelo de bosque aleatorio …

More Interesting

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Cómo debo seguir el curso de Andrew NG si quiero aprender el aprendizaje automático en Python y cómo debo progresar después de completar el curso?

¿Cuál es un algoritmo de detección de imagen apropiado para detectar corrosión / óxido?

Cómo hacer un bot que pueda ser entrenado para jugar juegos simples usando Python

Cómo usar el aprendizaje automático en IoT Hardware Security

¿Cuál es el editor preferido para un tipo de aprendizaje automático que trabaja principalmente en Python?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

¿Cuáles son algunas aplicaciones del aprendizaje automático en la industria de la geología y la energía?

¿Puedo incluir el aprendizaje automático en mi currículum después de aprender scikit-learn?

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Cómo se usa la pérdida de peso para la regularización en las redes neuronales?