¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

Puedo continuar con su pregunta y preguntar, ¿no son las redes neuronales solo una regresión logística aplicada varias veces? ¿Y no es la regresión logística un modelo lineal con una pequeña transformación en la parte superior? Así que ahora estamos básicamente en cosas que Gauss encontraría familiares hace 150 años. Y podemos seguir por ese camino, ya que de todos modos todo se puede codificar con un montón de compuertas NAND si te gusta la abstracción, o construir con silicio si eres una persona práctica.

Entonces la respuesta a eso es, sí, más o menos. De hecho, si está familiarizado con otras áreas del esfuerzo humano, encontrará patrones muy similares. ¿No son todas las matemáticas más o menos teoría de conjuntos? ¿No es toda la química más o menos física atómica?

Es cierto, pero hay algunos matices. De hecho, los químicos pueden lidiar con cosas en un nivel diferente que los físicos nucleares. Del mismo modo, puede hacer cosas con redes convolucionales que no podría hacer antes de que alguien pensara en esta idea muy simple. A Newton también se le ocurrieron algunas ideas bastante simples, pero fueron asombrosamente brillantes y útiles, y lo mismo vale para estas nuevas áreas de ML.

Yo diría que tienes la actitud correcta al no comprar el misterio y la magia de ML. Debes entender que esto no es ciencia de cohetes. Pero la ciencia de cohetes tampoco es ciencia de cohetes. Cuando pareces tener una actitud equivocada es usar la palabra “justo”. El aprendizaje profundo son redes neuronales, pero no son solo redes neuronales. Si fuera justo , los informáticos no habrían tenido nada que hacer en los últimos 50 años.

En primer lugar, el aprendizaje profundo (DL) no se trata solo de redes neuronales (NN). Solo está dominado por Deep NNs (DNN). DL se trata de aprender múltiples niveles de representaciones, como:

  • Los píxeles se combinan para formar aristas.
  • Los bordes se combinan para formar partes.
  • Mientras que las partes se combinan para formar objetos completos.

Ese es un ejemplo de la visión por computadora (CV). Sin embargo, también podemos ver muchas de esas representaciones jerárquicas en muchas otras cosas como:

átomos [math] \ rightarrow [/ math] moléculas [math] \ rightarrow [/ math] compuestos

letras [math] \ rightarrow [/ math] palabras [math] \ rightarrow [/ math] oraciones

DL se basa en la observación de que la naturaleza es altamente compositiva. Como se ilustra arriba, en la naturaleza existe esta buena disposición jerárquica de las cosas, desde la física atómica hasta las sociedades en general.

Por lo tanto, DL se trata realmente del aprendizaje de representación jerárquica y se puede usar una red neuronal convolucional (CNN) para aprender tales características jerárquicas así como también es teóricamente posible usar cualquier otro enfoque para aprender esas representaciones jerárquicas abstractas.

Es solo que en este momento los DNN son la opción predeterminada para aprender tales representaciones jerárquicas.

Entonces, no, el aprendizaje profundo no es solo redes neuronales con algo de preprocesamiento para la selección automática de funciones.

DL es más que solo NNs.

En segundo lugar, tiene razón, los DNN actúan para proyectar (o como lo dice, preprocesar) los datos para que la unidad de clasificación / regresión final pueda manejar los datos correctamente.

Por ejemplo, un problema no separable linealmente puede convertirse en un problema separable linealmente proyectando a través de su DNN haciendo que el problema se resuelva mediante una capa de clasificación lineal en la salida.

En algunos casos, se necesitan proyecciones múltiples de ahí el término aprendizaje profundo. El conjunto de datos se puede proyectar progresivamente a través de varias capas antes de alimentarlo a la capa de salida de clasificación / regresión final.


Y una cosa más, el aprendizaje automático (ML) es realmente fácil de entender.

No se asuste por la jerga en ML, muchos de ellos tienen fundamentos muy humildes y se sorprenderá al saber cómo estos componentes básicos básicos en los DNN típicos están en el corazón del discurso, la imagen y la tecnología de punta. sistemas de reconocimiento de objetos.

DL es simplemente una concatenación de capas de procesamiento una encima de la otra y en algunos casos puede haber conexiones recurrentes.

Cada capa de abajo procesa previamente los datos de la capa de arriba. Eso es.

Por eso tengo un lema:

Las cosas simples constituyen cosas avanzadas.

Porque ese enfoque simple repetido varias veces es lo que hace:

  • Posible reconocimiento de imágenes de Google Photos.
  • Asistente de Google reconocimiento de voz posible.
  • Los autos sin conductor casi se conducen solos.
  • AlphaGo Zero posible.

Y ha revolucionado la inteligencia artificial (IA) con muchas más aplicaciones.

La mayoría de la gente piensa que DL se basa en muchas ideas complejas, se basa básicamente en ideas simples y fáciles de entender.

El único truco viene en hacer un modelo ML que funcione, porque:

  • En la práctica, los modelos ML deben ser grandes. No todos tienen el tiempo, la experiencia y el poder de cálculo para construir modelos a gran escala. Por supuesto, puede encender servidores para entrenar modelos más grandes, pero esto no es barato.
  • Encontrar los hiperparámetros correctos es complicado y un poco aburrido, por lo que no es para todos.

Es muy difícil hacer que estas cosas funcionen en sentido real porque requiere múltiples experimentos (experimentos aleatorios e intuitivos) para que funcionen correctamente.

Encontrar los hiperparámetros correctos y limpiar los datos ocupa aproximadamente el 90% del trabajo, mientras que el producto terminado sobre el que lee en los artículos es solo uno de muchos modelos más fallidos.

Puede ser frustrante y tedioso intentar construir un modelo ML desde cero y aquí es donde más se requiere la experiencia humana.

De lo contrario, los principios subyacentes de ML / DL no son tan complicados.

Y no necesitan ser complicados para que funcionen bien.

Espero que esto ayude.

Si. En la misma línea, cuando Einstein consideró que podía aplicar la idea de marcos de referencia relativos a la masa, creó su famosa ecuación.

La magia de las CNN proviene de las limitaciones que levanta este pequeño cambio en cómo se implementan las NN.

Hablemos sobre el uso más popular de CNN en estos días, el procesamiento de imágenes.

Las NN tienen una fuerte tendencia al sobreajuste en grandes conjuntos de datos. Esto fue especialmente cierto para el procesamiento de imágenes. Además, las NN tratarían muchas transformaciones diferentes de una imagen de manera similar. Esto significa que no sería resistente a cosas como un desplazamiento de 5 píxeles de una imagen hacia un lado, o un cambio en el tono de la imagen.

Los CNN, que ya se han reducido a través de los núcleos, descubren que pueden aceptar conjuntos drásticamente diferentes de pesos de kernel que conducen a los mismos valores softmax. Esto significa que el caballo blanco que mira hacia la izquierda puede considerarse similar al caballo marrón que mira hacia la derecha debido a la “horseyness” innata de la imagen.

Hay mucho más que lo que he mencionado aquí, pero fundamentalmente, esto hace que las CNN sean una forma de análisis materialmente diferente.

¿No es CNN una representación pobre de lo que hicieron Hubel y Wiesel cuando midieron los picos eléctricos en la corteza visual de un gato?

Lo siento, pero solo tuve que arrojar un poco de retórica aquí.

Pero, con toda honestidad, sí, esto es (un poco más o menos) lo que un NN intenta hacer.

Desarrollo reciente en manipulaciones matriciales no lineales (así que sí, gracias Física que nos enseñó que muchas cosas en la vida, en el oído y en el universo en movimientos multidimensionales y movimiento y formas se mueven de manera no lineal) con nuevas teorías como Capsule Networks es un gran avance al tratar de comprender y dejar que la red (neuronal artificial) “haga lo suyo”.

Entonces, en cierto modo, hizo una pregunta muy importante, pero realmente quiero discutir sobre nuestro avance rápido (con suerte en la dirección correcta) para encontrar la manera en que nos acercamos a la verdad.

Las redes neuronales convolucionales son redes neuronales con un tipo particular de esquema de distribución de peso inspirado libremente en núcleos convolucionales. No tienen nada que ver con el preprocesamiento: generalmente se alimentan directamente con datos RGB.

Deep Learning es una amplia gama de tecnologías no relacionadas: pero generalmente se refiere a redes neuronales que usan capas adicionales para evitar la necesidad de preprocesamiento. En otras palabras: exactamente lo contrario de lo que sugieres.

Estoy respondiendo esto asumiendo que es una pregunta no troll. (La redacción da esa impresión, lo siento si estoy equivocado)

La respuesta es: No. El preprocesamiento de datos requiere que los humanos propongan extractores de características (o realicen ingeniería de características). Convnets aprende las mejores características posibles de los datos.

Reducir estas estructuras organizadas complejas en sus componentes fundamentales (sin preservar las relaciones / estructura de nivel superior) es una pérdida.

No obtendrás un humano si pones todos los átomos componentes de un humano en una pila. Un humano no es solo átomos sino también debido a las complejas relaciones de alta dimensión entre esos átomos.

Por lo tanto, no, esos no son iguales.

Lo que dijo dmitriy