¿Es posible trabajar hacia una gran contribución al campo, sin comprender realmente cosas fundamentales como la propagación hacia atrás en redes neuronales artificiales?

Bueno … si y no. Supongo que hay dos construcciones aquí.

  1. No comprende la propagación hacia atrás y algunos fundamentos, pero comprende la investigación actual.
  2. No entiendes nada sobre el espacio.

Si es el número 1, sin duda sería posible hacer una gran contribución al campo. Sería un poco extraño, pero cada uno tiene su propio proceso de aprendizaje y si, por ejemplo, está sugiriendo un nuevo método de propagación de errores, no necesariamente necesita comprender la propagación inversa. Solo necesita poder comparar su trabajo con él para saber que su enfoque es mejor.

Sin embargo, hay otra construcción que es la siguiente: “No sé nada sobre este campo, pero las redes neuronales parecen tener algo que ver con el pensamiento humano en general y leí un par de publicaciones en el blog y creo que tengo una nueva y radical idea sobre cómo abordar el problema que será una gran contribución al campo ”.

La segunda forma de pensar es absolutamente ridícula y venenosa para usted y el resto del campo. El problema principal es que, a menos que comprenda la investigación actual como mínimo, no tiene idea de cuál sería una gran contribución. Si crees que puedes sacar una obra filosófica y llamar a eso una “gran contribución” al campo que estás bromeando.

El problema es que el aprendizaje automático es un campo de la ciencia. Eso significa que para hacer cualquier contribución lo que necesita son resultados experimentales. Tienes que poner tu dinero donde está tu boca y demostrar que tu enfoque es mejor que otros enfoques. No puede hacer esto teniendo una discusión de alto nivel sobre por qué el enfoque se siente mejor. Hay un millón de personas haciendo eso, pero no es ciencia .

Si no comprende el campo, está haciendo una gran cantidad de suposiciones ignorantes sobre cómo funciona el campo y cómo funcionan los modelos de red. Desafortunadamente, debido a que un idiota hace mucho tiempo agregó la palabra “neuronal” frente al modelo de red, se ha convertido en un semillero para las personas que creen que los pensamientos genéricos sobre la naturaleza de la conciencia son “contribuciones” al campo. No son.

Los modelos de red modernos no están (con muy pocas excepciones) inspirados biológicamente. Son un enfoque algorítmico como cualquier otro, y solo porque alguien dio a entender que tiene algo que ver con el cerebro y que tienes un cerebro no te hace competente en este campo. Hay un área de investigación muy interesante en la que las personas intentan usar modelos de red para explorar y modelar arquitecturas neuronales biológicas, pero se basa en un profundo conocimiento de la neurociencia, el modelado y el aprendizaje automático.

Pero hay buenas noticias: la propagación hacia atrás es muy simple. Muchas personas miran las matemáticas y se confunden mucho, pero cualquiera con experiencia en cálculo básico y álgebra es capaz de entenderlo con un poco de trabajo. Es solo una aplicación especial de la regla de la cadena. Si se preocupa lo suficiente como para trabajar hacia una “gran contribución”, entonces ciertamente debería poder trabajar hacia la comprensión de los conceptos básicos que subyacen en este campo.

Sin una formación básica en matemáticas, específicamente cálculo, álgebra lineal y algunas estadísticas, no podrá describir las grandes ideas que tiene para el campo. No podrá comprender el estado actual del campo, y ciertamente no podrá contribuir a ello.

Comprender los principios subyacentes actuales del aprendizaje automático (ML) hace posible construir sobre ese trabajo.

En resumen, si obtiene los principios básicos subyacentes de los modelos de ML actuales, entonces tiene una mejor oportunidad de hacer una gran contribución a ML como un campo.

Mucha gente aprende ML por diferentes razones.

  1. Algunos lo aprenden con fines de investigación para contribuir al campo.
  2. Otros aprenden ML con el propósito de construir productos relacionados con ML y su trabajo puede ser exclusivo.
  3. Mientras que otros lo aprenden como un pasatiempo y aún pueden contribuir al campo.

Si usted es de tipo 1, entonces realmente necesita conocer ML profundamente, son principios fundamentales y nuevas instrucciones de investigación. Este tipo es como la ruta de doctorado, antes de que pueda contribuir en gran medida al campo, debe haber pasado mucho tiempo investigando (leyendo) y practicando ML.

Las personas de tipo 2 son ingenieros que trabajan en productos que se lanzan a usuarios reales y, por lo tanto, su trabajo puede ser exclusivo. Contribuyen obteniendo modelos existentes (o construyendo los suyos propios) y modificándolos para adaptarlos a los objetivos de una empresa en particular. Los ingenieros de este tipo pueden o no escribir trabajos de investigación.

Caigo en el tipo 3, lo hago principalmente por diversión, más como un pasatiempo, pero ocasionalmente trato de envolver un negocio en torno a mi trabajo personal. Podría escribir sobre mi trabajo en el futuro y de código abierto, pero actualmente estoy haciendo muchos experimentos sobre mis ideas en ML y visión por computadora.


Tampoco estoy seguro si las “grandes contribuciones” deberían ser una meta para cualquiera que esté aprendiendo LD.

Debe ser un viaje divertido y si te topas con una gran idea, entonces genial.

Pero no es muy malo tener grandes ambiciones, de hecho, incluso podría funcionar para usted. Pero si realmente desea contribuir al campo de ML, debe asegurarse de haber entendido los principios subyacentes de los algoritmos de ML actuales.

Y realmente no hay nada difícil sobre la propagación hacia atrás (backprop) y la mayoría de los principios de ML. Backprop se basa en el encadenamiento de derivados utilizando la regla básica de la cadena del cálculo. Cualquier persona que desee comprender el LD debe tener elementos básicos como el cálculo resuelto.

ML tiene muchas jergas aterradoras, pero todas esas jergas tienen fundamentos muy humildes y fáciles de entender.

Por ejemplo, el descenso de gradiente estocástico (SGD) es mucho más simple de entender que el descenso de gradiente normal (GD) en sí mismo, sin embargo, SGD suena más sofisticado que GD.

La máquina de vectores de soporte (SVM) es otra jerga complicada con un principio básico subyacente de maximizar el margen del límite entre los puntos más cercanos (vectores de soporte) a cada lado del límite de decisión.

El aprendizaje profundo (DL) consiste en apilar muchas capas de procesamiento una encima de la otra.

Y las redes neuronales (NN) son solo un conjunto de nodos de procesamiento dispuestos en forma de capas.

Por lo tanto, ML no es tan difícil, solo asegúrate de tener una buena comprensión del álgebra lineal , el cálculo , la optimización numérica , la probabilidad y las estadísticas a nivel universitario, así como la programación informática para implementar tus ideas.

Apuesto horas extras cuando hayas leído (investigado) y practicado mucho, desarrollarás una perspectiva única y solo así podrás contribuir en gran medida al campo de ML.

Espero que esto ayude.

Pensé que era realmente “simple” escribir una red neuronal básica también, y hace 2 años, cuando comencé a aprender el aprendizaje automático, escribí muchas redes neuronales básicas desde cero.

También tenía 75 años / 500+ en el mundo usando una GPU gt 720 pobre, para un concurso de kaggle. (Acabo de modificar una plantilla dada en la competencia, cambiando una convNet básica, a un resnet, y jugando con la profundidad de la capa) … para poder maniobrar un poco en bibliotecas de alto nivel.

Sorprendentemente, después de jugar con bibliotecas de alto nivel como mxnet de vez en cuando, un año después de escribir mi primera red neuronal en 2015, en 2016, después de mirar el campo ampliamente en términos de matemáticas, se me ocurrió una idea. llame a la “Red neuronal artificial supersimétrica”. (Todavía no está listo)

En ese momento, porque quería implementar mi hipótesis en forma de código más allá de la notación teórica, reconocí que me faltaba conocimiento intuitivo , me di cuenta de que saber cómo usar el flujo de tensor , etc., no me dio ninguna intuición sobre qué sucedía debajo, porque se sabe que las bibliotecas como mxnet ocultan una tonelada de cosas cruciales.

Aunque escribí muchas redes neuronales básicas de trabajo desde cero, todavía no creía que estuviera listo para intentar implementar mi hipótesis en forma de código más allá de la notación teórica.

Y luego descubrí recientemente una serie de redes neuronales de un canal de YouTube llamado 3blue1brown. Se sabe que ese tipo tiene un estilo de enseñanza extremadamente claro, que te hace darte cuenta de que solo has estado memorizando un tema, en lugar de entenderlo realmente. Nunca he visto una interpretación más clara pero detallada de las redes neuronales que las enseñanzas de ese tipo.

Ver la tutoría extremadamente clara de ese tipo me llevó a escribir mi propio tutorial claro. (eso agrega cereza en la parte superior de sus tutoriales, al hacer que sus tutoriales sean aún más claros) Mi tutorial “Redes neuronales artificiales para niños” está disponible en Amazon y en quora de forma gratuita.

Por supuesto, es bastante cierto que tratar de encontrar ideas “novedosas” sin mirar primero el campo y tratar de entender lo que está sucediendo es una tontería, pero si has mirado bien el campo, puedes pensar con hipótesis algo novedosas. Hoy discuto abiertamente mi hipótesis con físicos o matemáticos de todo el mundo (ejemplo de discusión 1, ejemplo 2, ejemplo 3).

Al discutir abiertamente sus hipótesis , descubre rápidamente si sus ideas son locas o no, y recibe comentarios de muchos expertos. Como han dicho otros aquí, no intentes invertir tu tiempo en alguna idea, sin primero tratar de entender lo que está sucediendo en el campo. (Fuente 1, fuente 2)

Entonces, aunque las “redes neuronales artificiales supersimétricas” pueden no ser revolucionarias, se trata de obtener representaciones más ricas del espacio de entrada, y por lo tanto es una hipótesis con un objetivo razonable que puede convertirse en parte de la literatura de aprendizaje automático en la práctica; por lo tanto, potencialmente ayuda a evolucionar el campo. Así es como funciona la ciencia, muchas vías óptimas evolucionan el campo de manera constante con el tiempo.

Además de hacer un trabajo experimental, una gran parte de la ciencia, (dado que trata de ver lo que está sucediendo en un campo) está tratando de formular preguntas sensatas y creativas , antes de implementar algo en la práctica.

Todo el aprendizaje automático que se lleva a cabo hoy en día proviene de algoritmos muy antiguos , como back prop, y los autores originales hicieron preguntas sensatas y creativas antes de implementar cualquier cosa.

Sí. Todo el mundo necesita comenzar en algún lugar, y en un campo joven lleno de problemas sin resolver, un enfoque en identificar los grandes problemas y poner a prueba sus propias ideas podría ser más útil que aprender servilmente todo el estado del arte antes de intentar cualquier cosa.

A medida que adquiere más experiencia y una mejor idea de dónde están los problemas difíciles, solo necesita revisar las ideas fundamentales como backprop. A medida que su modelo mental de ANN o AGI se enriquece, una idea que alguna vez fue “gradientes, regla de la cadena, descendencia, importante, bla, bla, bla, estoy perdido” se convierte en “ah, el backprop resuelve este problema con el que sigo encontrándome mis propios experimentos mucho mejor que mi propio truco “.

Admito que, después de 10 años, mi modelo mental de máquinas de vectores de soporte sigue siendo “funciones no lineales, truco del núcleo, bla, bla, bla”. Por otro lado, mi modelo mental de agrupación es probablemente un poco mejor que la mayoría la gente solo porque hubo un tiempo en el que estaba tratando de entender un problema que resultó ser similar a la agrupación, y todos los documentos sobre la agrupación max vs avg parecían triviales.

Mire algunos viejos videos de Richard Feynman: es bastante honesto acerca de los pros y los contras de elaborar su propio mapa de la realidad y luego tratar de integrarlo con conocimiento conocido. Por supuesto, fue exitoso, súper inteligente y educado, las mentes menores podrían inventar TimeCube o teorías de la tierra plana, así que ten cuidado con el comprador.