¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?

¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?
El aprendizaje profundo es muy bueno con datos no estructurados (imágenes, texto, audio, …) …

Te equivocas.

Las imágenes, el texto y el audio están muy estructurados. De hecho, esto es lo que aprende en la primera conferencia de cualquier curso de procesamiento de imágenes, PNL o procesamiento del habla.

El texto no tiene letras o palabras aleatorias como vecinas. ¡Hay algo llamado diccionario, y la gente generalmente sigue la ortografía en ese diccionario! Luego hay reglas gramaticales formales o informales sobre cómo esas palabras se pueden ubicar entre sí. ¡Esto es lo que significa estructura!

Del mismo modo, las imágenes del mundo real no tienen píxeles aleatorios uno al lado del otro. Nunca esperas ver la siguiente imagen en el mundo real.

En las imágenes que casi siempre caen en nuestras retinas, los píxeles cercanos suelen tener un valor cercano entre sí, con bordes repentinos que separan las diferentes regiones. Esta es la estructura !! En un nivel superior, tanto los objetos hechos por el hombre como los naturales tienen ciertas geometrías, las variaciones de iluminación están dentro de cierto rango, se miran los puntos de vista típicos de los objetos y así sucesivamente. ¡Todo esto es estructura! [Por supuesto, podría haber un componente de ruido aditivo encima de ellos, que podría no estar estructurado y dificultar el reconocimiento visual].

De hecho, recuerdo que Takeo Kanade solía dar estas conferencias donde decía que el espacio de las imágenes “posibles” es tan grande, que toda la humanidad ni siquiera vería todas las combinaciones posibles de una imagen de 10 × 10 con 256 niveles de escala de grises, que son 256 ^ (10 × 10) imágenes diferentes! La única razón por la que podemos entender las imágenes es porque están altamente estructuradas.

Lo mismo para el discurso. Cuando hablas con tus amigos, no es un engullido aleatorio que estás obteniendo el nivel de señal. Todos usan sonidos comúnmente conocidos (correspondientes a ciertas palabras) espaciados por un rango natural de espacio en blanco. Entonces el discurso también está altamente estructurado. Solo piense en cuántos sonidos diferentes puede emitir desde su boca, de hecho intente hacer sonidos completamente al azar durante un minuto. ¡Ver! ¡Eso no sonaba como un discurso natural en absoluto! ¡Porque el habla natural tiene mucha estructura!

En cuanto a la segunda parte de su pregunta, es más difícil de aprender además de las características creadas por humanos de baja dimensión (por ejemplo, poner una CNN profunda encima de la representación densa de imágenes HoG), porque esas características desechan mucha de la información inherente en los datos en bruto. Eso es lo que deben hacer. Están destinados a ser invariantes a variaciones insignificantes, por ejemplo, variaciones de iluminación al hacer el reconocimiento de objetos. Por supuesto, no son muy eficientes incluso para hacerlo, razón por la cual las características aprendidas por CNN (en un entorno estándar) son superiores. Pero como ya arrojas información importante, ¡no hay mucho para que aprenda una CNN profunda! Eche un vistazo al teorema de desigualdad de datos, que básicamente dice: “¡no se puede obtener más información al torturar sus datos!”.

Desigualdad de procesamiento de datos – Wikipedia

Puedo ir un paso más allá y decir que el Aprendizaje automático, incluido el Aprendizaje profundo, de hecho todo AI, trata casi exclusivamente con datos “estructurados”. Los datos no estructurados son completamente inútiles, los datos altamente no estructurados son lo que obtienes cuando tienes una baja relación señal / ruido. ¡Para eso tienes estadísticas!

Es porque los alumnos profundos son excelentes en la extracción de características. Es casi imposible para los humanos capturar la esencia de un conjunto de datos multidimensional y relativamente grande. Una imagen en escala de grises de 28 × 28 de 8 bits tiene 784 dimensiones, cada una de las cuales puede variar entre 0 y 255. Entregue 60,000 imágenes de entrenamiento a un experto humano y permítale descubrir las mejores características que describen las clases. Apuesto a que ningún experto miraría todas las muestras. Por cierto, ese es el conjunto de datos MNIST de dígitos escritos a mano y se considera como un conjunto de juguetes para estudiantes profundos.

Las características hechas a mano son diseñadas por expertos humanos que dependen del conocimiento previo en lugar de los detalles del conjunto de datos. Esas características vendrían de una información más abstracta del dominio, son incompletas y a veces francamente incorrectas. Reducimos la dimensionalidad del dominio a través de estas características y perdemos información valiosa más allá de la recuperación. No queda mucho por hacer para el alumno profundo.

¿Te importa señalar ejemplos? Por lo que he visto, el aprendizaje profundo casi siempre puede igualar la sota de otras técnicas de ml. En cuanto a por qué no hacen lo mejor en datos estructurados en relación con la forma en que explotaron todo fuera del agua en las imágenes, es realmente una incógnita ya que no sabemos exactamente cómo funciona realmente el aprendizaje profundo. Supongo que simplemente hemos estado aplicando los tipos incorrectos de redes.

El aprendizaje profundo, o red neuronal profunda, también funciona bien en datos estructurados.

Según mi experiencia, solo lleva más tiempo que otros aprendizajes automáticos entrenar a un modelo.

More Interesting

Cómo implementar un algoritmo de fijación de precios dinámico en Hadoop

¿Existe un sistema de IA más eficiente que el Watson de IBM?

Estoy acostumbrado a codificar con C ++ y C #. ¿Cuál recomendaría implementar proyectos de ML a pequeña escala (NN y CNN clásicos) sin reinventar la rueda?

Si ya hemos conocido una función, ¿podemos generar una red neuronal para la inferencia, sin pasar por el proceso de capacitación que consume tiempo y energía?

En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

¿Debería incluirse el error de salida en la retropropagación en el bucle?

¿Qué se entiende por agrupamiento jerárquico aglomerativo?

¿Qué piensan los expertos en sistemas de recomendación sobre el documento 'Estimación del impacto causal de los sistemas de recomendación a partir de datos de observación'?

# ¿Cómo puedo comenzar un trabajo de investigación sobre aprendizaje automático?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Cuál sería un enfoque razonable para optimizar los ingresos publicitarios del sitio web utilizando datos de GA y aprendizaje automático?

Al diseñar nuevas arquitecturas de aprendizaje profundo, ¿cómo se determina si la arquitectura es mala o si la optimización del modelo es el problema?

Cómo encontrar grupos en estos datos

¿Cuál es el mejor instituto en Bangalore para aprendizaje automático, inteligencia artificial y aprendizaje profundo (necesita práctica)?

¿Podemos usar un algoritmo no supervisado para realizar análisis de sentimientos?