¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?
El aprendizaje profundo es muy bueno con datos no estructurados (imágenes, texto, audio, …) …
Te equivocas.
Las imágenes, el texto y el audio están muy estructurados. De hecho, esto es lo que aprende en la primera conferencia de cualquier curso de procesamiento de imágenes, PNL o procesamiento del habla.
- ¿Cuál es la relación entre relevancia y aprendizaje automático?
- Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?
- ¿Qué profesores / grupos / laboratorios están trabajando en el aprendizaje profundo en el MIT?
- ¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?
- Cómo estructurar sus proyectos de aprendizaje automático
El texto no tiene letras o palabras aleatorias como vecinas. ¡Hay algo llamado diccionario, y la gente generalmente sigue la ortografía en ese diccionario! Luego hay reglas gramaticales formales o informales sobre cómo esas palabras se pueden ubicar entre sí. ¡Esto es lo que significa estructura!
Del mismo modo, las imágenes del mundo real no tienen píxeles aleatorios uno al lado del otro. Nunca esperas ver la siguiente imagen en el mundo real.
En las imágenes que casi siempre caen en nuestras retinas, los píxeles cercanos suelen tener un valor cercano entre sí, con bordes repentinos que separan las diferentes regiones. Esta es la estructura !! En un nivel superior, tanto los objetos hechos por el hombre como los naturales tienen ciertas geometrías, las variaciones de iluminación están dentro de cierto rango, se miran los puntos de vista típicos de los objetos y así sucesivamente. ¡Todo esto es estructura! [Por supuesto, podría haber un componente de ruido aditivo encima de ellos, que podría no estar estructurado y dificultar el reconocimiento visual].
De hecho, recuerdo que Takeo Kanade solía dar estas conferencias donde decía que el espacio de las imágenes “posibles” es tan grande, que toda la humanidad ni siquiera vería todas las combinaciones posibles de una imagen de 10 × 10 con 256 niveles de escala de grises, que son 256 ^ (10 × 10) imágenes diferentes! La única razón por la que podemos entender las imágenes es porque están altamente estructuradas.
Lo mismo para el discurso. Cuando hablas con tus amigos, no es un engullido aleatorio que estás obteniendo el nivel de señal. Todos usan sonidos comúnmente conocidos (correspondientes a ciertas palabras) espaciados por un rango natural de espacio en blanco. Entonces el discurso también está altamente estructurado. Solo piense en cuántos sonidos diferentes puede emitir desde su boca, de hecho intente hacer sonidos completamente al azar durante un minuto. ¡Ver! ¡Eso no sonaba como un discurso natural en absoluto! ¡Porque el habla natural tiene mucha estructura!
En cuanto a la segunda parte de su pregunta, es más difícil de aprender además de las características creadas por humanos de baja dimensión (por ejemplo, poner una CNN profunda encima de la representación densa de imágenes HoG), porque esas características desechan mucha de la información inherente en los datos en bruto. Eso es lo que deben hacer. Están destinados a ser invariantes a variaciones insignificantes, por ejemplo, variaciones de iluminación al hacer el reconocimiento de objetos. Por supuesto, no son muy eficientes incluso para hacerlo, razón por la cual las características aprendidas por CNN (en un entorno estándar) son superiores. Pero como ya arrojas información importante, ¡no hay mucho para que aprenda una CNN profunda! Eche un vistazo al teorema de desigualdad de datos, que básicamente dice: “¡no se puede obtener más información al torturar sus datos!”.
Desigualdad de procesamiento de datos – Wikipedia
Puedo ir un paso más allá y decir que el Aprendizaje automático, incluido el Aprendizaje profundo, de hecho todo AI, trata casi exclusivamente con datos “estructurados”. Los datos no estructurados son completamente inútiles, los datos altamente no estructurados son lo que obtienes cuando tienes una baja relación señal / ruido. ¡Para eso tienes estadísticas!