La parte desafortunada es que las computadoras no desarrollan conceptos discretos de lo que constituye un objeto.
Simplemente aprenden el mapeo de entrada a salida.
Por ejemplo, sabemos que los perros tienen cuatro patas, una cola y son lindos y les gusta ladrar a extraños. Los humanos desarrollamos conceptos que pueden usarse para generalizar a condiciones novedosas.
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
- ¿Es posible que una computadora aprenda a distinguir gatos de perros de solo un conjunto de imágenes sin que le digamos qué imágenes son gatos y cuáles son perros, o incluso si hay cosas como gatos y perros, y si es así, cómo es exactamente esto? ¿hecho?
- ¿Por qué se congelan los pesos en el discriminador de GAN durante el entrenamiento?
- ¿Cómo difiere la clasificación de la clasificación? ¿Cómo son similares?
- Tengo un conjunto de datos (audios y transcripciones), necesito saber cómo entrenaré estos datos para crear un modelo acústico que se utilizará para un reconocimiento de voz.
Por ejemplo, algo que puede retener agua, está limpio y lo suficientemente pequeño como para caber en su mano es probablemente una taza.
Algo que es plano sobre el que puedes poner cosas pero que es demasiado grande para transportarlo con frecuencia es probablemente una mesa.
Los algoritmos actuales de aprendizaje automático (ML) no modelan datos de esa manera. Puede tener buenos grupos solo por su apariencia, pero generalizar la forma en que lo hacen los humanos es probablemente la mejor manera. Si se implementa correctamente en las máquinas, este enfoque puede hacer que las máquinas puedan trabajar con menos datos y, por lo tanto, también puedan construir mejores grupos o descubrir nuevos objetos por sí mismos.
Probablemente un enfoque, que no funcionaría bien, es obtener una red neuronal convolucional (CNN) preformada como la red VGG. Elimine las capas completamente conectadas, si las hay, luego toque las características convolucionales (conv) de alto nivel para alimentar un algoritmo de agrupamiento.
Las características de conv de alto nivel se pueden comprimir utilizando métodos de reducción de dimensionalidad antes de alimentar los esquemas de agrupación de vecinos más cercanos, k-means, aglomerativos o recíprocos.
Es posible que obtenga buenos grupos de esa manera, pero en realidad no serán grupos puros. Es decir, un grupo que se supone que representa montañas podría tener impurezas como pájaros o perros, todo mezclado de una manera extraña.
Un enfoque más avanzado requeriría alguna forma de aprendizaje supervisado, pero podemos obtener la señal de supervisión de manera no supervisada.
Por ejemplo, los humanos aprendemos cosas porque de alguna manera somos supervisados indirectamente por otros y por nosotros mismos, aprendemos de los demás. Por lo tanto, para facilitarlo, podemos permitir que los algoritmos de aprendizaje extraigan señales de supervisión. Tal vez podamos usar videos con audio y mina para palabras clave como montaña, platos o animales y cada vez que el sistema mencione y detecte esas palabras clave, puede etiquetar esos pocos fotogramas con esa palabra clave.
Entonces podemos usar los marcos etiquetados en una forma de aprendizaje supervisado que hace que el algoritmo general sea semi-supervisado porque no le dijimos explícitamente que esto es una montaña o un perro.
Sin embargo, esto es una especie de trampa.
Incluso un niño humano recibe tal supervisión indirecta cuando escucha a un adulto decir cosas como “eso es una montaña”, “eso es un gato” o algo así y la mente del niño construye un modelo inicial a partir de eso.
Pero la belleza del cerebro humano es que aprende de cantidades extremadamente pequeñas de ejemplos y la forma en que generalizamos es muy diferente de la forma en que las computadoras generalizan. Di algunos ejemplos anteriores mediante los cuales generalizamos a través del razonamiento.
No siempre agrupamos las cosas solo por la apariencia, podemos agrupar las cosas según la similitud presente en cómo se puede usar ese objeto. Otro ejemplo es que si puede sentarse en algo, entonces es probable que sea una silla o un banco, incluso si su apariencia puede ser muy diferente de las sillas o bancos que ha visto antes en su vida. Este tipo de generalización es actualmente extremadamente difícil de realizar en las máquinas.
Así que sí creo que solo dar a una computadora millones de imágenes puede dar buenos grupos, pero esos grupos serán impuros sin alguna forma de aprendizaje supervisado.
Y podemos extraer las señales de supervisión implícitamente si utilizamos formas más ricas de señales como videos con sonido. Por ejemplo, un perro ladra y puede ser posible usar el sonido de los ladridos para ayudar a etiquetar los fotogramas de video que contiene el perro. Incluso si algunas etiquetas pueden estar equivocadas teniendo en cuenta que ese enfoque de etiquetado puede ser propenso a errores, los videos aún tienen muchos más cuadros, por lo que los valores atípicos pueden ahogarse fácilmente en la gran cantidad de información contenida en el video.
Espero que esto ayude.