¿Cuál es la diferencia entre aprendizaje supervisado, no supervisado, refuerzo y aprendizaje profundo?

  • El aprendizaje supervisado significa que tenemos un conjunto de datos que incluye los valores objetivo (los valores que deseamos predecir). Intentamos aprender una función que predice correctamente los valores objetivo de las otras características, que luego se pueden usar para hacer predicciones sobre otros ejemplos. Ejemplos típicos: clasificación, regresión.
  • El aprendizaje no supervisado significa que tenemos un conjunto de datos, pero no hay un objetivo que predecir. Más bien, queremos aprender un modelo que podría haber generado ese conjunto. Ejemplos típicos: agrupamiento, estimación de densidad, reducción de ruido.
  • El aprendizaje de refuerzo es un entorno en el que tenemos un problema de decisión secuencial. Tomar una decisión ahora influye en las decisiones que podemos tomar en el futuro. Se proporciona una función de recompensa que nos dice cuán “buenos” son ciertos estados.
  • El aprendizaje activo es otra configuración, donde el algoritmo puede pedirle a un experto la etiqueta de destino correcta de un ejemplo. Esto permite que el algoritmo se centre en áreas donde el modelo es el menos seguro.

Estas son todas las configuraciones posibles para Machine Learning. Para cada uno de ellos se pueden utilizar todo tipo de modelos de Machine Learning.

El aprendizaje profundo es un tipo particular de modelos. El aprendizaje profundo se puede utilizar en el aprendizaje supervisado, en el aprendizaje no supervisado, en el aprendizaje de refuerzo y en el aprendizaje activo. Existen muchas otras técnicas que tienen mejores propiedades teóricas y lo mejor es comenzar con las técnicas más simples si desea estudiar Machine Learning.

Si le enseñas a tu hijo sobre los diferentes tipos de frutas que están disponibles en el mundo al mostrar la imagen de cada fruta (X) y su nombre (Y), entonces es Aprendizaje supervisado .

Si le pide a su hijo que coloque manzanas en diferentes cubos según el tamaño o el color, entonces es Aprendizaje sin supervisión .

Si le da manzanas a su hijo por la mañana solo después de cepillarse los dientes, entonces es Aprendizaje de refuerzo .

Si le haces todo esto a un adulto bien desarrollado, entonces es Deep Learning .

Refiriéndose a la publicación: ML Basics: aprendizaje supervisado, no supervisado y de refuerzo por Gustavo Machado .

La mejor y simple respuesta que encontré.

ML Basics: aprendizaje supervisado, no supervisado y de refuerzo

He estado siguiendo el espacio de Machine Learning durante un tiempo, y se está convirtiendo en un tema de discusión cada vez más recurrente con los fundadores que desean agregar ML a sus productos. Un problema que parece común es la diferencia entre algoritmos supervisados ​​y no supervisados. Obviamente, la mayoría de las personas no tecnológicas no conocen estos nombres, pero naturalmente tienden a mezclar este tipo de problemas / algoritmos.

Otra fuente de confusión son los algoritmos de “aprendizaje de refuerzo”, así que pensé en publicar una pequeña explicación de cada uno de estos, para aquellos de nosotros que no dominamos el aprendizaje automático (¿todavía?) 🙂

Algoritmos Supervisados

Comenzaré con supervisado, porque creo que es el más simple de entender. En los algoritmos supervisados, es posible que no conozca las relaciones internas de los datos que está procesando, pero sabe muy bien cuál es el resultado que necesita de su modelo. Por ejemplo:

“Necesito poder comenzar a predecir cuándo los usuarios cancelarán sus suscripciones”.

Observe que la salida de su modelo ya está definida: “el usuario X cancelará su suscripción”. Lo que quizás aún no sepa, es CÓMO darse cuenta de qué usuarios cancelarán. Por lo tanto, puede utilizar un conjunto de datos existente para “entrenar” a un modelo en la predicción de este aspecto particular sobre su usuario. La capacitación del modelo generalmente usa parte de los datos para “aprender” y parte de los datos para validar y medir la precisión del modelo.

Entonces, por ejemplo, si tiene un historial de uso de 10.000 usuarios. De estos, quizás 5,000 cancelados y 5,000 todavía están usando su producto. Entonces, lo que puede hacer es tomar datos de 4.500 usuarios que cancelaron y 4.500 de usuarios que todavía usan el producto (datos de 9000 usuarios en total). Entrene a su modelo con estos datos, permitiéndole “ver” qué canceló y cuáles lo están usando. Después de que su modelo esté entrenado, esté listo para comenzar a predecir, por lo que ahora puede alimentar su modelo con los datos de los 1,000 usuarios que dejó, excepto que no permitirá que el modelo vea qué canceló y cuál no. El modelo hará lo mejor para predecir el estado del usuario, y puede compararlo con el valor real. Si de los 1,000 usuarios, el modelo predijo correctamente 891, entonces el modelo tiene una precisión del 89,1%.

Algoritmos no supervisados

Con algoritmos no supervisados, todavía no sabe lo que quiere obtener del modelo todavía. Probablemente sospeche que debe haber algún tipo de relación o correlación entre los datos que tiene, pero los datos son demasiado complejos para tratar de adivinarlos. Entonces, en estos casos, normaliza sus datos en un formato que tenga sentido para comparar, y luego deja que el modelo funcione, es mágico e intenta encontrar algunas de estas relaciones. Una de las características especiales de estos modelos es que, si bien el modelo puede sugerir diferentes formas de categorizar u ordenar sus datos, depende de usted realizar más investigaciones sobre estos para revelar algo útil. Puede pensar que aumenta sus datos con información sobre relaciones internas, pero depende de usted dar sentido a esta nueva información.

Por ejemplo, después de procesar todos los datos relacionados con todos los usuarios de su producto con un algoritmo no supervisado, podría surgir una forma de agrupar a sus usuarios en 2 grupos. Después de inspeccionar y comparar estos dos grupos, es posible que se dé cuenta de que el grupo A está en una ubicación geográfica y el grupo B en otro. Si usted puede actuar sobre esta segmentación particular de los datos, depende de usted averiguarlo y, de lo contrario, tal vez pueda eliminar o reorganizar los datos sobre la ubicación del usuario para forzar una segmentación diferente.

Aprendizaje reforzado

La razón por la que incluí el aprendizaje por refuerzo en este artículo, es que uno podría pensar que “supervisado” y “no supervisado” abarca todos los algoritmos de ML, y en realidad no lo hace. Hay algoritmos que no están supervisados ​​ni sin supervisión, como el aprendizaje por refuerzo.

El aprendizaje por refuerzo es el campo que estudia los problemas y las técnicas que intentan retroalimentar su modelo para mejorar. Para lograr esto, RL necesita poder “detectar” señales, decidir automáticamente una acción y luego comparar el resultado con una definición de “recompensa”. RL trata de averiguar QUÉ hacer para maximizar estas recompensas, pero lo hace solo (sin instrucciones directas).

RL no está supervisado exactamente, porque no se basa estrictamente en un conjunto de datos “supervisados” (o etiquetados) (el conjunto de capacitación). De hecho, se basa en poder monitorear la respuesta de las acciones tomadas y medir en función de la definición de una “recompensa”. Pero tampoco es un aprendizaje no supervisado, ya que sabemos de antemano cuando modelamos a nuestro “alumno”, que es la recompensa esperada.

por Gustavo Machado .