Refiriéndose a la publicación: ML Basics: aprendizaje supervisado, no supervisado y de refuerzo por Gustavo Machado .
La mejor y simple respuesta que encontré.
ML Basics: aprendizaje supervisado, no supervisado y de refuerzo
He estado siguiendo el espacio de Machine Learning durante un tiempo, y se está convirtiendo en un tema de discusión cada vez más recurrente con los fundadores que desean agregar ML a sus productos. Un problema que parece común es la diferencia entre algoritmos supervisados y no supervisados. Obviamente, la mayoría de las personas no tecnológicas no conocen estos nombres, pero naturalmente tienden a mezclar este tipo de problemas / algoritmos.
Otra fuente de confusión son los algoritmos de “aprendizaje de refuerzo”, así que pensé en publicar una pequeña explicación de cada uno de estos, para aquellos de nosotros que no dominamos el aprendizaje automático (¿todavía?) 🙂
Algoritmos Supervisados
Comenzaré con supervisado, porque creo que es el más simple de entender. En los algoritmos supervisados, es posible que no conozca las relaciones internas de los datos que está procesando, pero sabe muy bien cuál es el resultado que necesita de su modelo. Por ejemplo:
“Necesito poder comenzar a predecir cuándo los usuarios cancelarán sus suscripciones”.
Observe que la salida de su modelo ya está definida: “el usuario X cancelará su suscripción”. Lo que quizás aún no sepa, es CÓMO darse cuenta de qué usuarios cancelarán. Por lo tanto, puede utilizar un conjunto de datos existente para “entrenar” a un modelo en la predicción de este aspecto particular sobre su usuario. La capacitación del modelo generalmente usa parte de los datos para “aprender” y parte de los datos para validar y medir la precisión del modelo.
Entonces, por ejemplo, si tiene un historial de uso de 10.000 usuarios. De estos, quizás 5,000 cancelados y 5,000 todavía están usando su producto. Entonces, lo que puede hacer es tomar datos de 4.500 usuarios que cancelaron y 4.500 de usuarios que todavía usan el producto (datos de 9000 usuarios en total). Entrene a su modelo con estos datos, permitiéndole “ver” qué canceló y cuáles lo están usando. Después de que su modelo esté entrenado, esté listo para comenzar a predecir, por lo que ahora puede alimentar su modelo con los datos de los 1,000 usuarios que dejó, excepto que no permitirá que el modelo vea qué canceló y cuál no. El modelo hará lo mejor para predecir el estado del usuario, y puede compararlo con el valor real. Si de los 1,000 usuarios, el modelo predijo correctamente 891, entonces el modelo tiene una precisión del 89,1%.
Algoritmos no supervisados
Con algoritmos no supervisados, todavía no sabe lo que quiere obtener del modelo todavía. Probablemente sospeche que debe haber algún tipo de relación o correlación entre los datos que tiene, pero los datos son demasiado complejos para tratar de adivinarlos. Entonces, en estos casos, normaliza sus datos en un formato que tenga sentido para comparar, y luego deja que el modelo funcione, es mágico e intenta encontrar algunas de estas relaciones. Una de las características especiales de estos modelos es que, si bien el modelo puede sugerir diferentes formas de categorizar u ordenar sus datos, depende de usted realizar más investigaciones sobre estos para revelar algo útil. Puede pensar que aumenta sus datos con información sobre relaciones internas, pero depende de usted dar sentido a esta nueva información.
Por ejemplo, después de procesar todos los datos relacionados con todos los usuarios de su producto con un algoritmo no supervisado, podría surgir una forma de agrupar a sus usuarios en 2 grupos. Después de inspeccionar y comparar estos dos grupos, es posible que se dé cuenta de que el grupo A está en una ubicación geográfica y el grupo B en otro. Si usted puede actuar sobre esta segmentación particular de los datos, depende de usted averiguarlo y, de lo contrario, tal vez pueda eliminar o reorganizar los datos sobre la ubicación del usuario para forzar una segmentación diferente.
Aprendizaje reforzado
La razón por la que incluí el aprendizaje por refuerzo en este artículo, es que uno podría pensar que “supervisado” y “no supervisado” abarca todos los algoritmos de ML, y en realidad no lo hace. Hay algoritmos que no están supervisados ni sin supervisión, como el aprendizaje por refuerzo.
El aprendizaje por refuerzo es el campo que estudia los problemas y las técnicas que intentan retroalimentar su modelo para mejorar. Para lograr esto, RL necesita poder “detectar” señales, decidir automáticamente una acción y luego comparar el resultado con una definición de “recompensa”. RL trata de averiguar QUÉ hacer para maximizar estas recompensas, pero lo hace solo (sin instrucciones directas).
RL no está supervisado exactamente, porque no se basa estrictamente en un conjunto de datos “supervisados” (o etiquetados) (el conjunto de capacitación). De hecho, se basa en poder monitorear la respuesta de las acciones tomadas y medir en función de la definición de una “recompensa”. Pero tampoco es un aprendizaje no supervisado, ya que sabemos de antemano cuando modelamos a nuestro “alumno”, que es la recompensa esperada.
por Gustavo Machado .