¿Por qué el Titanic de Kaggle: Machine Learning del desastre es un problema de aprendizaje supervisado?

De la descripción de la pregunta, veo problemas importantes en su comprensión de los algoritmos de ML supervisados ​​y no supervisados. Para empezar, SVM no es un algoritmo de aprendizaje no supervisado. Le recomiendo que lea esta respuesta: la respuesta de Shehroz Khan a ¿Cuál es la diferencia entre los algoritmos de aprendizaje supervisados ​​y no supervisados?

Ok, resolvamos el rompecabezas leyendo la descripción del conjunto de datos Titanic de Kaggle.

La descripción del conjunto de entrenamiento del Titanic de Kaggle dice [1]

Para el conjunto de entrenamiento, proporcionamos el resultado (también conocido como la “verdad básica”) para cada pasajero.

Esto significa que las etiquetas de clase están presentes. Por lo tanto, es un problema de clasificación.

La descripción del conjunto de prueba del Titanic de Kaggle dice

… usa el modelo que entrenaste para predecir si sobrevivieron o no al hundimiento del Titanic.

Esta descripción nos dice que hay dos clases: sobrevivido, muerto. Por lo tanto, es un problema de clasificación de 2 clases o binario .

Si alguien quiere usar agrupación, aprendizaje de refuerzo o mecánica cuántica en estos datos, es su elección; sin embargo, no cambia el hecho de que es un problema de clasificación binaria.

Notas al pie

[1] Titanic: Aprendizaje automático del desastre

Definitivamente es un problema de aprendizaje supervisado. El conjunto de datos ha etiquetado muestras de entrenamiento , que es la definición de aprendizaje supervisado.

El problema es tratar de predecir etiquetas futuras (si una persona sobrevivió o no). Las muestras de entrenamiento muestran relaciones entre otras variables (características) y etiquetas. Es por eso que se llama supervisado, porque la relación se muestra en las muestras. En el futuro, cuando tengamos características pero no etiquetas, podemos usar la relación inferida para predecir etiquetas.

La agrupación solo se usa en este problema como un paso intermedio para agrupar muestras en categorías. No es estrictamente necesario, y no estoy seguro de si es tan útil.

No sé de dónde sacaste la idea de que SVM es un algoritmo de aprendizaje no supervisado. No es realmente el algoritmo el que determina si no está supervisado. Eso está determinado por el problema y los datos de entrenamiento. Sin embargo, los SVM solo se usan en problemas de aprendizaje supervisado.

La primera oración del señor Stand lo dice todo.

Solo como algo aparte … se supervisa aproximadamente el 99% de todo el aprendizaje automático “aplicado” del mundo real.

Tiene un conjunto de datos que se parece a un extenso sethseet y apunta sus modelos a los datos.

Alguien preguntó recientemente … ¿puedes verificar eso?

Seguro. Haga una búsqueda de trabajo en ingeniero de aprendizaje automático. Si ve SQL, Scala, Spark, disputas de datos … etc … significa que la compañía ya tiene los datos y quiere que cree modelos predictivos SUPERVISADOS a partir de sus datos.

Consulte mi curso gratuito en Python para conocer las mejores bibliotecas utilizadas en Python para el aprendizaje automático.

Las 5 mejores bibliotecas de aprendizaje automático en Python – Udemy

Gracias.

Porque el enfoque más común es capacitar a un Modelo teniendo en cuenta la verdad básica proporcionada (es decir, las etiquetas de destino y ).