¿Por qué el Titanic de Kaggle: Machine Learning del desastre es un problema de aprendizaje supervisado?

De la descripción de la pregunta, veo problemas importantes en su comprensión de los algoritmos de ML supervisados y no supervisados. Para empezar, SVM no es un algoritmo de aprendizaje no supervisado. Le recomiendo que lea esta respuesta: la respuesta de Shehroz Khan a ¿Cuál es la diferencia entre los algoritmos de aprendizaje supervisados y no supervisados?

Ok, resolvamos el rompecabezas leyendo la descripción del conjunto de datos Titanic de Kaggle.

La descripción del conjunto de entrenamiento del Titanic de Kaggle dice [1]

Para el conjunto de entrenamiento, proporcionamos el resultado (también conocido como la “verdad básica”) para cada pasajero.

Esto significa que las etiquetas de clase están presentes. Por lo tanto, es un problema de clasificación.

La descripción del conjunto de prueba del Titanic de Kaggle dice

… usa el modelo que entrenaste para predecir si sobrevivieron o no al hundimiento del Titanic.

Esta descripción nos dice que hay dos clases: sobrevivido, muerto. Por lo tanto, es un problema de clasificación de 2 clases o binario .

Si alguien quiere usar agrupación, aprendizaje de refuerzo o mecánica cuántica en estos datos, es su elección; sin embargo, no cambia el hecho de que es un problema de clasificación binaria.

Notas al pie

[1] Titanic: Aprendizaje automático del desastre

Aprendizaje automáticoAprendizaje supervisadoCiencia de datosKaggle

Related Content

¿Son DataFrames el futuro de Spark?

¿Cuáles son las diferencias entre Data Science y Data Mining, son las mismas?

Cómo concentrarme en mis planes (ciencia de datos y programación) para vacaciones de verano

¿Qué habilidades de codificación se necesitan para ser un científico de datos?

¿Cómo hacer un SOP para MS en Data Science? ¿Dónde encuentro una muestra para ello?

¿Cuál es el programa de estudios para la ciencia de datos?

¿Es una buena idea obtener un doctorado en Data Science si quiero trabajar en la industria?

Definitivamente es un problema de aprendizaje supervisado. El conjunto de datos ha etiquetado muestras de entrenamiento , que es la definición de aprendizaje supervisado.

El problema es tratar de predecir etiquetas futuras (si una persona sobrevivió o no). Las muestras de entrenamiento muestran relaciones entre otras variables (características) y etiquetas. Es por eso que se llama supervisado, porque la relación se muestra en las muestras. En el futuro, cuando tengamos características pero no etiquetas, podemos usar la relación inferida para predecir etiquetas.

La agrupación solo se usa en este problema como un paso intermedio para agrupar muestras en categorías. No es estrictamente necesario, y no estoy seguro de si es tan útil.

No sé de dónde sacaste la idea de que SVM es un algoritmo de aprendizaje no supervisado. No es realmente el algoritmo el que determina si no está supervisado. Eso está determinado por el problema y los datos de entrenamiento. Sin embargo, los SVM solo se usan en problemas de aprendizaje supervisado.

José Miguel Arrieta

La primera oración del señor Stand lo dice todo.

Solo como algo aparte … se supervisa aproximadamente el 99% de todo el aprendizaje automático “aplicado” del mundo real.

Tiene un conjunto de datos que se parece a un extenso sethseet y apunta sus modelos a los datos.

Alguien preguntó recientemente … ¿puedes verificar eso?

Seguro. Haga una búsqueda de trabajo en ingeniero de aprendizaje automático. Si ve SQL, Scala, Spark, disputas de datos … etc … significa que la compañía ya tiene los datos y quiere que cree modelos predictivos SUPERVISADOS a partir de sus datos.

Consulte mi curso gratuito en Python para conocer las mejores bibliotecas utilizadas en Python para el aprendizaje automático.

Las 5 mejores bibliotecas de aprendizaje automático en Python – Udemy

Gracias.

José Miguel Arrieta

Porque el enfoque más común es capacitar a un Modelo teniendo en cuenta la verdad básica proporcionada (es decir, las etiquetas de destino y ).

José Miguel Arrieta

More Interesting

¿Qué tan comunes son los métodos bayesianos en la industria?

¿Qué compañía está haciendo el mejor producto de prevención de pérdida de datos en 2015?

¿Existe alguna posibilidad de obtener un mejor trabajo después de la certificación de ciencia de datos?

¿Qué es mejor: Metis o información para el campo de entrenamiento de ciencia de datos?

¿Cuáles son algunas buenas hojas de trucos de ciencia de datos?

¿Qué capacidades debe tener cada equipo de ciencia de datos?

¿Cuál es la demanda de big data?

¿Cómo comenzar a aprender Big Data Hadoop? ¿Hay alguna manera de que pueda aprender por mi cuenta o cualquier material o tutoriales, o necesito unirme a un instituto?

¿Cómo se hace una base de datos que está 'en' el entorno Hadoop?

¿Cómo se usa el SNA (Social Network Analysis) para combatir el fraude o las transacciones fraudulentas?

¿Addepar tiene roles de tipo científico de datos?

¿Por qué algunos gerentes de contratación en ciencia de datos todavía están colgando sobre si tienes un doctorado o no?

¿Cuál es la diferencia entre el plan de datos 292 y 549 de BSNL?

¿Dónde puedo encontrar un ejemplo completo de análisis de datos / proyectos de ciencia de datos?

¿Cuál es una mala manera de comenzar a aprender ciencia de datos, aprendizaje automático y aprendizaje profundo?

Web Analytics