Cómo mantener las etiquetas de datos al reducir la dimensionalidad de los datos con scikit-learn

Las etiquetas de datos siempre deben estar separadas de los datos sin procesar. Recuerde, el objetivo de un clasificador es asignar correctamente etiquetas basadas solo en los datos. Al aplicar la reducción de dimensionalidad, debe mantener las etiquetas separadas de los datos. De hecho, SIEMPRE debe mantener sus etiquetas separadas. Un error fácil de hacer es hacer que sus etiquetas de alguna manera se derramen en sus datos y obtener una precisión realmente alta. ¡Evita esto a toda costa! Siempre pregúntese: ¿tendré esta información en escenarios de la vida real?

Una forma de hacerlo es asignar un identificador único aleatorio a cada instancia de datos y tener una función que convierta esa instancia nuevamente en una etiqueta. También puede crear variables separadas, X conteniendo solo datos e Y conteniendo solo etiquetas. Puede crear objetos con datos de campos y etiquetas. Independientemente de cómo elija hacerlo, asegúrese de que sea consistente y robusto.

Una buena comprobación de cordura si un clasificador está funcionando bien es ver cómo funciona si reasigna aleatoriamente las etiquetas. Si aún funciona bien, es probable que esté sobreajustando o que sus etiquetas se derramen de alguna manera.

¿Te refieres a las etiquetas de las características, los nombres de las columnas que colocaste en la PCA?

PCA enreda todas las columnas.

En la matriz que sale, cada columna es una mezcla de TODAS las columnas originales (excepto en casos especiales que no ocurren en datos reales).

Esas etiquetas se han ido, bruh.

PCA no selecciona características. Los mezcla para generar otros nuevos.

More Interesting

¿Cómo se compara KNIME con Alteryx independientemente del factor de fijación de precios? ¿Cúal me recomiendas?

¿Estar basado en datos es un rasgo fundamental de la personalidad, o puede adquirirse como una habilidad?

¿Cuáles son los inconvenientes de Mongo DB? ¿Es bueno comenzar una carrera con la ciencia de datos?

¿Qué herramientas e idiomas necesito saber para convertirme en un científico de datos en el futuro?

¿Siempre estamos mejor con más datos en Machine Learning en la práctica?

¿Deberían los científicos de datos estar bien versados ​​en informática o ciencias computacionales?

No tengo ningún conocimiento sobre la ciencia de datos o cualquier tema relacionado, pero me gradué en informática, ¿cómo puedo aprender lo mismo y comenzar una carrera?

¿Cuál es la mejor manera de obtener consistentemente solo el texto / artículo principal de un sitio como The Verge o Forbes con Beautiful Soup y Python?

¿Qué es la ciencia de datos? Estoy interesado en los conceptos de minería de datos ¿Alguien podría sugerir por dónde empezar?

¿Cómo es trabajar en una empresa de consultoría en ciencia de datos?

¿Debo aprender a fondo la ciencia de datos o la nube? ¿Qué paga más en estos días?

¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

¿Cuál debería ser mi plan de estudio para convertirme en científico de datos?

¿Por qué pasarías a la ciencia de datos de ser consultor?

¿Cómo será una carrera en análisis de big data en los próximos años?