Las etiquetas de datos siempre deben estar separadas de los datos sin procesar. Recuerde, el objetivo de un clasificador es asignar correctamente etiquetas basadas solo en los datos. Al aplicar la reducción de dimensionalidad, debe mantener las etiquetas separadas de los datos. De hecho, SIEMPRE debe mantener sus etiquetas separadas. Un error fácil de hacer es hacer que sus etiquetas de alguna manera se derramen en sus datos y obtener una precisión realmente alta. ¡Evita esto a toda costa! Siempre pregúntese: ¿tendré esta información en escenarios de la vida real?
Una forma de hacerlo es asignar un identificador único aleatorio a cada instancia de datos y tener una función que convierta esa instancia nuevamente en una etiqueta. También puede crear variables separadas, X conteniendo solo datos e Y conteniendo solo etiquetas. Puede crear objetos con datos de campos y etiquetas. Independientemente de cómo elija hacerlo, asegúrese de que sea consistente y robusto.
Una buena comprobación de cordura si un clasificador está funcionando bien es ver cómo funciona si reasigna aleatoriamente las etiquetas. Si aún funciona bien, es probable que esté sobreajustando o que sus etiquetas se derramen de alguna manera.
- ¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?
- ¿Cuál es la mejor tecnología para aprender entre big data, computación en la nube y aprendizaje automático, y por qué?
- ¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?
- ¿Cuál es el mejor instituto de formación Hadoop de big data en Noida?
- ¿Cuál es mejor para el estudio de big data 'simplilearn' o 'Intellipaat'?