Estoy de acuerdo con la mayoría de las respuestas presentadas aquí, sin embargo, creo que hay algunos métodos fundamentales que se perdieron.
Si solo hay unas pocas variables categóricas, puede convertirlas en valores ficticios cuantitativos 0, 1, 2, … Sin embargo, puede encontrar algunos problemas al ejecutar ciertos modelos dependiendo de la naturaleza de ellos.
Algunas personas dicen que “no hay forma de convertir variables categóricas en datos continuos”. No estoy de acuerdo con esto. Hay varias formas de cambiar la naturaleza de una variable discreta dependiendo de con qué más esté trabajando. Aquí hay un ejemplo.
- ¿Se requiere que una persona que realiza análisis de datos / ciencia de datos / aprendizaje automático tenga un buen conocimiento de las estructuras de datos? ¿Si es así por qué?
- ¿Qué se entiende por aprendizaje automático y el futuro de la ciencia de datos en la India?
- ¿Puedo obtener un trabajo de ciencia de datos después de completar el curso de certificación junto con un proyecto en él?
- ¿Cuál es el mejor instituto para aprender ciencia de datos en línea?
- ¿Qué trabajo hacen los miembros de Big Data Lab AKG y cuál es el estado de la ubicación en 2017?
Tome este conjunto de datos de tiros de la NBA de la temporada 2014-2015 que tomé de kaggle. Así es como se ven las primeras filas de datos:
Hay variables cuantitativas y cualitativas. Digamos que quería ejecutar un algoritmo de aprendizaje automático que toma todas las variables y clasifica el resultado del disparo. Las variables “Nombre del jugador” (lanzador) y Defensor más cercano son variables categóricas. Hay 281 factores, por lo que sería ilógico codificarlos con variables ficticias. ¿Eso significa que tenemos que tirarlos? No. La persona que está tomando el tiro y el defensor más cercano son piezas vitales de información y nos gustaría usarlas. Esto es lo que puedes hacer:
Cada jugador tiene datos que lo acompañan. Sabemos cuántos tiros tomó Lebron James esa temporada. Sabemos cuántos entraron y sabemos cuántos no. Toda esta otra información es cuantitativa, entonces, ¿por qué no hacer una variable cuantitativa que sea específica para cada jugador?
Esta función toma a cada jugador y calcula su porcentaje de tiro tomando el número hecho dividido el número hecho más el número perdido. Esto nos dará una variable cuantitativa que es única para cada tomador.
Podemos hacer lo mismo con el defensor más cercano.
Esta función calcula el porcentaje defensivo que es # perdido dividido por # hecho + perdido. Nuevamente, cuantitativo pero único para su variable categórica representativa.
Ahora tenemos una variable cuantitativa para cada variable categórica. shot_percentage es la contraparte cuantitativa de Russell Westbrook. Este número se puede clasificar, puede encontrar la media, hacer todos los diferentes tipos de análisis cuantitativos con él.
Si hay otros datos que siguen a cada variable categórica, puede jugar con ella para convertirla en una variable continua.
Espero que esto ayude.