Cómo convertir datos categóricos a datos continuos

Estoy de acuerdo con la mayoría de las respuestas presentadas aquí, sin embargo, creo que hay algunos métodos fundamentales que se perdieron.

Si solo hay unas pocas variables categóricas, puede convertirlas en valores ficticios cuantitativos 0, 1, 2, … Sin embargo, puede encontrar algunos problemas al ejecutar ciertos modelos dependiendo de la naturaleza de ellos.

Algunas personas dicen que “no hay forma de convertir variables categóricas en datos continuos”. No estoy de acuerdo con esto. Hay varias formas de cambiar la naturaleza de una variable discreta dependiendo de con qué más esté trabajando. Aquí hay un ejemplo.

Tome este conjunto de datos de tiros de la NBA de la temporada 2014-2015 que tomé de kaggle. Así es como se ven las primeras filas de datos:

Hay variables cuantitativas y cualitativas. Digamos que quería ejecutar un algoritmo de aprendizaje automático que toma todas las variables y clasifica el resultado del disparo. Las variables “Nombre del jugador” (lanzador) y Defensor más cercano son variables categóricas. Hay 281 factores, por lo que sería ilógico codificarlos con variables ficticias. ¿Eso significa que tenemos que tirarlos? No. La persona que está tomando el tiro y el defensor más cercano son piezas vitales de información y nos gustaría usarlas. Esto es lo que puedes hacer:

Cada jugador tiene datos que lo acompañan. Sabemos cuántos tiros tomó Lebron James esa temporada. Sabemos cuántos entraron y sabemos cuántos no. Toda esta otra información es cuantitativa, entonces, ¿por qué no hacer una variable cuantitativa que sea específica para cada jugador?

Esta función toma a cada jugador y calcula su porcentaje de tiro tomando el número hecho dividido el número hecho más el número perdido. Esto nos dará una variable cuantitativa que es única para cada tomador.

Podemos hacer lo mismo con el defensor más cercano.

Esta función calcula el porcentaje defensivo que es # perdido dividido por # hecho + perdido. Nuevamente, cuantitativo pero único para su variable categórica representativa.

Ahora tenemos una variable cuantitativa para cada variable categórica. shot_percentage es la contraparte cuantitativa de Russell Westbrook. Este número se puede clasificar, puede encontrar la media, hacer todos los diferentes tipos de análisis cuantitativos con él.

Si hay otros datos que siguen a cada variable categórica, puede jugar con ella para convertirla en una variable continua.

Espero que esto ayude.

Análisis de datosAprendizaje automáticoCiencia de datosdatosDatos deestadísticasMinería de

¿En qué medida los roles de Data Science requieren familiaridad con Machine Learning?

¿Cuáles son los métodos para la agrupación de datos de series temporales aplicables a grandes conjuntos de datos?

¿Cómo puede ayudar la ciencia de datos a impulsar a los países en desarrollo?

Si pudiera realizar una pasantía como pasante de minería de datos en cualquier empresa de Silicon Valley, ¿dónde trabajaría y por qué?

¿Por qué es SRAM mejor que DRAM?

Cómo hacer que el software de mi sitio web lea un correo electrónico, capture la ID en el asunto y actúe en función de esa ID

Creo que, en general, la mayoría de los datos categóricos son difíciles de convertir, pero no diría con certeza que no se pueden convertir datos categóricos en datos no categóricos (pero probablemente no sean continuos porque eso implica cierto nivel de precisión). Es posible que pueda crear un equivalente discreto.

Como dijo Naman, puede convertir algunas cosas como el género (si solo lo considera binario) o sí / no. Pero en algunos otros casos, podría convertir datos categóricos más allá de los conjuntos logísticos / binarios.

Es posible que pueda convertir algunos valores de sonido en valores numéricos para decibelios en función de lo que se considera alto, medio o suave para los oídos humanos según algún tipo de estándar.

Si hablabas de colores y sabías cuán intenso era tu rojo, azul anaranjado, podrías usar RGB, HSL o incluso la longitud de onda. Si tuviera la capacidad de comparar los colores con un color de pantalla, podría crear tres variables de una categoría: R, G y B; o los componentes H, S, L.

No tantos tipos de datos se convierten fácilmente, y dependiendo del por qué y para qué puede no ser apropiado, pero hay muchas maneras en que podría ser posible.

La advertencia es que puede no alterar los resultados en muchos casos. Por ejemplo, si todo lo alto se ingresó en el mismo número, digamos 18 (lo que debería ser si está siendo consistente en la conversión), entonces se convierte en una categoría en la que todo lo alto tiene el mismo impacto en el análisis, incluso si los datos son numéricos . Sin embargo, si estaba utilizando 5 o 6 medidas de decibelios en el modelo, pero midiendo continuamente en los datos reales que estaba tratando de predecir, debería poder trabajar con un rango más amplio.

Y encontrar una manera de asignar un número a algo hace posible ejecutar algunos análisis donde las variables categóricas basadas en caracteres no son posibles. Cualquier categoría podría convertirse en una asignación numérica que obligó a seguir siendo numérica, lo que realmente es una forma de utilizar datos categóricos por proxy.

También puede haber consecuencias éticas … algunas de si esto es razonable o no tiene que ver con el uso final del análisis, el escrutinio, la probabilidad de que esto se convierta en un problema después de la revisión … todos tenemos batallas para luchar de esta manera .

Si está haciendo esto para vender más widgets en línea y el modelo funciona mejor, dudo que a alguien le importe específicamente por qué (hasta que falle).

Si está tratando de hacer una inferencia sobre la enfermedad secundaria relacionada con la diabetes, es posible que le resulte más difícil vender el método.

Anton Kovalevsky

Eche un vistazo al documento “La Bóveda de Datos Sintéticos: Modelado Generativo para Bases de Datos Relacionales”.

Ordene las categorías de más frecuentes a menos.
Divida el intervalo [0, 1] en secciones en función de la probabilidad acumulativa para cada categoría.
Para convertir una categoría, encuentre el intervalo [,] ∈ [0, 1] que corresponde a la categoría.
Elija el valor entre y mediante el muestreo de una distribución gaussiana truncada con en el centro del intervalo, y = (-) / 6.

Anton Kovalevsky

Estoy de acuerdo con la respuesta de David. No hay forma de convertir una variable categórica en datos continuos. Sin embargo, lo que puede hacer es usar las variables ficticias (como 1 para mujeres y 0 para hombres) y luego usar la regresión logística o cualquier otro algoritmo de clasificación (como C4.5, SVM) que desee – 1) para predecir a qué clase pertenece una muestra 2) para generar probabilidades para cada muestra (como una muestra de probabilidad del 70% es una mujer, una probabilidad del 30% es un hombre)

Anton Kovalevsky

No es posible pasar de un conjunto de características nominales a algo numérico.

Cuando tenga información adicional, puede usarla. Nominal podría ser el tipo de automóvil y puede interesarle el consumo de combustible …

Si tiene una variable ordinal, puede suponer que esta variable es el resultado de una discretización de alguna variable gaussiana latente subyacente. Esto se hace comúnmente en psicometría.

Anton Kovalevsky

¿Por qué querrías hacer eso de todos modos? Si tiene algún orden inherente en las categorías, tiene sentido (detractor, pasivo, promotor), pero la mayoría de las veces no (vaca, gato, perro) …

Anton Kovalevsky

podrías echar un vistazo a GLM, modelos lineales generalizados en regresión logística o logística, creo que obtienes algo de continuidad … No recuerdo, ¿puedes dar algunas pistas, gracias

Bethany Poulin

More Interesting

Soy un estudiante de 4º año de ingeniería química en India (IIT). Deseo obtener un título en ciencia de datos en los Estados Unidos. ¿Alguien puede sugerir buenas universidades adecuadas para mi perfil?

¿Cuál es el mejor instituto de investigación para la ciencia de datos en India?

¿Qué se entiende por big data?

Para alguien que esté interesado en la "Ciencia de datos", ¿sería más útil una clase sobre combinatoria o procesos estocásticos?

¿Cuál es el mejor curso de especialización en ciencias de datos en línea?

¿Cuáles son las mejores herramientas de código abierto para un científico de datos?

¿Qué instituto es mejor para un curso de ciencia de datos en Hyderabad?

¿Qué es la clasificación en minería de datos?

Cómo aprender ciencia de datos sin conocimientos de matemáticas

¿Cuáles son las aplicaciones de la ciencia de datos y el aprendizaje automático en las industrias de petróleo y gas?