Cómo tratar las variables categóricas al analizar los datos de la encuesta para crear una clasificación

Mientras participo en la investigación industrial de modelar datos categóricos de alta cardinalidad, no puedo compartir los detalles de una solución robusta debido a algunos trajes negros de miedo y su aburrida NDA.

¡Pero el tuyo está lejos de la alta cardinalidad! Así que aquí están mis dos peniques:

Representar cada categoría dentro de un grupo con un vector de tamaño de todas las opciones posibles, las que representan si se seleccionan, parece razonable. si elige que su función de costo sea la función de clasificación, la propagación inversa del error vuelve a alinear los parámetros de peso / modelo a los valores deseados con respecto a su clasificación original.

Si esto es estacionario, ya está; de lo contrario, ignora el costo de volver a entrenar el modelo o se contacta conmigo en privado para analizar métodos no estacionarios para una estimación eficiente de parámetros en línea para datos categóricos en condiciones no estacionarias.

Espero eso ayude.

Por ejemplo, desea clasificar los hoteles según la escala de satisfacción de sus clientes de 1 a 5.

Depende de la escala, algunas opciones son:
-trata la escala categórica como una variable continua y encuentra el promedio. (algo así como IMDB en las calificaciones de los usuarios para películas o sistema de estrellas de Amazon ¿Es engañosa la “calificación promedio” de Amazon?)

Reducción por% de clientes que están 4 o más satisfechos.

Asigne un valor a cada categoría (es posible que no elija una asignación lineal, por lo que “un poco” podría ser +1 y “completamente” +5). Luego, sumas los valores por artículo para obtener tu clasificación. Puede encontrar ejemplos de esto en la literatura sobre diseño de encuestas. Un caso especial es cuando elige los valores para hacer que los datos se ajusten a una curva de campana (por lo que cuanto menos gente elija la categoría superior, más puntos se agregarán si un participante elige esa categoría).

Otra opción sería dejar que las personas clasifiquen las cosas que desea clasificar. O tal vez seleccione sus favoritos gratuitos.

También puede solicitar un valor para crear una clasificación (por lo que le preguntaría a la gente cuánto pagaría por una lata de Coca Cola, luego cuánto pagaría por Pepsi, …). Entonces es más fácil crear una clasificación

More Interesting

Si el error de una red neuronal obtiene un buen rendimiento, pero si el entrenamiento aumenta por más tiempo, ¿cuál podría ser el problema con el entrenamiento?

Cómo eliminar una fila completa de un conjunto de datos si encuentro entradas faltantes en R

Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?

¿Por qué la biblioteca de estadísticas de Python es tan limitada en métodos bioestadísticos avanzados en comparación con R, mientras que la biblioteca de Python de Machine Learning es mucho mejor?

¿Qué es la entropía cruzada en palabras fáciles?

¿Quiénes son los grandes nombres en el campo de investigación de los sistemas de recomendación?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿Qué temas de matemáticas recomienda Conner Davis a alguien interesado en el aprendizaje automático teórico para aprender en su tiempo libre?

¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?

¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

¿Alguna de las bibliotecas actuales de aprendizaje profundo permite restricciones de monotonicidad?

He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?

¿Cuál es el mejor software de reconocimiento facial en el mercado?