Cómo tratar las variables categóricas al analizar los datos de la encuesta para crear una clasificación

Mientras participo en la investigación industrial de modelar datos categóricos de alta cardinalidad, no puedo compartir los detalles de una solución robusta debido a algunos trajes negros de miedo y su aburrida NDA.

¡Pero el tuyo está lejos de la alta cardinalidad! Así que aquí están mis dos peniques:

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?
¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?
¿Qué significa realmente el valor semilla en el algoritmo de aprendizaje automático?
Quiero extraer acciones del texto y la entidad que actuó y sobre la que se actúa. Cómo proceder ?
Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

Representar cada categoría dentro de un grupo con un vector de tamaño de todas las opciones posibles, las que representan si se seleccionan, parece razonable. si elige que su función de costo sea la función de clasificación, la propagación inversa del error vuelve a alinear los parámetros de peso / modelo a los valores deseados con respecto a su clasificación original.

Si esto es estacionario, ya está; de lo contrario, ignora el costo de volver a entrenar el modelo o se contacta conmigo en privado para analizar métodos no estacionarios para una estimación eficiente de parámetros en línea para datos categóricos en condiciones no estacionarias.

Espero eso ayude.

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

¿Cuáles son los mejores recursos disponibles en línea para aprender a pensar en diseño?

¿Qué ofrecen los chips Loihi de Intel con 'autoaprendizaje', 'núcleos neuromórficos' y 'cómputo de aumento asíncrono'?

¿Vale la pena dejar mi trabajo de desarrollador de software de USD $ 150K para estudiar el aprendizaje automático y el aprendizaje profundo?

¿Qué algoritmo sería bueno para asignar una probabilidad a la coincidencia de dos nombres (John Doe = Mr. Jonathan M Doe II)?

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

Por ejemplo, desea clasificar los hoteles según la escala de satisfacción de sus clientes de 1 a 5.

Depende de la escala, algunas opciones son:
-trata la escala categórica como una variable continua y encuentra el promedio. (algo así como IMDB en las calificaciones de los usuarios para películas o sistema de estrellas de Amazon ¿Es engañosa la “calificación promedio” de Amazon?)

Reducción por% de clientes que están 4 o más satisfechos.

Istvan Varga

Asigne un valor a cada categoría (es posible que no elija una asignación lineal, por lo que “un poco” podría ser +1 y “completamente” +5). Luego, sumas los valores por artículo para obtener tu clasificación. Puede encontrar ejemplos de esto en la literatura sobre diseño de encuestas. Un caso especial es cuando elige los valores para hacer que los datos se ajusten a una curva de campana (por lo que cuanto menos gente elija la categoría superior, más puntos se agregarán si un participante elige esa categoría).

Otra opción sería dejar que las personas clasifiquen las cosas que desea clasificar. O tal vez seleccione sus favoritos gratuitos.

También puede solicitar un valor para crear una clasificación (por lo que le preguntaría a la gente cuánto pagaría por una lata de Coca Cola, luego cuánto pagaría por Pepsi, …). Entonces es más fácil crear una clasificación

Istvan Varga

More Interesting

Si el error de una red neuronal obtiene un buen rendimiento, pero si el entrenamiento aumenta por más tiempo, ¿cuál podría ser el problema con el entrenamiento?

Cómo eliminar una fila completa de un conjunto de datos si encuentro entradas faltantes en R

Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?

¿Por qué la biblioteca de estadísticas de Python es tan limitada en métodos bioestadísticos avanzados en comparación con R, mientras que la biblioteca de Python de Machine Learning es mucho mejor?

¿Qué es la entropía cruzada en palabras fáciles?

¿Quiénes son los grandes nombres en el campo de investigación de los sistemas de recomendación?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿Qué temas de matemáticas recomienda Conner Davis a alguien interesado en el aprendizaje automático teórico para aprender en su tiempo libre?

¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?