¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

Puede usar una de las dos técnicas de uso común para tratar con variables categóricas:

  1. One-Hot Encoding – Convierte una variable con N clases en N variables separadas con etiquetas binarias. Repita para cada una de las 3 variables.
  2. Codificación de etiquetas: asigna variables categóricas a enteros.

La codificación de etiquetas funciona solo si hay un orden inherente en las variables. Las variables como estas se llaman ordinales . El ejemplo sería una variable como los días de la semana. El lunes puede ser un 1, el martes puede ser 2 y así sucesivamente. Aquí el clasificador supondría que 2 es mayor que 1 de alguna manera, lo cual está bien ya que hay algún orden en la variable.

Una codificación activa es para el caso en que las variables no son ordinales, como los nombres de lugares. Esto también se usa mucho en el procesamiento del lenguaje natural.

Debería leer más sobre estos métodos. Ambos tienen sus usos y son necesarios para que funcionen clasificadores como la regresión logística. Ambos se implementan fácilmente en Python y R.

No importa en qué escala estén sus variables independientes en una regresión logística, puede proceder fácilmente. Lo único que debe asegurarse es que su variable dependiente sea binaria (para regresión logística binaria) y ordinal (para regresión logística ordinal)

Solo que tiene que interpretar los resultados de manera diferente cuando se mide en una escala diferente.

Pero sí, la ejecución es igual y muy posible.

¿Puedes por favor elaborar más sobre esto? ¿Qué quieres decir con cómo lidiar con daa que tiene 3 variables categóricas?

More Interesting

¿Cómo se compara Caffe 2 con TensorFlow?

¿Cuál es la diferencia entre un sistema experto y el aprendizaje automático?

¿Cuál es la diferencia entre rpart y randomForest en R?

¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?

¿Cuál es el beneficio de usar métodos de detección de comunidad gráfica sobre los enfoques de agrupación de datos y aprendizaje automático?

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

¿Hay proveedores de reconocimiento de voz que aún brinden soluciones de servidor en las instalaciones (no en la nube) en 2017?

¿Podría la IA volverse autónoma y aprender y adaptarse de manera no supervisada a través del aprendizaje profundo?

¿Por qué los CNN son mejores en clasificación que los RNN?

Cómo usar la prueba T de Student para la selección de funciones

Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

¿Cuáles son las áreas más activas de investigación de aprendizaje automático para la aplicación de datos tabulares? Mis datos están en forma de CSV con unos pocos miles de instancias.

¿Cuál es la diferencia entre la taxonomía automática y la generación de clasificación?

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?