¿Por qué las variables ficticias realmente producen más precisión en algunos casos para el aprendizaje automático?

Gracias por el A2A.

Las variables ficticias generalmente tienen un efecto mayor cuando las variables tienen una alta dependencia de la etiqueta de clase.

Supongamos que desea clasificar entre médicos y enfermeras y el género era una variable ficticia en su conjunto de características para cada una de las clases. Si la mayoría de los médicos en su conjunto de datos son hombres y la mayoría de las enfermeras son mujeres. Entonces se podría decir que los valores de la variable ficticia tienen una mayor dependencia de la etiqueta de clases.

En un punto de vista más amplio, la variable ficticia agrega otra capa de clasificación a su conjunto de datos. Dado que su variable ficticia crea una partición bien definida en sus datos, una variable altamente dependiente daría una partición que es aproximadamente la misma que la partición creada por las etiquetas de su clase. Esto es algo similar a lo que sucede en un árbol de decisión, donde la clasificación se realiza en cada nodo en función de alguna característica.

Tenga en cuenta que las variables ficticias pueden no ser siempre una buena práctica, ya que es categórica en lugar de cuantificable. Todo se reduce al tipo de datos y la variabe misma.

Aprendizaje automáticoEstadísticainformáticaInteligencia Artificial

¿Qué trabajos actuales estarán a salvo de la automatización y la inteligencia artificial?

¿Qué es lo primero que haría una IA superinteligente si fuera lanzada en este mundo?

¿Qué tipo de preguntas responde mal Watson?

Cómo determinar un desarrollador falso de IA

¿Qué es un buen sitio web para organizar proyectos de bricolaje?

¿Se puede usar el enredo cuántico para eliminar el calor?

Las variables ficticias suelen combinar las variables reales de una manera nueva y permiten al clasificador saber que esta combinación es importante.

Cuando el clasificador es una función lineal del vector de características, entonces el clasificador no siempre puede discriminar entre características basadas en relaciones no lineales. Entonces, cuando las verdaderas superficies de decisión en los datos son funciones no lineales de las variables de entrada originales, verá una potencia predictiva mejorada para los clasificadores lineales porque las relaciones ficticias ocultan las relaciones no lineales ocultas entre las variables originales.

Raunak Jhawar

Se sabe que las variables ficticias o un proceso de enriquecimiento de datos más sofisticado llamado Ingeniería de características producen mejores resultados y puntajes de precisión.

Es importante comprender que una mayor precisión con Feature Engineering es estrictamente una calidad de fumición de las características generadas a partir del conjunto de datos. Las malas características solo reducirán el valor general y la precisión del modelo.

Raunak Jhawar

More Interesting

¿Puede la inteligencia artificial ser infinitamente más inteligente que todos los dioses omniscientes?

¿Dónde encajan los bots en el dominio de interacción humano-computadora?

¿Cuáles son algunos de los artículos / artículos / noticias imprescindibles para un estudiante de doctorado en robótica?

¿Tendrán los humanoides del futuro variaciones en las características físicas como los humanos?

¿Cómo podríamos realmente transferir las capacidades y posibilidades potenciales de la IA a la mejora de la inteligencia y las capacidades humanas?

¿Es un curso de inteligencia artificial adecuado para un graduado en electrónica y comunicación?

¿Qué es un modelo rico en funciones?

¿Qué cambios traerá al mundo la red neuronal profunda CUDA de Nvidia?

¿Cuál es la mejor definición de Inteligencia Artificial?

Cómo construir un sistema de recomendación médica