La clasificación es una función de minería de datos que asigna elementos en una colección a categorías o clases de destino. El objetivo de la clasificación es predecir con precisión la clase objetivo para cada caso en los datos.
Por ejemplo, un modelo de clasificación podría usarse para identificar a los solicitantes de préstamos como riesgos crediticios bajos, medios o altos.
Una tarea de clasificación comienza con un conjunto de datos en el que se conocen las asignaciones de clase. Por ejemplo, un modelo de clasificación que predice el riesgo de crédito podría desarrollarse en base a los datos observados para muchos solicitantes de préstamos durante un período de tiempo. Además de la calificación crediticia histórica, los datos pueden rastrear el historial de empleo, la propiedad de la vivienda o el alquiler, los años de residencia, el número y el tipo de inversiones, etc. La calificación crediticia sería el objetivo, los otros atributos serían los predictores, y los datos para cada cliente constituirían un caso.
- ¿Cómo es trabajar en una empresa de consultoría en ciencia de datos?
- ¿Qué tan difícil es ser admitido en el campo de entrenamiento de ciencia de datos de Insight?
- ¿Cuál es la diferencia entre la recuperación de información y la minería de datos? ¿Cómo se relacionan los grandes datos con estas dos técnicas diferentes?
- ¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?
- ¿Es Python el lenguaje de programación más importante para el análisis de datos?
El tipo más simple de problema de clasificación es la clasificación binaria. En la clasificación binaria, el atributo de destino tiene solo dos valores posibles: por ejemplo, calificación crediticia alta o calificación crediticia baja. Los objetivos de varias clases tienen más de dos valores: por ejemplo, calificación crediticia baja, media, alta o desconocida.
En el proceso de construcción del modelo (entrenamiento), un algoritmo de clasificación encuentra relaciones entre los valores de los predictores y los valores del objetivo. Diferentes algoritmos de clasificación utilizan diferentes técnicas para encontrar relaciones. Estas relaciones se resumen en un modelo, que luego se puede aplicar a un conjunto de datos diferente en el que se desconocen las tareas de clase.
Los modelos de clasificación se prueban comparando los valores pronosticados con los valores objetivo conocidos en un conjunto de datos de prueba. Los datos históricos para un proyecto de clasificación generalmente se dividen en dos conjuntos de datos: uno para construir el modelo; el otro para probar el modelo. Consulte ” Prueba de un modelo de clasificación “.
La clasificación tiene muchas aplicaciones en la segmentación de clientes, modelado de negocios, mercadeo, análisis de crédito y modelado biomédico y de respuesta a medicamentos.
Lee mas…