¿Cómo comparar los algoritmos de clasificación de minería de datos? ¿Hay algún parámetro / punto de referencia para ello?

Para el aprendizaje supervisado, hay un punto de referencia muy bien establecido, a saber, la tasa de error de validación cruzada de dejar-1 fuera: elige una observación (llamémosla X), entrena el modelo en todos los datos, excepto X, y ve si clasifica X correctamente. Repita para todos los valores de X (es decir, si tiene un millón de observaciones, tiene que entrenar un millón de modelos, es de esperar que su jefe pague la electricidad de la computadora).

Para el aprendizaje no supervisado no existe realmente un estándar de oro general. Cada algoritmo tiende a implementar su propio punto de referencia. Aunque a menudo tienen una interpretación como algo similar a la varianza entre conglomerados dividida por la varianza total, puede ser difícil comparar los resultados de diferentes herramientas.

Creo que un punto de referencia razonable, similar a la tasa de error de validación cruzada, podría construirse de la siguiente manera: elija dos observaciones, diga X e Y. Ahora entrene dos modelos basados en dos mitades elegidas al azar de los datos restantes, y registre si los dos modelos acordar si X e Y pertenecen al mismo grupo. Repite innumerables veces. Luego puede calcular una estadística kappa.

AlgoritmosAnálisis deAprendizaje automáticoCiencia de datosClasificacióndatosMinería de

Related Content

¿Cuál es el futuro de Big Data e IOT para tomarlo como una carrera futura después de algunos años de experiencia en la industria india de TI?

¿Cómo es trabajar como científico de datos / analista de datos en una empresa de servicios? ¿Cual es el rol?

Uso mucho Python y R, y me gustaría comenzar una empresa que ofrezca servicios de análisis de datos. ¿Cómo puedo monetizar big data? ¿Donde debería empezar?

¿Cuáles son las preguntas clave al crear un panel de datos?

¿Un disco duro completo normalmente contiene alrededor del 50% de unos y 50% de ceros?

¿Se puede ganar dinero con un negocio web ya hecho?

¿Qué diferencia a una solución típica de Kaggle en algún lugar en el medio del paquete frente a alguien en, digamos, el 5-10% superior?

More Interesting

¿Crees que Data Science es fácil de aprender?

Como soy débil en matemáticas, ¿puedo seguir la maestría en ciencia de datos?

¿Cuáles son las desventajas de hacer una investigación utilizando datos de registros de salud electrónicos anónimos?

¿Puede Python desplazar a R para Data Science?

¿Cómo se importan los datos en la programación R y qué metodologías se utilizan?

¿Cuáles son las métricas que debo usar al analizar las redes sociales de una marca? ¿Cómo interpreto los resultados?

¿Qué es un desarrollador de big data?

¿Cómo se puede aprender Big Data Hadoop en casa si no tiene experiencia laboral y está pensando en comenzar una carrera en Big Data?

¿Existe un curso de ciencia de datos en el Instituto Indio de Ciencia Bangalore?

¿Cuánta variedad hay en un puesto de ciencia de datos?

A los 28 años, y aprendiendo a programar. ¿Me he perdido la oportunidad de conseguir un trabajo en ciencia de datos y aprendizaje automático en el Reino Unido?

¿Qué libro recomienda para aprender sobre todas las habilidades matemáticas que se necesitan para la ciencia de datos para alguien que esté familiarizado con las estadísticas básicas y las matemáticas?

¿Hadoop está saliendo? ¿Se avecina una tecnología que pueda reemplazar toda la forma en que MapReduce consulta en un grupo de máquinas? ¿No puede simplemente automatizar la forma en que ejecuta estas consultas? ¿Es esto lo que Blaze está tratando de lograr?

¿Cómo es trabajar en los centros de datos de grandes empresas? ¿Y cuánto debo estar calificado para trabajar en el Centro de datos de Google?

¿Es necesario un título de maestría en ciencia de datos?

Web Analytics