Para el aprendizaje supervisado, hay un punto de referencia muy bien establecido, a saber, la tasa de error de validación cruzada de dejar-1 fuera: elige una observación (llamémosla X), entrena el modelo en todos los datos, excepto X, y ve si clasifica X correctamente. Repita para todos los valores de X (es decir, si tiene un millón de observaciones, tiene que entrenar un millón de modelos, es de esperar que su jefe pague la electricidad de la computadora).
Para el aprendizaje no supervisado no existe realmente un estándar de oro general. Cada algoritmo tiende a implementar su propio punto de referencia. Aunque a menudo tienen una interpretación como algo similar a la varianza entre conglomerados dividida por la varianza total, puede ser difícil comparar los resultados de diferentes herramientas.
Creo que un punto de referencia razonable, similar a la tasa de error de validación cruzada, podría construirse de la siguiente manera: elija dos observaciones, diga X e Y. Ahora entrene dos modelos basados en dos mitades elegidas al azar de los datos restantes, y registre si los dos modelos acordar si X e Y pertenecen al mismo grupo. Repite innumerables veces. Luego puede calcular una estadística kappa.
- ¿Qué piensa sobre la inmersión en la ciencia de datos de Galvanize en Austin?
- Cómo conseguir un trabajo de aprendizaje automático en 9 meses
- ¿Qué es big data, análisis de negocios, análisis de datos y cómo uno puede convertirse en analista de datos o científico de datos? ¿Hay algún curso a corto plazo?
- Soy un desarrollador de aviónica. No tengo mucho conocimiento sobre qué es la ciencia de datos y la minería. ¿Cómo es esto diferente de big data? ¿Cómo está ayudando esto para la seguridad de la aviación y el MRO de las aeronaves?
- ¿Vale la pena pagar el campamento de datos por Python?