Un PCA divide sus datos en factores ‘ortogonales’ jerárquicos ordenados, lo que lleva a un tipo de agrupaciones que (en contraste con los resultados de los análisis de agrupación típicos) no se correlacionan entre sí (pearson-). (Por cierto: normalmente se correlacionarán débilmente, si no está dispuesto a deconstruir sus datos de entrada de ‘moléculas’ (por ejemplo, oraciones) en sus ‘átomos’ (por ejemplo, palabras derivadas) por completo).
Después de haber logrado un PCA, aplicando un análisis de agrupamiento posterior dentro de uno o algunos de los bloques de datos resultantes que reflejan su estructura factorial encontrada,
- sus datos de entrada tendrán menos, hasta una, (‘main-‘) dimensionalidad, lo que significa que la muestra de datos de entrada restante que se agrupará se volvió menos heterogénea (e idealmente: menos ruidosa)
- por supuesto, dado que está trabajando solo con parte de los datos, el algoritmo de agrupación se ejecutará más rápido
- y debido a que una agrupación posterior subdividirá sus datos (o simplemente ordenará en el caso de una sola dimensión), obtendrá resultados que son más fáciles de interpretar.
- ¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?
- ¿Quién usa OpenNLP?
- ¿Cuál es un buen lugar para comenzar a trabajar en el uso del aprendizaje automático para el modelado de riesgo de crédito?
- ¿Cuál es la forma de generar / Ver resultados intermedios o parciales para la recomendación basada en el usuario en mahout, mientras que el mismo está disponible cuando se hace una recomendación basada en elementos en un modelo distribuido (Hadoop)?
- Cómo corregir el sobreajuste