Existen numerosos tipos de técnicas de construcción de conjuntos de características disponibles. Un documento útil para tener en mente al abordar este problema es un buen documento general, como http: //machinelearning.wustl.edu…, de Guyon y Elisseef.
En la sección 5.1, la idea es encontrar varias características similares y reemplazarlas por un centroide de clúster producido por un algoritmo de clúster de su elección. De esta manera, la elección del algoritmo de agrupación puede depender de usted y de las suposiciones que haga sobre la relevancia de lo que hace que dos características sean similares. Esto es algo así como un arte en mi opinión y depende de qué tan bien haya elegido sus características y funciones de costo.
Existen numerosos ejemplos de cómo se usa esto en la práctica, pero lo mejor que he visto es el trabajo realizado con el Análisis de datos topológicos en Ayasdi (tenga en cuenta que estoy en una empresa de capital de riesgo que invirtió en ellos, pero es un trabajo muy convincente), vea su artículo en Nature (Extrayendo ideas de la forma de datos complejos usando topología) para más detalles y esta publicación de blog sobre un conjunto de datos popular, Data Pulls “Yellow Card” en EPL Player Valuation.
- Cómo ahorrar tiempo en la implementación de algoritmos de aprendizaje profundo
- ¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?
- ¿Cuál es el entorno libre de distribución en la teoría del aprendizaje estadístico?
- ¿Cuáles son algunos buenos documentos sobre la extracción de sinónimos de los registros de consultas?
- Durante la limpieza de datos cuando tiene un número decimal que representa el número de personas, ¿debe redondear hacia arriba o hacia abajo? Además, ¿qué sucede si el número total de todos los números redondeados no coincide con el número total de personas, es un error?