¿Cuál es el mejor algoritmo para elegir para la tarea de aprendizaje automático de agrupar una base de datos de listados de casas con sus propiedades (algunos de los cuales son binarios y otros son numéricos y preferiblemente con la primera imagen)?

Como no he aplicado personalmente algoritmos de agrupamiento (o de hecho ningún ML) a tales conjuntos de datos, no puedo decir con certeza. De hecho, esto generalmente dependerá del conjunto de datos específico, es decir, generalmente no existe un solo ‘mejor algoritmo’ para nada, ni siquiera para la agrupación. A veces uno funciona mejor, otras veces funciona mejor.

Sin embargo, sugeriría que con pocas (digamos <10) variables y no demasiadas (digamos <50K puntos en total) algunos de los algoritmos de agrupación estándar como K-Means y Fuzzy C Means le darán algunas pistas de lo que podría seguir adelante Sin embargo, tenga en cuenta que algunos de esos dos algoritmos particulares crearán límites lineales entre los grupos: líneas nítidas en el primer caso y líneas difusas (probabilísticas) en el último caso. Esto puede o no estar bien, dependiendo de la complejidad de las relaciones entre las características. Para relaciones más complejas y no lineales, puede probar el aprendizaje no supervisado de sus características.

Mezclar una imagen con otros datos no es imposible, pero hace las cosas más difíciles, a menos que primero entrene un ConvNet separado con imágenes y alguna otra característica como etiqueta.

Para las tareas de agrupación, puede elegir métodos de aprendizaje profundo como el mapa de organización automática (SOM) o los codificadores automáticos. Pero esto no se puede prescribir ciertamente.

Varias situaciones deben estar disponibles para tomar una decisión. Por ejemplo, ¿cuál es el tamaño de su conjunto de datos? ¿Cuál es el número de características de cada ejemplo de datos? ¿Cuál es la proporción de ruido en el conjunto de datos? ¿Cuántos grupos cree que existen en el conjunto de datos? A menos que proporcione los detalles, es muy difícil predecir la aplicabilidad de las técnicas de ML. La conclusión es que debe invertir un tiempo considerable en el análisis de datos antes de poder seleccionar el algoritmo (potencial) apropiado.

Recomiendo este libro ” Programación de Inteligencia Colectiva

Prueba ClassIT.