La llamada “maldición de la dimensionalidad” a menudo se malinterpreta, por lo que la primera pregunta que debe hacerse siempre es: ¿es este el caso de la maldición de la dimensionalidad?
En términos generales, podemos decir que nos enfrentamos a la maldición de la dimensionalidad cuando algún algoritmo se comporta mal porque los datos se presentan en muchas dimensiones. Al contrario de lo que mucha gente piensa, este no es un caso muy común. Lo importante es que muchos de estos problemas solo ocurren cuando los datos se distribuyen uniformemente, los datos reales nunca se distribuyen uniformemente porque los datos reales no son aleatorios; esto se conoce como la “bendición de no uniformidad”.
Así que aceptemos, con un grano de sal, que tenemos un caso de la maldición de la dimensionalidad. Hay dos soluciones muy obvias:
- ¿Puede una red neuronal convolucional tener pesos negativos?
- Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?
- En forma de estudios de caso, ¿cómo utilizan las empresas financieras el aprendizaje automático?
- Cómo hacer ingeniería de características en aprendizaje automático
- ¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?
- Cambiar el algoritmo
- Reduce la dimensionalidad de tus datos
No voy a discutir el n. ° 1 porque depende de lo que esté haciendo con sus datos.
Alrededor del # 2, los métodos habituales de reducción de dimensionalidad funcionan bastante bien. El SVD es casi siempre lo primero que debe probar (PCA), si eso no mejora las cosas, entonces se pueden aplicar otros métodos, incluidos:
- Algoritmos de selección de características
- Métodos de reducción de dimensionalidad no lineal: ISOMAP, mapas de origen laplacianos, MDS, etc.
- Hashing de funciones / Proyecciones aleatorias.
- Agrupar a través de K-medias y mantener la distancia a k centroides para k dimensiones.
En términos generales, si el SVD no es su solución, está muy cerca del n. ° 1: cambiar el algoritmo.