Entonces, ¿por qué supone que se pueden desechar algunos datos? Bueno, algunos datos pueden ser desechados. Por ejemplo, si una columna se puede inferir de otra columna, entonces la primera se puede eliminar. Pero es más complicado que esto.
La palabra clave que está buscando se llama PCA = Análisis de componentes principales. Tiene datos altamente dimensionales, pero no todas las “dimensiones son útiles para usted”. Algunos pueden estar “correlacionados” entre sí, por lo que pueden reemplazarse por una sola columna que es una combinación de esos componentes originales sin pérdida de información.
Usted habló sobre SVM (encontrar la función perfecta para separar dos categorías) y Redes Neuronales (un modelo que captura una función compleja para mapear “con suerte” sus entradas a alguna salida deseada) … Está hablando de clasificación y / o predicción.
- ¿Dónde puedo obtener más información sobre la persona en el MIT Media Lab que está trabajando para eliminar el sesgo en el aprendizaje automático?
- ¿Existe un puntaje general de 'utilidad' para el rendimiento de recuperación de información?
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
- Cómo calcular el factor de escala 1 / z en la clasificación de Naive Bayes
- Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?
Si lo que desea es la clasificación, entonces probablemente pueda intentar usar la caja de herramientas MATLAB para clasificar sus datos.
Si lo que desea es “extracción de características”, entonces necesita tener una idea de lo que tratan sus datos. A veces, es un poco demasiado, que un experto en dominios puede decir fácilmente que no deberían afectar el resultado final.