Cómo ordenar datos multivariados

Sin una gran cantidad de conocimiento, comenzaría con lo siguiente.

Divida los campos del conjunto de datos de la siguiente manera:

  • Clave primaria; Campo numérico con claves únicas (Probablemente contador consecutivo, y probablemente el primer campo).
  • Campos cuantitativos; Campos numéricos donde importa la cantidad (por ejemplo, ventas, temperaturas, densidades, cambios, distancias, porcentajes, etc.)
  • Campos categóricos; Campos en los que ha delimitado opciones que no necesariamente se comparan por magnitud (por ejemplo, marca de automóviles, nacionalidades, tipos de sangre, ciudades, etc.)
  • Campos booleanos; En realidad, estos son campos categóricos de solo 2 valores posibles. (por ejemplo, sexo, género, aprobado o no, verdadero o falso, etc.)
  • Campos de información; Campos de texto que son todos diferentes . (por ejemplo, entradas de texto abierto como comentarios de opinión, notas adicionales, instrucciones especiales, etc.)
  • Marcas de tiempo; Campos que almacenan momentos en el tiempo. (ej. Fecha con tiempo, Fecha sin tiempo, “año en que sucedió”, etc.)
  • Ubicaciones; Entradas enteras de latitud y longitud de dónde ocurrió dicho registro.

Luego puede comenzar descartando todos los campos, excepto los cuantitativos, y modelar sus distribuciones .

Una vez que se familiarice un poco con las distribuciones de su conjunto, hay muchos métodos, como las regresiones, para compararlos y ver información interesante sobre cómo se correlacionan .

Luego, diríjase a los campos categóricos y aplique métodos que funcionen bien con información categórica, como la entropía ID3 o C4.5 y obtenga árboles.

Hasta allí no tienes problema. La diversión comienza cuando comienzas a mezclar ambos, y ahí es donde la creatividad viene de la mano.

Y después de eso todavía hay mucha más diversión esperando con los otros tipos, porque tendrás que decidir cuáles convertir a categóricos y cuáles a cuantitativos , por ejemplo, la marca de tiempo puede ser categórica si la separas a intervalos, o puede ser cuantitativo si mide “hace cuánto tiempo sucedió” (etc.). Lo mismo ocurre con las ubicaciones , puede definir áreas como estados (categórico) o puede verlas como distancias (cuantitativas).

De todos modos, no hay una receta, así es como comenzaría, pero como pueden ver, hay mucha improvisación y creatividad en el camino.

Espero que haya ayudado.

More Interesting

¿Cuál es el mejor algoritmo / software de compresión hasta ahora? ¿Cómo funciona (vista simple y abstracta) y qué se puede mejorar?

Cómo escribir una función recursiva usando Python que toma una cadena como entrada e imprime cada carácter en una línea separada

¿Cómo se realiza la reducción del tiempo polinómico de UHAMPATH a UHAMCYCLE?

¿Qué es el algoritmo de soporte?

Si tengo que crear un sitio de redes sociales como Facebook, ¿qué cosas tengo que estudiar comenzando desde el front-end hasta el back-end hasta el servidor y los servidores web? ¿Cuáles son todas las cosas que uno debe saber en profundidad?

Cómo convertir de binario a decimal

Si dos cadenas de longitud desigual se generan por el mismo patrón, ¿cómo se relacionan sus complejidades de Kolmogorov?

¿Cuál es una explicación simple de por qué BFS bidireccional se ejecuta en [math] \ Theta (\ sqrt {n}) [/ math]?

¿Podemos implementar una estructura de datos de pila usando una estructura de datos de cola?

¿Por qué un árbol se llama estructura de datos?

Cómo generar todas las permutaciones de fila de una matriz 2D dada de forma recursiva

¿Cuál es el tema más importante en la estructura de datos y algoritmos en la programación en C?

¿Cómo pueden los estudiantes de electricidad y electrónica llegar a ser buenos en algoritmos y estructuras de datos?

¿Cuál es la diferencia entre [matemáticas] 2 ^ {n ^ {o (1)}} [/ matemáticas] y [matemáticas] 2 ^ {O (n ^ e)} [/ matemáticas] (para algunos e <1)?

¿Qué es mejor en C #, mantener una variable con un tamaño de matriz o llamar a la longitud de la matriz?