Sin una gran cantidad de conocimiento, comenzaría con lo siguiente.
Divida los campos del conjunto de datos de la siguiente manera:
- Clave primaria; Campo numérico con claves únicas (Probablemente contador consecutivo, y probablemente el primer campo).
- Campos cuantitativos; Campos numéricos donde importa la cantidad (por ejemplo, ventas, temperaturas, densidades, cambios, distancias, porcentajes, etc.)
- Campos categóricos; Campos en los que ha delimitado opciones que no necesariamente se comparan por magnitud (por ejemplo, marca de automóviles, nacionalidades, tipos de sangre, ciudades, etc.)
- Campos booleanos; En realidad, estos son campos categóricos de solo 2 valores posibles. (por ejemplo, sexo, género, aprobado o no, verdadero o falso, etc.)
- Campos de información; Campos de texto que son todos diferentes . (por ejemplo, entradas de texto abierto como comentarios de opinión, notas adicionales, instrucciones especiales, etc.)
- Marcas de tiempo; Campos que almacenan momentos en el tiempo. (ej. Fecha con tiempo, Fecha sin tiempo, “año en que sucedió”, etc.)
- Ubicaciones; Entradas enteras de latitud y longitud de dónde ocurrió dicho registro.
Luego puede comenzar descartando todos los campos, excepto los cuantitativos, y modelar sus distribuciones .
- ¿Qué libro debo elegir para aprender algoritmos y estructuras de datos? Ver la descripción.
- ¿Cuáles son las situaciones en las que uno puede usar ArrayList y otras situaciones para usar solo LinkedList?
- ¿Cuál es la diferencia entre un algoritmo y una fórmula?
- ¿Cómo se puede comenzar a resolver problemas de programación dinámica?
- ¿Qué significa Yoshua Bengio que la principal limitación de los algoritmos de aprendizaje automático actuales es que necesitan demasiados datos para aprender?
Una vez que se familiarice un poco con las distribuciones de su conjunto, hay muchos métodos, como las regresiones, para compararlos y ver información interesante sobre cómo se correlacionan .
Luego, diríjase a los campos categóricos y aplique métodos que funcionen bien con información categórica, como la entropía ID3 o C4.5 y obtenga árboles.
Hasta allí no tienes problema. La diversión comienza cuando comienzas a mezclar ambos, y ahí es donde la creatividad viene de la mano.
Y después de eso todavía hay mucha más diversión esperando con los otros tipos, porque tendrás que decidir cuáles convertir a categóricos y cuáles a cuantitativos , por ejemplo, la marca de tiempo puede ser categórica si la separas a intervalos, o puede ser cuantitativo si mide “hace cuánto tiempo sucedió” (etc.). Lo mismo ocurre con las ubicaciones , puede definir áreas como estados (categórico) o puede verlas como distancias (cuantitativas).
De todos modos, no hay una receta, así es como comenzaría, pero como pueden ver, hay mucha improvisación y creatividad en el camino.
Espero que haya ayudado.