¿Qué son los conjuntos de datos en el aprendizaje automático y cómo funcionan?

Las matrices de números son una forma de visualizar datos, donde cada fila significa un objeto (por ejemplo, un tipo de gato) y las columnas son las características (por ejemplo, la altura, el peso, el tamaño de la cola, etc.). Sin embargo, si tiene categorías en lugar de valores numéricos, puede convertirse en datos categóricos / ordinales (por ejemplo, color de gato). En este caso, tendrá una matriz pero ya no contendrá números. Para obtener más detalles sobre su diferencia, lea esto: ¿Cuál es la diferencia entre las variables categóricas, ordinales y de intervalo?

Puede tener datos de series temporales, que pueden no ser una matriz sino unidimensional para, por ejemplo, el precio de las acciones, la información meteorológica, etc. Estos datos dependen básicamente del tiempo o son de naturaleza temporal [1]. Sin embargo, una serie temporal también puede ser multidimensional.

Otros tipos de datos son texto, considere los tweets, artículos de noticias, información en la web. Todo esto es principalmente texto no estructurado y de flujo libre. Este es un tipo diferente de datos y necesita métodos específicos para manejar esto.

Notas al pie

[1] Series temporales