TL; DR:
AFAIK, no existe un formato estándar para los conjuntos de datos de aprendizaje automático. CSV se usa en muchos casos, pero no es una solución perfecta.
Un formato para representar un conjunto de datos debe ser:
- Lo suficientemente rico como para representar características categóricas y numéricas.
- Lo suficientemente compacto como para no desperdiciar el almacenamiento de grandes conjuntos de datos.
- Ser legible por varias herramientas.
- No se puede cambiar arbitrariamente por estas herramientas.
- Ser local: partes de los datos se pueden transferir de forma independiente.
- Sea textual para habilitar el munging usando las herramientas del sistema / shell, y vea
La importancia de ser textual.
- ¿Qué es mejor que el aprendizaje profundo?
- Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)
- ¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?
- Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario
- Cómo llegar a un problema de aprendizaje automático para un proyecto personal
CSV (una fila por instancia, una columna por variable, columna de etiqueta opcional)
Responda todos los requisitos excepto el n. ° 4. Algunas alternativas son:
El formato de archivo de relación de atributos (ARFF) fue creado por Weka.
Tuve un momento difícil con ARFF en el pasado, pero otros trabajan con él sin quejarse.
Con respecto a la respuesta de @Justin Rising,
En http://www.win-vector.com/blog/2…, John Mount sugiere utilizar volcados de SQL, Json o “TSV fuerte” para la representación de datos, para evitar conversiones automáticas realizadas por Excel.
http://scikit-learn.org/stable/d… también menciona http://svmlight.joachims.org/ – otro formato.
Apache Mahout utiliza un formato de archivo de secuencia, que es binario, pero escala bien para Hadoop.
Relacionado pero diferente es el lenguaje de marcado de modelo predictivo (consulte también Representación de soluciones predictivas en PMML): este estándar representa el modelo de aprendizaje automático.