Lo que debe enviar es una predicción. Por lo general, toma la forma de un archivo separado por comas con una identificación y una predicción. Pero varía de una competencia a otra. En la página de datos de cada competencia, debe encontrar un conjunto de datos llamado samplesubmission.csv. Eso le da un ejemplo de cómo debe verse una presentación.
Dicho esto, usará un conjunto train.csv (o lo que sea que esa competencia en particular llama los datos del tren) para entrenar un modelo. Puede usar esos datos para diseñar nuevas funciones, si eso es lo que estaba preguntando. Pero no es necesario que envíe esa parte, solo la predicción que hizo en el conjunto test.csv. Hay reglas específicas de la competencia sobre lo que está permitido diseñar. Por lo general, todo vale si te limitas a usar los datos proporcionados. En la mayoría de los casos, las “fuentes de datos externas” no están permitidas. Por ejemplo, si tuviera un problema de retraso de vuelo, no se le permitiría fusionar datos meteorológicos de fuentes externas para mejorar su modelo.
¿Qué tipo de libertades tengo con los datos de Kaggle?
Related Content
¿Cuál es la diferencia entre Driven-data y Data?
¿Cuál es la diferencia entre data scientist y big data?
¿Cuál es la importancia de la gestión, análisis y seguridad de datos para una empresa?
Puedes hacer lo que quieras: crear nuevas variables, hacer algunos cálculos, hacer cualquier tipo de transformaciones, etc., y el propósito final: predecir cosas.
Ciertamente es correcto (o debe hacerlo) transformar los datos en un formato útil para obtener rangos más altos.
En muchos casos, los datos de capacitación proporcionados están en la forma en que Internet los recopiló (es decir, como un diario) que no es útil en su análisis de modelado, es el desafío que se le ofrece utilizar estos datos de capacitación para predecir el futuro .
More Interesting
¿Existe una relación entre la compresión de datos y la optimización del código?
¿Quién gana más? Analista de datos o analista de negocios?
¿Cuáles son las competencias básicas para un ingeniero de datos?
¿Aprender SQL es bueno para carreras potenciales en análisis financiero y de datos?
¿Qué tecnologías tienen buen futuro en el departamento de ciencia de datos?
¿Cuál es la diferencia entre un científico de datos y un analista de tecnología empresarial?