¿Qué tipo de libertades tengo con los datos de Kaggle?

Lo que debe enviar es una predicción. Por lo general, toma la forma de un archivo separado por comas con una identificación y una predicción. Pero varía de una competencia a otra. En la página de datos de cada competencia, debe encontrar un conjunto de datos llamado samplesubmission.csv. Eso le da un ejemplo de cómo debe verse una presentación.
Dicho esto, usará un conjunto train.csv (o lo que sea que esa competencia en particular llama los datos del tren) para entrenar un modelo. Puede usar esos datos para diseñar nuevas funciones, si eso es lo que estaba preguntando. Pero no es necesario que envíe esa parte, solo la predicción que hizo en el conjunto test.csv. Hay reglas específicas de la competencia sobre lo que está permitido diseñar. Por lo general, todo vale si te limitas a usar los datos proporcionados. En la mayoría de los casos, las “fuentes de datos externas” no están permitidas. Por ejemplo, si tuviera un problema de retraso de vuelo, no se le permitiría fusionar datos meteorológicos de fuentes externas para mejorar su modelo.

Puedes hacer lo que quieras: crear nuevas variables, hacer algunos cálculos, hacer cualquier tipo de transformaciones, etc., y el propósito final: predecir cosas.

Ciertamente es correcto (o debe hacerlo) transformar los datos en un formato útil para obtener rangos más altos.

En muchos casos, los datos de capacitación proporcionados están en la forma en que Internet los recopiló (es decir, como un diario) que no es útil en su análisis de modelado, es el desafío que se le ofrece utilizar estos datos de capacitación para predecir el futuro .

More Interesting

¿Existe una relación entre la compresión de datos y la optimización del código?

¿Cuáles son las universidades del mundo que no requieren una carta de recomendación para una maestría en estadística / ciencia de datos?

¿Quién gana más? Analista de datos o analista de negocios?

¿Cuáles son las competencias básicas para un ingeniero de datos?

¿Big Data es una gran BS?

¿Cuáles son algunas formas creativas en que las empresas utilizan científicos de datos y aprendizaje automático?

¿Aprender SQL es bueno para carreras potenciales en análisis financiero y de datos?

¿Cómo puede un aspirante a científico de datos con experiencia en estadísticas aprender más sobre bases de datos, ETL, almacenamiento de datos?

Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?

¿Qué tecnologías tienen buen futuro en el departamento de ciencia de datos?

¿Cómo pueden los científicos de datos y diseñadores de productos trabajar juntos de manera más efectiva? ¿Cómo deberían los desarrolladores ayudar a los diseñadores a comprender las posibilidades y limitaciones del análisis de datos y el aprendizaje automático?

¿Cuál es la diferencia entre un científico de datos y un analista de tecnología empresarial?

¿Cómo debo diseñar mi curso en visión artificial / aprendizaje automático / robótica para mi maestría en EE?

¿Podemos usar Big Data en la construcción?

¿Qué es mejor para un estudiante de análisis de datos para estudiar, aprendizaje automático o series de tiempo? Tenemos que elegir uno como módulo electivo