¿Alguna vez hay una buena razón para cambiar los datos sin procesar al realizar análisis estadísticos o modelos?

“Cambiar” es una pendiente bastante resbaladiza.

He reformateado los datos antes. Si “NULL” se importa como texto, por ejemplo, o si las columnas de fecha están en un formato divertido e inutilizable.

He convertido variables como Sexo de M / F a 1/0.

Reorganicé columnas o eliminé columnas innecesarias, pero solo después de guardar una copia de los datos “completos”.

He realizado ciertas operaciones matemáticas basadas en la teoría, es decir, la conversión de valores de series temporales en cambios diarios. Pero nuevamente, guardaré los datos originales y, por lo general, agregaré la columna que deseo en lugar de cambiar la columna existente. También he redondeado los decimales al lugar más razonable, generalmente 4 lugares para decimales no monetarios.

Pero aparte de eso, no puedo pensar en cambios de datos que podría considerar teóricamente legítimos. Cambiar datos no es ético.

Para cambiar los datos en bruto? No. Nunca cambio los datos en bruto. Tan pronto como lo modifique de alguna manera, guardo los nuevos datos en otro lugar. De esa manera siempre puedo comenzar desde el principio, cambiar un paso en particular, etc.

Los datos sin procesar a menudo pueden ser demasiado grandes para el análisis de datos y a menudo ayuda a comprimirlos sin perder demasiada información.

La compresión puede incluir uno de los siguientes:
1. Reducción del espacio de almacenamiento para cada dimensión de los datos.
2. Reducción del número de dimensiones (reducción de dimensionalidad): PCA / SVD son algunos métodos para lograr esto

Siempre dejo un archivo con los datos sin procesar que me dio mi cliente. Solo modifico este archivo si mi cliente me lo pide. Con mis clientes, este suele ser un archivo .csv.

Hago otras modificaciones que son necesarias dentro de un programa estadístico (principalmente uso SAS para esto, pero a veces R).

La única vez que he cambiado los datos sin procesar es cuando sé que definitivamente están equivocados, o por imputar valores perdidos / en blanco / NA con valores más razonables.
¡Mantenga una pista de auditoría, por supuesto!