¿Cuál es la diferencia entre datos sin procesar y procesados?

Los datos sin procesar son los datos que se miden y se recopilan directamente de la máquina, la web, etc. Por lo general, no están en el formato que están listos para realizar el análisis.

Los datos procesados son el tipo de datos que se procesan a partir de datos sin procesar. Por lo general, se realiza algún tipo de limpieza, transformación para convertir los datos sin procesar en un formato que pueda analizarse, visualizarse.

Por ejemplo, en la medición de la frecuencia cardíaca, los datos sin procesar serían la señal de x Hz que emite la máquina / dispositivo. Sin embargo, no tiene sentido mostrar esta información de señal a los usuarios, ya que no la entenderán. Un dato procesado en este caso sería el bpm (latidos por minuto), entonces el usuario puede saber qué tan rápido late su corazón. Estos datos de bpm generalmente se obtienen mediante algún tipo de transformación, una transformación de Fourier es una de las opciones.

¿En qué organización es mejor trabajar para un puesto de pasantía en ciencia de datos, Analytics Vidhya o Sigmaway?

Quiero ser un científico de datos. Estoy cursando una licenciatura en informática. ¿Qué debo hacer después de mi graduación para convertirme en científico de datos y en qué tema me concentro?

¿Todos los científicos de datos participan en la visualización de datos?

¿Qué piensan las personas que usan Machine Learning del uso de Quora de Machine Learning?

¿Qué opinas de la neutralidad de la red?

¿Deberían ser los mismos requisitos del sistema, como CPU y RAM para los maestros y esclavos de Hadoop?

Gracias por el A2A.

Aunque podemos definir muy claramente, en un contexto dado, qué son datos sin procesar y procesados, en mi opinión, depende en gran medida de quién los esté usando. Dejame darte un ejemplo. Es una opinión muy personal, tómalo con un grano de sal.

Un jugador está disfrutando un juego. Ella terminó un nivel en el juego. Ahora está en el nivel 6. El dato bruto aquí es 6. Es completamente inútil para todos menos para el juego y el jugador. Luego, una pieza de software captura ese 6 y lo agrega a la cadena “nivel:”.

Ahora nuestro dato es “nivel: 6”. Todavía es un poco inútil. Incluso si obtuviera todos esos datos, lo mejor que podría hacer es un histograma. Pero luego, el software agrega algo más y lo convierte en un dato semiestructurado: {userid: 29487, nivel: 6}

Cuando esto llega a nuestros servidores, todavía son datos sin procesar, pero para los ingenieros que lo hicieron posible, son datos procesados. Ahora entra en una base de datos y la uní a otros datos, con el ID de usuario como clave y finalmente tengo un conjunto de datos que puedo usar para cualquier pregunta que tenga a la mano.

Para mí eso es “finalmente” datos procesados … y aún así puede tomar un largo camino después de eso.

Cada vez que se procesan los datos, pasan de alguna forma de datos sin procesar a alguna forma de datos procesados. Lo que define cuándo se procesa depende del contexto. El momento en que tiene suficiente significado para ser accionable pero no más que eso porque en cada transformación perdemos un poco de señal.

Keith Allpress

Cuando extrae metales preciosos como el oro, tiene dos tipos de mineral: mineral en bruto y mineral procesado.

El mineral en bruto se ve así:

Hay un poco de oro allí, y un montón de otras cosas que no son valiosas. El mineral en bruto se procesa para extraer solo las partes valiosas y luego se procesa (o refina) el mineral:

Se han extraído todas las partes valiosas y se han eliminado todas las partes sin valor. Puede procesar aún más las valiosas partes para convertirlas en algo más fácil de manejar, como este:

E incluso puede procesarlo más para hacer un elemento derivado que sea aún más valioso, como este:

Esto es lo mismo con los datos, excepto que el “valor” con los datos es qué tan relativos son los datos, no necesariamente el valor monetario. Los datos sin procesar tienen pequeñas piezas valiosas y un montón de datos que no son valiosos (para la tarea en cuestión). Entonces procesa los datos en bruto para extraer las partes valiosas. Luego puede procesarlo más para obtener datos más relevantes o más valiosos. Entonces puede crear una derivada de datos que sea aún más valiosa.

Por ejemplo, supongamos que tiene la base de datos de usuarios de Facebook. Desea saber cuántas personas se llaman “Pat”. Usted procesa los datos y descarta a cualquiera que no se llame “Pat”. Lo que realmente le gustaría saber es cuántos hombres se llaman “Pat”, por lo que procesa los datos nuevamente para refinarlos, desechando cualquier perfil femenino con el nombre “Pat”. Entonces, tal vez lo cruces con la base de datos de Quora y crees una derivada como cuántos hombres nombrados Pat están en Facebook y Quora y cuál es la proporción de tiempo que pasan en los dos sitios.

Keith Allpress

Aquí se están cometiendo varios errores. Los conceptos correctos son:

Todo es potencialmente informativo, es decir, información. Eso no tiene nada que ver con la informática.
Data es el plural de datum. Elementos de hecho, típicamente números y descriptores. Eso no tiene nada que ver con la informática.
Los datos son neutrales. Se refiere a la representación no interpretada de la información. Eso no tiene nada que ver con la informática.
Raw significa antes de cualquier etapa de preprocesamiento . Ese es un término técnico informático.

Los datos como entrada y la información como salida es una falsedad semántica promulgada dentro de los analfabetos. Un mito urbano persistente.

No todo el procesamiento es procesamiento de datos. Podemos procesar una imagen y generar un gráfico como resultado.
Crudo y cocido son definiciones técnicas en relación con el preprocesamiento. El arroz de sushi antes de cocinar es crudo. No es crudo cuando se convierte en entrada para el procesamiento de sushi. A menos que quieras romperte un diente.

Durante la era de la computadora de procesamiento por lotes, el término “datos de entrada sin procesar” habría significado algo específico para el operador de la máquina, a saber. Las cintas antes del preprocesamiento.
El espacio de base de datos sin formato se refiere al espacio en disco que no se procesa previamente formateando, la base de datos creará su propia estructura de disco. El espacio cocinado está preformateado.
En los últimos años, la minería de datos ha creado la necesidad de una preparación y preprocesamiento de datos más extensos, por lo que los datos sin procesar también se conocen como datos de origen desde el punto de recopilación.
Yilung (Tom) Zhang ha dado un buen ejemplo.

Keith Allpress

los datos sin procesar son, por definición, inmundos. Eso significa que no ha habido correcciones para ‘limpiarlo’, lo que significa que no hay subconjuntos, corrección de errores, normalización. o detección de anomalías, o corrección de asimetría

Keith Allpress

More Interesting

¿Por qué "todo parece estar correlacionado en una escala de log-log"?

¿Cuáles son los procesos involucrados en el servicio de anexión de datos?

¿Cuál es la utilidad de Big Data?

¿Cómo la digitalización y los grandes datos afectan la productividad?

¿Cuáles son algunos cursos de análisis de datos?

¿Cuál es la importancia de encontrar el tipo de distribución de datos para fines de modelado predictivo?

Cuando un científico de datos descubre un patrón de mercado constante, ¿cómo puede saber cuánto durará? Si es fugaz, explotarlo no tendrá sentido.

Para alguien que esté interesado en la "Ciencia de datos", ¿sería más útil una clase sobre combinatoria o procesos estocásticos?

¿Qué dicen los grandes datos sobre el ajedrez? ¿Hay algún algoritmo numérico simple para evaluar las posiciones de ajedrez que no impliquen calcular árboles de posición? ¿Tienen éxito al predecir los resultados de los juegos de ajedrez entre jugadores de habilidades similares?

Alguien sugirió que "la gente asume que los proveedores [en big data] no van a comenzar a ofrecer herramientas / IU que el lego con conocimientos básicos de estadísticas podría aprovechar". ¿Se comercializará la ciencia de datos?