¿Cuánto tiempo lleva limpiar los datos con R para un analista de datos?

Definir Limpio:

Si simplemente está cargando un conjunto de datos, entonces es el tiempo de carga asociado.

Recodificación: si se trata de variables de discretización o factorización, diría que uno o dos minutos para cada variable suponiendo un número razonable de casos.

Cómo cambiar de carrera de soporte a tecnología de big data
¿Por qué no se puede usar el porcentaje (%) para la normalización de datos en estadísticas?
¿Qué se necesita para que los datos sean espaciales?
¿Qué MOOC, proyecto en línea o curso relacionado con big data \ Hadoop debería agregar a mi currículum como una habilidad adicional, como analista de datos (en ciencia de datos)?
¿Cuál es el historial de la base de datos?

Remodelación: según la habilidad que tenga con dplyr y el hadleyverse, los datos se pueden reformar o reagrupar con bastante rapidez. Si está escribiendo uniones más complejas o no está familiarizado con ciertos procedimientos, puede llevar más tiempo.

Estructuración : los dos ejemplos anteriores suponen que ya está trabajando con datos rectangulares limpios. Si está trabajando con datos sin procesar, la ingeniería de características y la determinación de la forma adecuada de nuestros datos puede llevar aún más tiempo.

En resumen, estas son preguntas complejas que requieren una cuidadosa reflexión. Están supeditados a una serie de parámetros, que incluyen qué tan dispuesto está a perder datos y hacer compromisos en el camino.

Análisis deAnalistas deBig DataCiencia de datosdatosR

¿Cómo desarrollar un sistema de predicción de salud inteligente web utilizando la minería de datos? ¿Cuál es la mejor manera y herramientas?

¿Cuál es el propósito principal del análisis de datos?

¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?

¿Cuáles son los programas creíbles de capacitación en ciencia de datos que enseñarían habilidades prácticas?

¿Podemos usar análisis de datos, SAS y probabilidad al aplicar un modelo a una hipótesis para encontrar la pareja adecuada para el matrimonio?

Elijo entre maestros en ciencias de datos en King’s College London o maestros en línea de Berkeley. ¿Cuál recomendarías?

Entre otros, depende de

Cuantas filas
¿Faltan muchos?
¿Surgieron problemas al recopilar los datos o en un paso de procesamiento anterior?
¿Estás haciendo esto para visualización o aprendizaje automático?

Si no lo ha hecho, consulte R para Data Science [1] y el tidyverse.

Notas al pie

[1] R para ciencia de datos

Gilbert Doan

Depende de qué tipo de datos esté tratando. Si tiene datos con valores perdidos, la limpieza no tardará mucho. Hay muchas funciones en R para hacer eso. Prueba el paquete tidyr.

El peor tipo de datos son los datos que toma de las páginas web. El problema con los datos del sitio web es que está en html, css y JavaScript. Puede obtener cualquier información del sitio web en R usando el paquete R curl, pero la historia de terror comienza después de eso.

Esas páginas bonitas en el navegador son en su mayoría una malla interminable de html, css y JavaScript. Solo necesitamos datos de etiquetas html, por lo que ignorar todo CSS y JavaScript en sí mismo es un arte. Los datos html analizados en R están en una estructura de nodo, que se puede atravesar usando Xpath, debe aprender eso. Aparte de eso, debe conocer la expresión regular para hacer coincidir y recuperar los datos de los nodos analizados.

No quiero asustarlo, pero la limpieza de datos es más un arte que una ciencia porque cada conjunto de datos o sitio web tiene una estructura completamente diferente. Por lo tanto, aplica las mismas herramientas a un problema diferente cada vez, esa es la razón por la que no tenemos ningún servicio automatizado de limpieza de datos.

Vaya a mi LinkedIn y vea la publicación “Encontrar significado en datos no estructurados”. Allí he explicado todo el proceso en tres publicaciones. Compartiré el código para eso en GitHub durante el fin de semana, así que si sigues puedes tener una mierda contigo mismo.

Feliz lavado de dinero.

Gilbert Doan

Depende de qué tan sucio esté su conjunto de datos. Por lo general, ese proceso de exploración y limpieza de datos lleva más tiempo en cualquier análisis de datos.

Raja Ammar Siddiqui

More Interesting

¿Cómo se pueden utilizar los grandes datos para mejorar la eficiencia de las operaciones de vuelo?

¿Cómo se usa la ciencia de datos en fintech?

¿Cuál es el alcance y qué sucede exactamente en las pruebas de Big Data?

Cómo aprender a recuperar, insertar, buscar datos en Big Data

¿Dónde puedo obtener un conjunto de datos de muestra de la competencia de Deloitte, Kaggle, para predecir la pérdida de clientes en los dominios de seguros de vida?

¿Cuáles son los requisitos previos para aprender Hadoop y big data en master of science para nosotros?

¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?

¿Qué se sigue investigando en bosques aleatorios?

¿Cómo es trabajar con Big Data?

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?