¿Cuánto tiempo lleva limpiar los datos con R para un analista de datos?

Definir Limpio:

Si simplemente está cargando un conjunto de datos, entonces es el tiempo de carga asociado.

Recodificación: si se trata de variables de discretización o factorización, diría que uno o dos minutos para cada variable suponiendo un número razonable de casos.

Remodelación: según la habilidad que tenga con dplyr y el hadleyverse, los datos se pueden reformar o reagrupar con bastante rapidez. Si está escribiendo uniones más complejas o no está familiarizado con ciertos procedimientos, puede llevar más tiempo.

Estructuración : los dos ejemplos anteriores suponen que ya está trabajando con datos rectangulares limpios. Si está trabajando con datos sin procesar, la ingeniería de características y la determinación de la forma adecuada de nuestros datos puede llevar aún más tiempo.

En resumen, estas son preguntas complejas que requieren una cuidadosa reflexión. Están supeditados a una serie de parámetros, que incluyen qué tan dispuesto está a perder datos y hacer compromisos en el camino.

Entre otros, depende de

  • Cuantas filas
  • ¿Faltan muchos?
  • ¿Surgieron problemas al recopilar los datos o en un paso de procesamiento anterior?
  • ¿Estás haciendo esto para visualización o aprendizaje automático?

Si no lo ha hecho, consulte R para Data Science [1] y el tidyverse.

Notas al pie

[1] R para ciencia de datos

Depende de qué tipo de datos esté tratando. Si tiene datos con valores perdidos, la limpieza no tardará mucho. Hay muchas funciones en R para hacer eso. Prueba el paquete tidyr.

El peor tipo de datos son los datos que toma de las páginas web. El problema con los datos del sitio web es que está en html, css y JavaScript. Puede obtener cualquier información del sitio web en R usando el paquete R curl, pero la historia de terror comienza después de eso.

Esas páginas bonitas en el navegador son en su mayoría una malla interminable de html, css y JavaScript. Solo necesitamos datos de etiquetas html, por lo que ignorar todo CSS y JavaScript en sí mismo es un arte. Los datos html analizados en R están en una estructura de nodo, que se puede atravesar usando Xpath, debe aprender eso. Aparte de eso, debe conocer la expresión regular para hacer coincidir y recuperar los datos de los nodos analizados.

No quiero asustarlo, pero la limpieza de datos es más un arte que una ciencia porque cada conjunto de datos o sitio web tiene una estructura completamente diferente. Por lo tanto, aplica las mismas herramientas a un problema diferente cada vez, esa es la razón por la que no tenemos ningún servicio automatizado de limpieza de datos.

Vaya a mi LinkedIn y vea la publicación “Encontrar significado en datos no estructurados”. Allí he explicado todo el proceso en tres publicaciones. Compartiré el código para eso en GitHub durante el fin de semana, así que si sigues puedes tener una mierda contigo mismo.

Feliz lavado de dinero.

Depende de qué tan sucio esté su conjunto de datos. Por lo general, ese proceso de exploración y limpieza de datos lleva más tiempo en cualquier análisis de datos.

More Interesting

¿Cómo se pueden utilizar los grandes datos para mejorar la eficiencia de las operaciones de vuelo?

¿Cómo se usa la ciencia de datos en fintech?

¿Cuál es el alcance y qué sucede exactamente en las pruebas de Big Data?

Cómo aprender a recuperar, insertar, buscar datos en Big Data

¿Dónde puedo obtener un conjunto de datos de muestra de la competencia de Deloitte, Kaggle, para predecir la pérdida de clientes en los dominios de seguros de vida?

¿Cuáles son los requisitos previos para aprender Hadoop y big data en master of science para nosotros?

¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?

¿Qué se sigue investigando en bosques aleatorios?

¿Cómo es trabajar con Big Data?

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?

Mis tesis de licenciatura y maestría son en procesamiento de imágenes y aprendizaje automático. ¿Está mal intentar otros temas en mi doctorado?

¿Estar basado en datos es un rasgo fundamental de la personalidad, o puede adquirirse como una habilidad?

¿Cómo uso el aprendizaje automático para datos espaciales?

¿Cuál es el mejor software de análisis de datos?

Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?