¿Cuáles son los métodos o herramientas que se pueden usar para la limpieza de datos?

TIBCO Clarity es el componente de estandarización y limpieza de datos del sistema de software TIBCO. Sirve como una solución única para que los usuarios comerciales manejen datos desordenados masivos en varias fuentes, aplicaciones y sistemas, como bases de datos, almacenamiento en la nube, TIBCO Jaspersoft, Spotfire, ActiveSpaces, MDM, Marketo y Salesforce. TIBCO® Clarity facilita a los usuarios empresariales el perfil, la validación, la deducción, la limpieza de direcciones, la estandarización, la transformación y la visualización de datos para que se puedan identificar tendencias y tomar decisiones inteligentes rápidamente. TIBCO Clarity proporciona tanto en la versión de nube como en la versión de edición empresarial.

Descripción general / características de TIBCO Clarity:
https://clarity.cloud.tibco.com/…

TIBCO Clarity más de 40 videos de demostración (¡Mírame!):
https://clarity.cloud.tibco.com/…

Prueba gratuita de TIBCO Clarity on Cloud durante 90 días:
Software de limpieza y transformación de datos

Contacto de soporte de TIBCO Clarity (¡ Responda cualquier pregunta de Clarity en 2 horas! ):
[correo electrónico protegido] .
https://clarity.cloud.tibco.com/…

Documentación de TIBCO Clarity:
tibco.com
Documentación de producto

Contacto de ventas de TIBCO Clarity:
Calidad de datos en la nube

Los métodos y herramientas realmente dependen de su CRM, Marketing Automation y otro sistema que esté ejecutando. Puede usar una herramienta simple como Excel o R para limpiar una gran cantidad de datos, si tiene Salesforce existen herramientas como los datos. com y otros, la lista continúa. También deberá averiguar qué tipo de limpieza de datos desea hacer. desduplicar, normalizar / estandarizar, verificar la capacidad de entrega del correo electrónico, agregar datos, eliminar contactos antiguos, la lista continúa …

Esta es la razón por la cual tantas empresas externalizan la limpieza de datos a empresas como StrategicDB. (Divulgación completa, trabajo para StrategicDB).

Eche un vistazo a Ideata Analytics Wrangling ( https://ideata-analytics.com/ ). Es un producto de análisis de extremo a extremo que proporciona una interfaz de preparación de datos de autoservicio para reparar datos sucios y faltantes.

Puede cargar fácilmente sus datos de cualquier tamaño o variedad desde cualquier tipo de fuente de datos. Una vez cargado, le mostrará una vista previa de su conjunto de datos con sugerencias automáticas impulsadas por el aprendizaje automático para limpiar sus datos. Puede hacer clic en las sugerencias dadas y ver cómo se verá la salida al instante. Si está de acuerdo con el resultado, puede aplicar esa operación a los datos completos.

Con más de 250 funciones de preparación de datos preconstruidas, puede limpiar y enriquecer sus datos con facilidad. Guarde sus scripts de preparación de datos y ejecútelos automáticamente en cualquier dato entrante.

Le permite discutir o limpiar sus datos visual e interactivamente en la nube. http://ideata-analytics.com/data

Echa un vistazo a Parabola. Puede importar datos de muchos tipos de fuentes y configurar su canal de limpieza (filtrado, puntuación, expresiones regulares, manipulación de columnas, deducciones contra otras listas, etc.). Configure sus pasos una vez, y luego puede ejecutar cualquier información automáticamente. Aquí hay una captura de pantalla de una tubería de limpieza de datos:

Todos los métodos usados ​​habitualmente son iteraciones sobre los datos que tiene, encontrando, haciendo coincidir y reemplazando expresiones regulares. Los editores de texto, los wranglers de datos de hojas de cálculo se usan comúnmente.
Google refine o Open Refine es una herramienta de código abierto para este propósito.
¡¡Buena suerte!!

depende del problema, por ejemplo, si tiene un gran conjunto de datos con 30 características y, si ve, a partir de la evidencia estadística de que puede explicar una parte importante de la variación de las variables de respuesta utilizando solo 5 características, entonces PCA es una buena suficiente, de manera similar ICA.

He utilizado pruebas de significación y coeficientes de correlación cruzada para eliminar las variables i / p de un modelo de regresión lineal múltiple … wavelets es otra forma, la proyección subespacial también ayuda

Como dije antes, esto depende del problema y del conjunto de datos, a veces también es útil usar la teoría del caos.

More Interesting

¿Por qué mi CNN proporciona una buena precisión en los datos de entrenamiento y prueba (división 80-20 del total de datos de entrenamiento) pero falla miserablemente en los datos de validación (no vistos)?

¿Cuáles son algunos de los consejos, trucos y trucos en hadoop?

¿Cómo es ser un científico de datos en Apple?

¿En qué se diferencia el ingeniero de Business Intelligence, el ingeniero de datos, el analista de BI, el analista de datos, el desarrollador de BI, el analista de programadores y el analista de sistemas?

¿Cuáles son algunas formas creativas en que las empresas utilizan científicos de datos y aprendizaje automático?

¿Por qué pasarías a la ciencia de datos de ser consultor?

¿Qué país debería elegir para una maestría en ciencia de datos?

¿Cuál es la mejor manera de encontrar la compañía adecuada para externalizar una tarea de minería de datos en la India?

¿Cuáles son las principales herramientas de ciencia de datos utilizadas por las organizaciones líderes?

¿Cuál es el mejor IDE de Python para análisis de datos / ciencia?

¿Qué piensan los empleadores sobre las menciones de las competencias de Kaggle en una solicitud de empleo?

¿Cuál es el mejor instituto para aprender el programa del aula del curso de análisis de big data en Bangalore?

Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante

¿Qué es mejor para el análisis de datos, Python (usando las bibliotecas NumPy, Scipy, etc.) o Hadoop?

¿Es Big Data todo sobre sistemas distribuidos?