¿Cuáles son las API de aprendizaje automático que puedo usar para analizar la calidad de los datos?

Esta pregunta es profundamente preocupante porque su naturaleza mal definida refleja bastante el bombo y la confusión en torno al aprendizaje automático. Dicho esto, tal vez haya una respuesta razonable si moldeamos la pregunta en algo un poco más sostenible.

Voy a ignorar el componente “API” de la pregunta, ya que es básicamente irrelevante e interpretaré que “aprendizaje automático” significa básicamente cualquier método estadístico.

Entonces, ¿qué significa realmente “calidad de datos“? Podría significar si los datos se recopilaron correctamente o no, lo que hace que esta pregunta sea absurda e imposible de responder. Supongamos, en cambio, que la “calidad” es una medida de si los datos son adecuados o no para responder algunas preguntas sobre el mundo o hacer alguna predicción.

Si estamos abordando la cuestión de si tenemos datos suficientes para decir algo significativo, podemos usar pruebas de hipótesis. Básicamente, dado el modelo correcto, estos nos permitirán juzgar si podemos decir cosas sobre el sistema desde el cual se registraron los datos dados los datos.

Si consideramos si los datos son suficientes o no para predecir algo sobre el mundo, lo que queremos hacer es comparar el conjunto de datos con una “muestra externa” que sabemos que es de buena calidad. Una forma de hacerlo podría ser entrenar un modelo en el conjunto de datos y luego evaluarlo en una muestra externa y ver si obtenemos resultados similares.

No hace falta decir que no existe una API que pueda resolver el problema de forma tan genérica como se indica.

More Interesting

¿Cómo es hacer un doctorado en aprendizaje automático / minería de datos / big data en una escuela de negocios?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

Soy de una experiencia que no es CS / IT, uniéndome al sector de análisis de datos, aprendiendo R y Python. ¿Es esta la elección correcta? En caso afirmativo, ¿cómo puedo hacerlo?

¿Cómo se benefician los servicios de transcripción de datos?

¿Cómo se convierte uno en científico?

¿Qué es mejor: una maestría en ciencia de datos en la UCL (Univ. College London) o una maestría en estadística en la Universidad de Boston?

¿Cómo se comparan los programas de MS in Analytics en UT Austin, NCSU y el programa MISM BIDA de Carnegie Mellon?

Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?

¿Cuál es la mejor opción de alojamiento para una empresa de big data?

¿Cómo manejan las soluciones de Big Data la heterogeneidad de los esquemas de datos dinámicos y a gran escala de varias fuentes?

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?

¿Cuáles son los mejores institutos de capacitación y certificación de Big Data y Hadoop en Bangalore?

¿Hay algún programa de CS o análisis en línea sobre programación, ciencia de datos y big data con una universidad prestigiosa? Mi presupuesto es de $ 20,000- $ 30,000.

¿Cómo contrata Uber científicos de datos?

¿Cuáles son los mejores campos de arranque de ciencia de datos en términos de inserción laboral?