Esta pregunta es profundamente preocupante porque su naturaleza mal definida refleja bastante el bombo y la confusión en torno al aprendizaje automático. Dicho esto, tal vez haya una respuesta razonable si moldeamos la pregunta en algo un poco más sostenible.
Voy a ignorar el componente “API” de la pregunta, ya que es básicamente irrelevante e interpretaré que “aprendizaje automático” significa básicamente cualquier método estadístico.
Entonces, ¿qué significa realmente “calidad de datos“? Podría significar si los datos se recopilaron correctamente o no, lo que hace que esta pregunta sea absurda e imposible de responder. Supongamos, en cambio, que la “calidad” es una medida de si los datos son adecuados o no para responder algunas preguntas sobre el mundo o hacer alguna predicción.
- ¿Cuáles son las cosas clave que busca en una lista de trabajos de Ciencia de datos / Aprendizaje automático?
- ¿Cómo funciona el Big Data cuando faltan datos?
- Cómo documentar un proyecto de ciencia de datos
- ¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?
- Cómo validar las reglas de decisión individuales por separado en un árbol de decisión, en lugar de validar el modelo del árbol de decisión en su conjunto
Si estamos abordando la cuestión de si tenemos datos suficientes para decir algo significativo, podemos usar pruebas de hipótesis. Básicamente, dado el modelo correcto, estos nos permitirán juzgar si podemos decir cosas sobre el sistema desde el cual se registraron los datos dados los datos.
Si consideramos si los datos son suficientes o no para predecir algo sobre el mundo, lo que queremos hacer es comparar el conjunto de datos con una “muestra externa” que sabemos que es de buena calidad. Una forma de hacerlo podría ser entrenar un modelo en el conjunto de datos y luego evaluarlo en una muestra externa y ver si obtenemos resultados similares.
No hace falta decir que no existe una API que pueda resolver el problema de forma tan genérica como se indica.