Estuve tentado de responder 30, pero eso sería una broma estadística y realmente no respondería los puntos en su pregunta ampliada.
Asi que:
1: ¿Cuántos datos son suficientes?
Nunca tienes suficientes datos. Más información casi siempre conduce a mejores resultados. Suaviza el ruido y le permite obtener una mayor confianza en sus resultados. Esto es impulsado por la ley más poderosa del mundo: la Ley de los grandes números.
Como se ha mostrado, más datos le permiten utilizar algoritmos simples con los resultados que lograría utilizando menos datos y métodos más complejos. Entonces, un buen lema que se usa a menudo es “obtener más datos es más importante que obtener mejores algoritmos”. El famoso artículo de Banko & Brill es un buen recurso para esto (página en lancs.ac.uk).
2: ¿Hay alguna forma de calcular la cantidad de datos que necesitamos?
Sí, pero depende de lo que esté haciendo, por lo que no hay una respuesta general y es por eso que recibe muchas respuestas “depende” de su publicación.
- ¿Cómo es ser un científico de datos en Publicis?
- ¿Cómo ayudan los grandes datos o la ciencia de datos a los equipos deportivos y otras empresas relacionadas con la industria?
- ¿Qué cantidad de datos ha consumido al usar Jio 4g?
- ¿Cuáles son las habilidades más importantes para un ingeniero de datos?
- ¿Qué campo debo elegir, redes informáticas o ciencia de datos? Amo los dos.
3: Calidad de datos
Hay al menos dos categorías para “calidad”. Uno es la calidad del formato de datos y el otro es la calidad de los datos en sí.
La calidad del formato de datos depende de cómo se formatean los datos, ¿hay demasiados valores faltantes? ¿tienes varias variables mezcladas en una? ¿tiene diferentes observaciones mezcladas en la misma “fila”? Hay un buen artículo sobre eso llamado “Tidy Data” por Hadley Wickham. (Página en jstatsoft.org).
Entonces tienes la calidad de los datos en sí. ¿Tienes mucho ruido? ¿Muchos valores atípicos? ¿Son sus variables independientes o correlacionadas? ¿Tienen poder predictivo? ¿Necesitas más funciones? ¿Necesitas menos funciones? ¿Alguna característica es muy ruidosa respecto a las demás? Etc. Aquí es donde debe lidiar con la ingeniería de características y la selección de características, ya sea manual o automáticamente. Es un campo completo por sí solo.
tl; dr: 30
Luis.