¿Siempre estamos mejor con más datos en Machine Learning en la práctica?

No. Cada pregunta requiere solo una cantidad “suficiente” de datos para responderla. Más allá de eso, la respuesta es la misma, sin importar la cantidad de datos que agregue. Además, agregar demasiados datos puede ser una responsabilidad.

Un ejemplo. Desea saber la altura de su césped. Entonces, usted toma muestras del césped, midiendo la altura de 1000 briznas de hierba de todo su patio. ¿Cambiará apreciablemente este valor si prueba un millón de cuchillas? Mil millones? No. En el mejor de los casos, su métrica será más precisa. ¿Derecho? Bueno no. Ni siquiera entonces.

De hecho, para cuando haya medido mil millones de briznas de hierba, la hierba habrá crecido y sus mediciones anteriores serán incorrectas, incomparables con sus mediciones nuevas. Lo mismo puede decirse de medir el césped en condiciones cambiantes: antes o después de una tormenta, en un día soleado o sombrío, en sequía o no, en verano o invierno, o según lo medido por una persona o por otra persona. En la práctica, hay tantos factores que pueden afectar la medición de objetos del mundo real que agregar más datos a un análisis a menudo empeora los resultados.

Casi siempre

Como parte del proceso de desarrollo de ML, es probable que analicemos, entre otras cosas, datos irrelevantes que contribuyen al ‘ruido’.

Al aumentar el tamaño de la muestra de los datos, que es efectivamente lo que es un conjunto de entrenamiento, una muestra, es de esperar que podamos aumentar la cantidad de datos útiles que tenemos. Al tener datos más útiles, esperamos poder crear modelos más precisos y modelos que se generalicen bien.

Por otro lado, más datos pueden consumir mucho tiempo. ¿Alguna vez entrenó un algoritmo en más de 10 millones de puntos? ¡es largo!

Por lo tanto, es un acto de equilibrio: queremos más datos para que represente mejor a la población y también se generalice bien, pero al mismo tiempo solo queremos lo suficiente para cumplir con nuestros requisitos y se puede calcular en un período de tiempo razonable.