¿Siempre estamos mejor con más datos en Machine Learning en la práctica?

No. Cada pregunta requiere solo una cantidad “suficiente” de datos para responderla. Más allá de eso, la respuesta es la misma, sin importar la cantidad de datos que agregue. Además, agregar demasiados datos puede ser una responsabilidad.

Un ejemplo. Desea saber la altura de su césped. Entonces, usted toma muestras del césped, midiendo la altura de 1000 briznas de hierba de todo su patio. ¿Cambiará apreciablemente este valor si prueba un millón de cuchillas? Mil millones? No. En el mejor de los casos, su métrica será más precisa. ¿Derecho? Bueno no. Ni siquiera entonces.

De hecho, para cuando haya medido mil millones de briznas de hierba, la hierba habrá crecido y sus mediciones anteriores serán incorrectas, incomparables con sus mediciones nuevas. Lo mismo puede decirse de medir el césped en condiciones cambiantes: antes o después de una tormenta, en un día soleado o sombrío, en sequía o no, en verano o invierno, o según lo medido por una persona o por otra persona. En la práctica, hay tantos factores que pueden afectar la medición de objetos del mundo real que agregar más datos a un análisis a menudo empeora los resultados.

Aprendizaje automáticoBig DataCiencia de datosdatosMinería de

Related Content

¿La ciencia de datos tiene una amplia gama de sectores laborales como la informática o la ingeniería de software si me gradúo de la Universidad de Waterloo con la cooperativa?

¿Cómo es trabajar con Big Data?

¿Big Data es una gran BS?

¿Cuáles son los usos de la minería de datos?

¿Cuáles son los procesos involucrados en el servicio de anexión de datos?

¿Cuál es la relación entre la red informática y el sistema complejo, la ciencia de redes?

¿Cuáles son las mejores revistas de estudios de datos críticos?

Casi siempre

Como parte del proceso de desarrollo de ML, es probable que analicemos, entre otras cosas, datos irrelevantes que contribuyen al ‘ruido’.

Al aumentar el tamaño de la muestra de los datos, que es efectivamente lo que es un conjunto de entrenamiento, una muestra, es de esperar que podamos aumentar la cantidad de datos útiles que tenemos. Al tener datos más útiles, esperamos poder crear modelos más precisos y modelos que se generalicen bien.

Por otro lado, más datos pueden consumir mucho tiempo. ¿Alguna vez entrenó un algoritmo en más de 10 millones de puntos? ¡es largo!

Por lo tanto, es un acto de equilibrio: queremos más datos para que represente mejor a la población y también se generalice bien, pero al mismo tiempo solo queremos lo suficiente para cumplir con nuestros requisitos y se puede calcular en un período de tiempo razonable.

Andrew Patterson

More Interesting

¿Cuál es el futuro de las carreras en datos?

Cómo detectar patrones de respuesta de opción múltiple en R

¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?

¿Por qué tenemos oportunidades tan limitadas en big data?

¿Cuáles son algunas simulaciones modificables gratuitas de código abierto disponibles para el público?

¿Cuáles son las herramientas de minería / raspado web más comunes utilizadas actualmente?

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿Cuál es la diferencia entre la exploración de datos y el análisis predictivo?

¿Por qué necesitamos una matriz de confusión en la minería de datos?

¿Es la ciencia de datos un tema extremadamente aburrido?

¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?

¿Cómo se determina el precio de los datos del cliente?

¿Cuáles son algunas heurísticas de visualización de datos?

¿Vale la pena que un desarrollador de pila completa aprenda ciencia de datos?

¿Debo hacer mi maestría en Data Analytics / MBA en Nueva Zelanda, Dubai o Alemania?

Web Analytics