Por “predicciones”, supongo que te refieres a “aprendizaje automático” (existen otras técnicas para predecir cosas, y el aprendizaje automático no está dedicado a la predicción).
Al entrenar un modelo de aprendizaje automático, un concepto importante es la compensación de sesgo-varianza: Wikipedia. Simplemente dicho, el sesgo es el error que cometió porque su modelo pierde algunas especificidades de sus datos. Por lo general, su modelo es demasiado simple para tener en cuenta la complejidad de sus datos. La variación es el error que cometió porque tiene en cuenta las especificidades que no son relevantes, es decir, su modelo se basa parcialmente en el ruido.
Esto es una compensación porque generalmente reduce el sesgo al entrenar modelos más complejos. Pero al hacerlo, tiendes a incluir más detalles en tu entrenamiento, y una parte de estos detalles son ruidos. Por el contrario, si intenta reducir la variación entrenando modelos más simples, estos modelos corren el riesgo de volverse demasiado simples para capturar la esencia de sus datos.
- ¿Cuál es la diferencia entre un lenguaje de definición de datos y un lenguaje de manipulación de datos?
- ¿Cómo explicaría al público la importancia de generar ideas a partir de los datos?
- ¿Cómo se usa MySQL en ciencia de datos?
- ¿Cuáles son ejemplos de big data en fabricación?
- En el mundo del big data, ¿quiénes son los expertos y cuáles son las empresas en este espacio?
Esta compensación a veces se asocia con la adaptación de un modelo: los modelos con poca varianza y alto sesgo se ajustan a la realidad, mientras que los modelos con alta varianza y bajo sesgo se sobreponen al objetivo de verdad.
La promesa de los grandes datos es reducir la variación : al considerar una muestra de datos más grande, es probable que descubra qué es el ruido y qué es la señal de sus datos. El aumento de la muestra de datos no tiene un impacto directo en el sesgo, pero dado que existe una compensación entre el sesgo y la varianza, y dado que puede controlar “mágicamente” la varianza, puede poner su esfuerzo en el sesgo. En otras palabras: con big data, puede entrenar modelos complejos para disminuir el sesgo y aún controlar la varianza mediante el uso de una muestra de datos tan grande como sea necesario. Por lo tanto, big data ayuda a entrenar modelos que no se ajustan demasiado (demasiado).