En las estadísticas (inferenciales), la ciencia de datos / aprendizaje automático recuerda las palabras del gran estadístico: “Todos los modelos están equivocados, algunos son útiles”. (Casi) NUNCA obtendrás datos verdaderamente iid, a menos que se generen específicamente para ese propósito. Sin embargo, en muchos casos, su suposición de iid hace que el modelo sea lo suficientemente simple y proporciona resultados “más que decentes” si no muy buenos, por lo que el hecho de que los datos no sean iid no tiene mucho impacto. En problemas específicos como el pronóstico de series temporales, píxeles en una imagen para el procesamiento de imágenes: los datos no se identifican y los modelos son adecuados para dicho análisis.
Por lo tanto, sus datos no se muestran como una simplificación del modelo: como cualquier otro modelo, no es la forma en que funciona el mundo (una regresión logística de puntaje de crédito no significa que las personas no cumplan debido a las condiciones del modelo en el mismo) pero el modelo funciona bien en Un sentido estadístico.
- ¿Cuál es la diferencia entre el algoritmo LBG y K significa agrupación?
- Sistemas de recomendación: ¿Cuál es la diferencia entre el filtrado colaborativo de elemento a elemento y el filtrado basado en contenido?
- ¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?
- ¿Cuáles son los casos de uso del uso del procesamiento del lenguaje natural (PNL) en diversas industrias?
- ¿Cuáles son algunos ejemplos del uso del aprendizaje automático en sistemas distribuidos?