¿Por qué asumiríamos que los datos son iid cuando no lo son?

En las estadísticas (inferenciales), la ciencia de datos / aprendizaje automático recuerda las palabras del gran estadístico: “Todos los modelos están equivocados, algunos son útiles”. (Casi) NUNCA obtendrás datos verdaderamente iid, a menos que se generen específicamente para ese propósito. Sin embargo, en muchos casos, su suposición de iid hace que el modelo sea lo suficientemente simple y proporciona resultados “más que decentes” si no muy buenos, por lo que el hecho de que los datos no sean iid no tiene mucho impacto. En problemas específicos como el pronóstico de series temporales, píxeles en una imagen para el procesamiento de imágenes: los datos no se identifican y los modelos son adecuados para dicho análisis.

Por lo tanto, sus datos no se muestran como una simplificación del modelo: como cualquier otro modelo, no es la forma en que funciona el mundo (una regresión logística de puntaje de crédito no significa que las personas no cumplan debido a las condiciones del modelo en el mismo) pero el modelo funciona bien en Un sentido estadístico.

Aprendizaje automáticoCiencia de datosdatosMinería de

Si quiero desarrollar una carrera en aprendizaje automático e inteligencia artificial, ¿debería comenzar con chatbots?

¿Cuáles son las diferencias (y similitudes) en el funcionamiento de una computadora cuántica y una red neuronal artificial?

¿Cómo se compara Core ML con TensorFlow?

¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?

¿Por qué el mismo sonido se repite con frecuencia si una computadora falla?

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

Excelente pregunta! Creo que simplemente estamos siendo engañados por nuestra suposición de que una máquina es capaz de aprender. No lo es. Es capaz de ejecutar algoritmos adaptativos de complejidad arbitraria, pero eso no es aprender. Las redes neuronales profundas, con ReLU y neuronas más complejas, se pueden “entrenar” para adaptarse a las condiciones cambiantes, pero ¿puede tomar una red neuronal que haya sido entrenada para jugar Go y reutilizarla para, por ejemplo, pronósticos de series de tiempo? ¿O requiere volver a entrenar el sistema? Diferentes tareas requieren diferentes soluciones.

Volviendo a su pregunta específica: a veces asumimos iid, porque las suposiciones hacen que nuestras vidas sean más fáciles y evitan que caigamos en la parálisis a través de la trampa del análisis. Y luego vigilamos de cerca los datos y volvemos a ejecutar el modelo de forma regular.

Alex Gilgur

Todos los modelos están equivocados, pero algunos son útiles.

Dicho esto, casi ningún método supone datos independientes e idénticamente distribuidos (iid), de hecho, el objetivo de la mayoría de los métodos estadísticos es descubrir cómo cambia la distribución de algunas variables con el valor de otras variables.

Lo que generalmente se supone que es iid son los términos de error. Esto tiene sentido ya que si comienza a modelar la estructura de sus términos de error, dejarán de ser los términos de error.

Aquí está el ejemplo de una regresión lineal simple:

[matemáticas] y_i = c + b \ cdot x_i + e_i [/ matemáticas]

No se supone que [math] y_i [/ math] sea iid ya que se extraen de distribuciones normales con diferentes medios [math] b \ cdot x_i [/ math]. Solo se supone que los términos de error [math] e_i [/ math] son iid.

Pero, ¿qué sucede si descubre que las [math] e_i [/ math] no están distribuidas de manera idéntica, sino que su distribución depende en gran medida de otra variable llamada [math] z_i [/ math]? Bueno, entonces tu nuevo modelo se convierte

[matemáticas] y_i = c + b \ cdot x_i + d \ cdot z_i + f_i [/ matemáticas]

con nuevos términos de error [math] f_i [/ math].

Puede repetir este proceso de agregar complejidad a su modelo para capturar alguna estructura de sus términos de error hasta que estos sean realmente id. Pero en la práctica, debe detenerse mucho antes de eso, cuando agregar más complejidad ya no mejora la utilidad del modelo que está construyendo.

Alex Gilgur

More Interesting

¿Qué motores de búsqueda hacen un buen uso de las capacidades de búsqueda semántica?

¿Las startups prefieren alojar o licenciar software de aprendizaje automático?

¿Cuál es la diferencia entre los métodos de gradiente de políticas y los métodos de actor crítico?

Cómo comenzar a aprender y codificar Inteligencia Artificial

¿Cómo puede Machine Learning ayudar a un desarrollador de Android?

Si IBM introduce el aprendizaje automático en z / OS, ¿qué significará eso para un desarrollador de mainframe?

¿Qué lenguajes de programación son mejores para procesar el sonido y darlo como entrada a una red neuronal artificial?

¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?

¿Por qué la regresión logística se considera un modelo lineal?

¿Dónde estará (o podría) estar el Aprendizaje Profundo si la Ley de Moore continúa por otros 10-20 años?