¿Cómo nos pueden decir las estadísticas sobre la causalidad?

Primero, consultemos el libro de la Sagrada Escritura. Quiero decir, por supuesto, xkcd:

El texto del mouse sobre este cómic es

¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?
¿Cuáles son los diferentes métodos de aprendizaje automático que se pueden aplicar a los problemas de ventas y marketing?
¿Python es mejor que R para la ciencia de datos?
Si pudiera realizar una pasantía como pasante de minería de datos en cualquier empresa de Silicon Valley, ¿dónde trabajaría y por qué?
¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

La correlación no implica causalidad, pero sí mueve las cejas de manera sugestiva y gesticula furtivamente mientras dice “mira hacia allá”.

En serio, aunque la correlación no es causalidad, la estadística no es solo correlación . Hay un buen resumen reciente en arxiv: distinguir causa de efecto utilizando datos de observación: métodos y puntos de referencia. Este artículo cubre los métodos estadísticos actualmente en uso para determinar la causalidad a partir de observaciones solamente. Algunos de estos métodos hacen algunas suposiciones adicionales, pero a menudo son leves y razonables para sistemas realistas. Un método particular que he encontrado útil es el “descubrimiento causal no lineal con modelos de ruido aditivo”.

Se podría argumentar que para determinar realmente la causalidad, uno no puede simplemente observar los datos, sino que debe intervenir: debe experimentar activamente las entradas y / o el estado interno de un sistema para determinar cómo se conectan en red los diferentes bloques. Como ejemplo, todas las mañanas se encienden las farolas y luego sale el sol. Si desea saber si las farolas hacen que salga el sol, desconecte las farolas y vea qué sucede (sin embargo, no conozco a nadie que sintiera que era necesario realizar este experimento).

Tales experimentos son para qué sirven las herramientas estadísticas como DOE (Diseño de experimentos, como lo mencionaron varios otros en este hilo) y SysID (SYStem IDentification) por inyección de señal. Sin embargo, incluso si uno interviniera en un sistema, si los bloques internos son estocásticos, la incertidumbre puede permanecer en la estimación de la causalidad.

A veces no es práctico o ético intervenir de esta manera; por ejemplo, la experimentación en humanos es problemática. O puede ser imposible hacer los ajustes necesarios para un experimento, como en las observaciones astronómicas. En estos casos, los métodos estadísticos que utilizan solo observaciones pueden ser las únicas herramientas prácticas disponibles.

“¿Pero qué hay de adoptar la teoría más simple y usar la teoría para decirte la causalidad?” Bueno, una vez que hayas descubierto una manera de cuantificar lo que significa “más simple” de una manera objetiva y medible, descubrirás que estás haciendo estadísticas: Antecedentes bayesianos, longitud mínima de descripción, escasez, etc., pero aún estadísticas. O podría estar dispuesto a plantear su teoría solo con palabras sin la capacidad de adjuntar métricas objetivas, en cuyo caso estaría practicando metafísica y no ciencia en absoluto.

TL; DR: los métodos estadísticos pueden hablar de causalidad.

Análisis deAnálisis de Big DataBig DataCiencia de datosdatosestadísticasMinería de

¿Qué tipo de datos predice con precisión el aprendizaje automático?

¿Cómo funciona Data Scramblr?

¿Cuál es la mejor manera para que un gerente de producto gane competencia en ciencias de datos en su tiempo libre (es decir, no en el trabajo)?

¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?

En ciencia de datos, ¿qué tema es más útil saber sobre análisis de series temporales o procesos estocásticos?

¿Cuándo se espera desarrollar la versión completa del lenguaje de programación Julia?

Estoy un poco sorprendido por todas las respuestas que afirman que “las estadísticas no pueden decirle nada sobre la causalidad”. Reformularía “los enfoques estadísticos tradicionales no pueden decir mucho sobre la causalidad”. Hay un campo importante que estudia la inferencia causal en estadística. Es posible que desee consultar los libros y publicaciones de Judea Pearl (página en ucla.edu). De hecho, su libro “Inferencia causal en estadística:
Una descripción general “está disponible en línea como un Informe técnico ( http://ftp.cs.ucla.edu/pub/stat_ …). Como verá en esa publicación, una de las principales herramientas” estadísticas “para inferir la causalidad es el denominado modelo de ecuación estructural. Si está interesado en cómo derivar la causalidad de los datos, también recomendaría este artículo de 2013 JMLR de Leon Bottou et. al papers: bottou-jmlr-2013 [leon.bottou.org]

Carrie Cutler

Realmente no puede. Junto con las excelentes respuestas técnicas ya enumeradas, me gustaría que hicieras un experimento mental conmigo.

Digamos que tienes un buen auto. Tiene un excelente trabajo de pintura, está en excelente forma y le gusta mantenerlo limpio y detallado. Tienes que lavarlo más de lo que quieres, porque parece que cada vez que limpias el auto, llueve o te ensucias de una manera u otra. Después de un año más o menos, comienzas a bromear diciendo que parece que la mejor manera de saber si lloverá es limpiar tu auto; la lluvia seguirá.

Debido a que eres del tipo curioso, decides hacer un análisis muy simple de los dos, obviamente, lavar tu auto es la variable independiente, ya que es algo que puedes manipular, y la lluvia es la variable dependiente.

Descubres, por Dios, que hay un 89% de posibilidades de que llueva dentro de un día después de lavar tu auto, y que el efecto es incluso estadísticamente significativo. Eres, literalmente, un semidiós del clima (o tal vez has molestado a uno).

Aquí es donde la gente se burla y dice “bueno, sabemos qué causa la lluvia y obviamente no es si alguien lava o no su auto”, bueno, y tienen razón. Lavar su automóvil no está relacionado con el clima.

¿Cómo sabemos que lavar tu auto causa lluvia? Después de todo, cumple con los requisitos para ser estadísticamente significativo Y está altamente correlacionado con la prueba de su elección.

¿Pero por qué?

¿Por qué la prueba no es lo suficientemente buena por sí sola?

No es lo suficientemente bueno en sí mismo porque probar si algo es causal o no depende de cosas fuera de la prueba. En este caso, también es una prueba mal diseñada, pero la analogía se mantiene.

Por todas las razones técnicas enumeradas en otras respuestas, todo lo que tenemos en el mejor de los casos son algunos patrones de variación realmente sugestivos. Las decisiones sobre la causalidad se toman fuera de la prueba, y cuando llegas a cierto punto en el estudio de las cosas, te das cuenta de que hay mucho más “creemos que es así” que “estamos bastante seguros”. En realidad, hay muy poco “sabemos que esto sea cierto” en el estudio de las ciencias, y lo que hay está vinculado a un contexto específico y algunos requisitos muy específicos.

La probabilidad depende en gran medida del contexto, y también lo son nuestras medidas. Yo, usted y cualquier otra persona que estudie la probabilidad podemos hacer experimentos de cualquier manera que nos plazca y jugar con los componentes hasta que obtengamos la respuesta que nos gusta. Siempre me ha gustado este gráfico como una demostración de eso:

(Gracias, Tyler Vigen. Enlace de imagen: Correlaciones espurias)

¡Mira cuán estrechamente relacionadas están esas dos distribuciones!

¿Cuál es el contexto presuntivo, aquí? ¿Cuál es la narrativa entre el consumo per cápita de queso y la muerte por el enredo de la sábana? (La respuesta es humor, pero estoy tratando deliberadamente de hacer que las estadísticas de pensamiento midan la correlación extraña, * porque es, a medida que aprende sobre las estadísticas, una suposición ** comprensible y, sin embargo, extraña.)

La narrativa es la razón no técnica por la que no se puede usar la probabilidad para encontrar la causalidad, y deliberadamente estoy lanzando esto en inglés sencillo (las razones técnicas se han cubierto admirablemente, solo estoy limpiando). En un experimento, estás creando un pequeño mundo artificial que tiene, en el mejor de los casos, una relación tangencial con el bombardeo de la casualidad en los acontecimientos cotidianos. Pasas meses cuidadosamente averiguando cómo compensar, aislar, manipular y / o negociar circunstancias para poder descartar tantas cosas como sea posible y acercarte lo más posible a lo que quieres medir.

El proceso de medición es efectuado por usted, sus elecciones, los materiales involucrados, una serie de condiciones globales (por lo que quiero decir que abarca o afecta a todas) verdaderas del evento y la población en particular, y cosas tan dispares como el error humano regular o algo que usted no tiene. No pensé en absoluto.

También se ve afectado por el tiempo, patrones de variación no buscados que pueden afectar lo que está tratando de medir y / o cualquier cosa que no pueda evitar. La solución clásica es asegurarse de que sea tan aleatorio que cualquier cosa ordenada se destaque.

Volvamos al queso y las sábanas. Ambos provienen de datos estadounidenses, ambos cubren los años 2000-2009, ambos provienen de agencias de informes reconocidas a nivel nacional (USDA y CDC), y ambos se refieren al comportamiento humano. ***

¿Cuáles son algunas razones generales por las cuales podríamos descartar que el queso cause la muerte por las sábanas o, dado que esto es solo frecuencia, la muerte por las sábanas que causa el consumo de queso?

Como ejercicio, aquí hay algunas razones por las que podríamos descartar que una de estas causas sea la otra:

la gente no suele comer queso en la cama, colocando cierta distancia física entre el queso y las sábanas (no podemos colocar el queso en la escena del crimen).
las personas no pueden comer queso mientras mueren de sábanas (sus bocas están ocupadas)
la gente parece poder comer queso regularmente sin asfixiarse (o Wisconsin estaría en problemas).
Es probable que las personas intolerantes a la lactosa, que presumiblemente no comen queso, no se asfixien en sus sábanas. No sabemos si sufren la misma tasa de muerte por sábanas.
la asfixia en las sábanas es mucho menos probable que el consumo de queso, comparando los datos per cápita con el número bruto de personas que se asfixiaron en sus sábanas (no podemos, por supuesto, descartar que el queso se escabulle allí en medio de la noche y descartarlos) como venganza por ser masticado) ****

Aquí hay algunas razones por las que podríamos elegir creer que hubo una relación:

mayor obesidad causada por el alto consumo de queso per cápita
problemas cardiovasculares aumentados causados por el alto consumo de queso per cápita
una erupción de estrés comiendo y evitando el gimnasio
una erupción de queso al comer y sobredosis de medicamentos para dormir
sábanas y queso maliciosos que solo quieren estar cerca de ti ******

Para medir incluso, debes comenzar a tomar decisiones sobre lo que parece probable para que sepas qué medir. También deberá comenzar a introducir otras cosas, como la obesidad (que, para su información, no está en estos datos) o el queso sensible.

Si desea hacerlo de manera responsable, utilizará las categorías enumeradas en las respuestas más técnicas: querrá los criterios de Hill, que figuran en otra respuesta.

Sin embargo, notará que, según los criterios de Hill, hay varias categorías que requieren que haga llamadas de juicio.

Para el experimento de pensamiento original, que involucra lavar su automóvil y la lluvia, tenemos precedencia temporal, fuerza, una leve cantidad de coherencia, y eso es todo.

Para el queso y las sábanas, tenemos resistencia, consistencia y posiblemente un gradiente biológico tal que el aumento del consumo de queso se combina con una mayor muerte por sábana.

El llamado al juicio llega cuando comenzamos a hablar de plausibilidad. Afortunadamente, es probable que ambos ejemplos se consideren inverosímiles, y podemos descartarlos (pero el queso aún puede ser culpable).

De una manera completamente no técnica, esa es una de las razones fundamentales por las que las estadísticas no son útiles para la causalidad en el sentido estricto (matemático), solo sugestivas en un sentido práctico. Tiene que ser juzgado, finalmente, por usted, por su plausibilidad.

También ayuda a comparar la causalidad lógica formal con esto, y prometo que me detendré con el queso (no hago tales promesas sobre las sábanas).

Las estadísticas son como el primo más salvaje de las matemáticas y la lógica, donde la respuesta es casi siempre “tal vez”. En lógica y partes de las matemáticas, hay afirmaciones que pueden decirse que son causales de una manera formal y rigurosa. Hay dos condiciones en esas relaciones causales que determinan la naturaleza de su relación: necesidad y suficiencia.

Decir que algo es necesario es decir que todo lo que está sucediendo no sucede sin que lo primero exista y / o sea cierto. Decir que es suficiente es decir que lo que está sucediendo tiene un valor de verdad que depende de lo primero.

El ejemplo clásico de la lógica es el silogismo: si A, entonces B.

Debería leer esto: si A existe y es verdadero, B existe y es verdadero.

En el caso de la lluvia y el automóvil, ¿podemos decir que si el automóvil se lava, entonces lloverá?

Obviamente no. Lo mismo para el queso.

Podríamos decir, según el gráfico, que el queso puede ser suficiente para la muerte por las sábanas (pero debe estar preparado para que se rían de él). No podemos decir, bajo ninguna circunstancia, que si se consume queso, se produce la muerte por las sábanas.

Puede ser suficiente, pero definitivamente no es necesario. Puede tener uno sin el otro, Y la frecuencia sugiere que puede tener una gran cantidad de queso sin muerte por hoja.

Ese es, por cierto, un problema en el corazón de la causalidad que merece años de estudio realmente difícil.

Lo único que podemos decir es algo sobre la suficiencia. Casi nunca podemos decir nada sobre la necesidad.

Imagínese, si lo desea, tratando de garantizar que se satisfagan tanto la suficiencia como la necesidad en un experimento de laboratorio.

Cuando haya terminado con el dolor de cabeza (y le animo a que lo intente, porque es importante ensuciarse las manos con este problema), debe tomarse un momento y apreciar la belleza desordenada que se está aplicando a cualquier tema. rigor a la causalidad en un complejo campo de variación.

Tómese un día en algún momento y comience a tratar de rastrear las variables que convergen en su taza de café / té / cacao y su apariencia en su mano. Las estadísticas son un tema para las personas que se sienten cómodas, o al menos están dispuestas, a mirar infinitamente a los ojos.

Y no te preocupes, no diré que se vuelve más fácil (porque siempre es infinito y te está mirando directamente a ti), pero sí aprendes a navegar con más habilidad.

Si está a la altura, le recomiendo leer algunos de los clásicos de estadísticas (particularmente el Tratado de probabilidad de John Maynard Keyes y su búsqueda de LaPlace, y la teoría de probabilidad más moderna : la lógica de la ciencia por ET Jaynes).

Allí. Probablemente sea más de lo que siempre quisiste saber, pero espero que te haya sido útil.
___________________________

* La probabilidad es la respuesta a la pregunta “¿cómo puedo hacer que mi mundo sea completamente inestable”? La respuesta completa es “estudiando si algo sucede o no en lugar de asumir que sucede”.

La locura comienza poco después de que comiences a tener que probar métodos y para cuando escribas una disertación, eres una causa perdida.

Escapé a la ingeniería, que seguramente es más cuerdo.

Decir ah. Jaja. HAHAHAHAHA —- oh dios, estoy postergando estudiar la serie de Taylor y escribir árboles autoensamblables en C ………
……
… ..
…
..
* ayuda *

** A medida que estudias estadísticas, andas a tientas en un vasto mar de extrañeza, buscando puntos de referencia. Queremos que sea causal porque el mar es vasto, oscuro y lleno de tiburones que tienen la mala costumbre de hacer cosas como señalar que las moléculas en nuestro bote solo están convenientemente juntas.

*** Si se trata de humanos, haces lo mejor que puedes para aislar, pero no vas a obtener datos completamente consistentes. Los humanos son pequeños patrones desordenados con una estructura de organización suelta, aunque reconocible, para sus comportamientos.

**** Soy intolerante a la lactosa. Confía en mí, el queso es vengativo.

***** Si el queso solo quiere estar cerca de ti, ten mucho cuidado. Podría estar preparándose para sofocarlo en sus sábanas.

Frank Cheng

Resolver la causalidad a partir de los datos es difícil. Además, si creyeras todo lo que dicen los medios sobre los hallazgos científicos, serías mucho más optimista sobre la capacidad de las estadísticas para demostrar la causalidad. Por ejemplo, se le puede perdonar por pensar que la vacuna contra la gripe puede prevenir la mortalidad por todas las causas y los ingresos hospitalarios. Sin embargo, con un poco de capacitación en estadísticas, una segunda mirada a su investigación le dice que tienen mucho trabajo por hacer antes de comenzar a hablar sobre las relaciones causales. La mayoría de los estudios no abordan la causalidad debido al diseño deficiente del estudio.
(descargo de responsabilidad: las vacunas contra la gripe pueden prevenir una amplia gama de muertes y enfermedades, pero los estudios que se utilizan para probar este vínculo causal tienen mucho que desear)

En primer lugar, sin embargo, ¿qué es la causalidad? La concepción de causalidad más citada son los criterios de causalidad de Hill, enumerados en Wikipedia como:

Fuerza
Consistencia
Especificidad
Temporalidad
Gradiente biológico
Plausibilidad
Coherencia
Experimentar
Analogía

Las estadísticas pueden abordar los criterios 1, 2, 3, 4 y 5.
Estadísticamente hablando, estos son el tamaño del efecto y la medida de significancia, reproducibilidad, una identificación del contrafactual (es decir, ajuste por confusión, métodos de emparejamiento), análisis de series de tiempo y una relación dosis-respuesta. La atribución de un cambio en el resultado debido a una variable específica es el mayor trabajo en estadística.

Los modelos estadísticos que surgen de estos datos y diseños de estudio pueden verificarse para los criterios 6 a 9 mediante una revisión de la literatura. ¿Existe un mecanismo teórico para la relación causal? ¿Son consistentes los hallazgos con experimentos / observaciones similares? Estos no son métodos estadísticos, pero son esenciales antes de concluir que una relación es causal.

Una vez que piense que una relación puede ser causal, sea muy escéptico y vuelva a tratar de refutar la relación causal.

¡La causalidad es difícil de probar y, a veces, incluso más difícil de refutar! Un buen científico puede contarle sobre la causalidad: las estadísticas son la mitad de ese trabajo.

Emrah Anayurt

Aparte de la excelente respuesta de Xaiver,
Me gustaría dar información sobre una técnica específica de “inferencia causal”, es decir, la técnica de correspondencia de puntaje de propensión (PSM).

En nuestros proyectos, utilizamos ese enfoque para comprender a la víctima o detectar efectos de confusión.

Puede encontrar los detalles a continuación:
coincidencia de puntaje de propensión ( PSM )

Dejame explicarte con un ejemplo:

1. Piensa que estás buscando la relación entre la propiedad del producto y los ingresos

2. Mientras analiza los datos, verá que la propiedad de algunos productos reduciría los ingresos

3. Sin embargo, habría algunos efectos de confusión.

4. Para eliminar los efectos de confusión, puede:

Ejecute una regresión logística para predecir la probabilidad de propiedad del producto.
Divide los puntajes de propensión en grupos (digamos 5 grupos)
Compare los ingresos de los clientes que poseen productos / no poseen productos para cada grupo de productos.
Con la agrupación puede eliminar el efecto de confusión y comprender el efecto real de la propiedad del producto sobre los ingresos.

Peter Flom

Creo que lo que mucha gente está entendiendo aquí es que hay diferentes maneras de responder esta pregunta dependiendo del marco epistemológico en el que esté trabajando … Así es, lo escuchó aquí: la epistemología no es solo para los mayores de humanidades.

Este es el tema común entre las respuestas técnicas y las más alfabetizadas: podemos definir la causalidad de diferentes maneras con diferentes supuestos epistémicos, y algunos de estos marcos se benefician de los métodos estadísticos (esta es la esencia de la respuesta de Jay Verkuilen a Xavier Amatriain).

Le sugiero que lea sobre las ideas expuestas por David Hume, famoso empirista británico. Propuso la idea de que la causalidad como se define convencionalmente es meramente la certeza psicológica “Si A, entonces B”, basada en nuestra experiencia empírica de la conjunción constante de A y B. Sin embargo, este razonamiento inductivo puede ser lógicamente defectuoso (como en el ejemplo del auto en la respuesta de Carrie Cutler). En la formulación de Hume, nunca estamos razonablemente justificados para hacer inferencias inductivas sobre el mundo. Esta es la esencia de algunas de las respuestas que sugieren que nunca podremos establecer realmente la causalidad.

En resumen: los métodos estadísticos para determinar la causalidad son tan útiles como lo permite su marco epistemológico. La siguiente pregunta lógica podría ser, ¿cómo se elige el mejor marco epistemológico? ¿Cómo definimos mejor lo necesario y suficiente (y por lo tanto, causa y efecto)? Puede que esta pregunta no tenga una respuesta fácil, pero esta es una de mis reflexiones favoritas sobre el tema (de nuevo, no de un estadístico, sino de un filósofo):

“Hemos arreglado para nosotros un mundo en el que podemos vivir, colocando cuerpos, líneas, planos, causas y efectos, movimiento y descanso, forma y contenido; sin estos artículos de fe ahora nadie podría soportar la vida. Pero eso no prueba ellos. La vida no es argumento. Las condiciones de vida pueden incluir el error “.
– Nietzsche, La Ciencia Gay

En otras palabras: la idea de causalidad puede requerir una suposición fundamentalmente ilógica de que el mundo puede ser analizado por inducción, pero esta irracionalidad es útil. Por ejemplo (y parafraseando libremente otro ejemplo nietzscheano), nuestros antepasados pueden haber notado que cada vez que se encontraban con un león y se acercaban, alguien se comía. Probablemente comenzaron a asumir que todos los leones eran peligrosos, que la muerte era un efecto de estar cerca de los leones. Esta es una inferencia estadística simplista en el fondo, lo que algunos podrían llamar sentido común. Sin embargo, es ilógico en la cara: no podemos suponer necesariamente que una criatura que se parece a un león tiene algo en común con criaturas de leones anteriores que hemos encontrado, especialmente como animales prehumanos sin ninguna concepción de la evolución y las relaciones entre diferentes formas de vida. Si fuéramos seres puramente lógicos, seríamos escépticos de esta suposición … y, sin embargo, seguramente ya no quedan humanos puramente racionales, todos sus antepasados han muerto hace mucho tiempo a los leones.

Carrie Cutler

Las estadísticas por sí solas no pueden decirle nada sobre la causalidad.

INCLUSO en el caso de un ensayo de control aleatorio, lo que nos permite inferir causalidad no son las estadísticas, sino nuestro pensamiento sobre las estadísticas.

Supongamos que realiza un ECA de un tratamiento para la pérdida de peso y encuentra una gran diferencia entre su grupo de tratamiento y su grupo de control. Las estadísticas no pueden decir si las personas perdieron peso porque estaban en el grupo de tratamiento o si estaban en el grupo de tratamiento porque perdieron peso.

Lo que hace es nuestra creencia de que los efectos no pueden venir antes que las causas. Es decir, “Nuestro tratamiento causó la pérdida de peso” tiene sentido. “La pérdida de peso causó nuestro tratamiento” no tiene sentido. Pero podría ejecutar una regresión logística con “grupo” como variable dependiente y “pérdida de peso” como variable independiente; nada en las estadísticas le impide hacerlo; No viola suposiciones. Es una estupidez .

Alexander Moreno

Hay varios trabajos recientes en la literatura de aprendizaje automático / estadística. Un buen artículo reciente es

Causa y efecto: la nueva prueba estadística revolucionaria que puede separarlos

En el modelado financiero, esto ha existido durante mucho tiempo, y generalmente se modela utilizando de alguna forma una prueba de Granger para la causalidad
Causalidad versus correlación: causalidad de Granger

Para otra idea reciente, vea
Causalidad, correlación y movimiento browniano
y referencia [3], que muestra que, para 2 veces la serie X (t), Y (t),

“Si E_ {XY} ( t_ {a} , t_ {b} ) es significativamente menor que E_ {X} ( t_ {a} , t_ {b} ) por alguna medida estadística, entonces uno dice que Y ( t ) Granger causa X ( t ) “.

y luego usa técnicas de mecánica estadística de no equilibrio para generalizar la causalidad de Granger a sistemas ruidosos.

Peter Flom

¿No es el problema de naturaleza filosófica: que la causalidad en sí misma no puede ser probada? Solo existe la coincidencia de eventos, de los cuales derivamos en nuestra conciencia que si sucede con la frecuencia suficiente o de ciertas maneras, entonces tenemos el concepto de x ‘causa’ y? Y esto realmente no es diferente del conocimiento más explícito de que con relativamente pocos eventos (conocidos como estadísticos) hay más incertidumbre que podemos afirmar que ‘causalidad?

Para mí, si existe una fuerte correlación (definida como una alta probabilidad de que sea poco probable que sea aleatoria) entre x & y, y cuando hago x en el futuro generalmente obtengo y, entonces x puede considerarse como ‘ causando y.

Carrie Cutler

En general, no puede probar causalidad utilizando métodos estadísticos, de hecho, no puede probarlo con métodos de aprendizaje automático aún más avanzados.

Lo único que se puede concluir analizando datos, ya sea muestreando poblaciones pequeñas o analizando realmente todos los datos, es la relación anti-causal con los datos y una predicción. Predecir una relación causal es fundamentalmente imposible. Se puede predecir una correlación, pero eso es muy diferente de la causalidad.

En un nivel fundamental está el problema de detención (problema de detención) que básicamente dice que no se puede predecir el comportamiento de las máquinas que son equivalentes a una máquina de Turing. Por lo tanto, el proceso de probar la causalidad es equivalente al proceso de predecir la clase de computabilidad de una máquina. Esto simplemente no es posible si todo lo que uno hace es datos de muestra.

Peter Flom

A menudo, no mucho sin un ensayo controlado aleatorio. Puede obtenerlo a partir de datos de observación, pero generalmente necesitará un buen instrumento o cierta comprensión de la ciencia subyacente para hacer una inferencia causal. El método de emparejamiento es otro método popular. El diseño de regresión discontinua parece ser una cosa ahora. La clave aquí es estimar un efecto contrafactual: lo que habría sucedido con una elección diferente. Esta es la razón por la cual un ensayo controlado aleatorio es una herramienta de análisis valiosa, porque nos da un efecto de tratamiento promedio, es decir, lo que habría sucedido (en promedio) si todos los controles se hubieran trasladado al grupo de tratamiento. Esto es causal porque si la asignación es verdaderamente aleatoria, entonces no puede haber una diferencia promedio entre los grupos de tratamiento y control, y cualquier diferencia promedio entre ellos debe deberse al tratamiento.

Tenga en cuenta que a veces muchas relaciones correlativas y cierta intuición sobre la mecánica subyacente (la ciencia) pueden ser convincentes. El efecto del tabaquismo sobre el cáncer de pulmón es famoso, y parece obvio en retrospectiva, pero durante mucho tiempo nos preguntamos si fumar en realidad causó cáncer de pulmón o si fue solo una coincidencia. Hoy en día, si me dijeras que Beijing tiene más smog que Auckland, y los residentes tienen tasas más altas de problemas pulmonares, la evidencia estadística sería solo correlación … pero no creo que sea difícil convencer a la gente de que es el problema. smog ese es el problema.

Xavier Amatriain

Las inferencias causales más fuertes provienen de experimentos aleatorios, en los que las personas son asignadas al tratamiento A o al tratamiento B con el lanzamiento de una moneda justa. La FDA exige ensayos aleatorios para la evaluación de nuevos medicamentos, y las principales revistas de medicina, psicología, etc., los prefieren. El estadístico Sir Ronald Fisher propuso experimentos aleatorios; vea su libro de Diseño de experimentos de 1935. Para estudios no aleatorizados de efectos causales, ver Diseños experimentales y cuasiexperimentales de Shadish, Cook y Campbell para Inferencia causal generalizada y Estudios de observación de Rosenbaum.

Peter Flom

Los datos definitivamente pueden informarnos sobre la causalidad siempre que haya una dimensión de tiempo. Existe una cantidad bien conocida en la teoría de la información llamada información dirigida I (X-> Y) que nos dice la información que una variable aleatoria X proporciona sobre Y, distinta de la información que Y proporciona sobre X. Si la causalidad es simple, esto La métrica hace un buen trabajo. En el caso de la retroalimentación o la causalidad mutua, las cosas se vuelven más desordenadas pero, en cierto sentido, es porque la realidad misma es desordenada 🙂

Emrah Anayurt

El tema de estadísticas es un amplio campo de metodologías matemáticas y métodos analíticos que se pueden utilizar en muchas áreas diferentes. En caso de que se refiera a ‘Víctima’ en el sentido de accidentes, mortalidad y situaciones similares donde hay víctimas, daños o incidentes que terminan con la vida, las compañías de seguros vienen a rescatarla.
El área de Actuario se ocupa de los cálculos de las tasas de mortalidad de todo tipo y calcula las primas de seguros y otras tasas basadas en datos demográficos y otros datos pertinentes que brindan la información requerida. En otras palabras, la ciencia de la casualidad y cómo lidiar con ella en términos de evaluaciones financieras. Cada vez que hay un dato, entra en juego alguna forma de estadística. La ciencia actuarial que se ocupa de la ‘causalidad’ usa mucho las matemáticas y las estadísticas. Y sí, las estadísticas nos pueden decir mucho sobre la casualidad.
Espero que haya querido decir ese tipo de casualidad.

Sumedha Sengupta

Desde mi punto de vista, las estadísticas solo nos dicen muy poco sobre la causalidad. Las estadísticas proporcionan una forma de analizar datos en presencia de incertidumbre probabilística. Esto es muy útil, pero la evaluación de la causalidad depende de suposiciones y comprensión sustantivas y teóricas, un buen diseño que se centra en comparaciones significativas y otros aspectos de un estudio más allá del análisis estadístico. La evidencia estadística puede ser muy útil para hacer el argumento probatorio; pero no puede reemplazar esos otros aspectos. Ningún análisis guardará un diseño fallido.

George Savva

Las estadísticas nos pueden decir que x es un buen predictor de y. Con cierta intuición sobre el tema, puede deducir que x probablemente causa y, pero la intuición y no la estadística es lo que nos dice eso.

George Savva

More Interesting

¿Cuáles son algunas buenas academias en línea como Jigsaw que proporcionan certificación para Big Data Analytics?

¿Cuáles son buenas técnicas de aumento de datos para un conjunto de datos de imágenes pequeñas?

¿Qué tan buena es la colocación cooperativa para el programa de Big Data en SFU? ¿Cómo son las oportunidades de trabajo para el programa de Big Data en Vancouver para graduados de SFU?

¿Qué piensan los profesionales de analistas de negocios sobre el término 'ciencia de datos'?

¿Cuál es la diferencia entre la exploración de datos y el análisis predictivo?

Cómo resolver errores de E / S de Linux sin reiniciar

Cómo lidiar con la falta de disponibilidad de datos o datos incorrectos para resolver problemas de ciencia de datos

¿Cómo se pasa de ser un graduado en informática a un eventual científico de datos?

¿Por qué algunos gerentes de contratación en ciencia de datos todavía están colgando sobre si tienes un doctorado o no?

¿Cómo se compara Weka con Matlab / Python / R para la ciencia de datos?