Quiero convertirme en un científico de datos, ¿cómo me convierto en un buen estadístico? ¿Cuáles son buenos libros, conferencias, blogs, etc. que mejorarán mi comprensión de los métodos estadísticos a nivel profesional?

Calificador: No pretendo ser un estadístico particularmente espectacular. Muchas personas lo han estado haciendo durante muchos años más y pueden tener consejos mejores / más específicos sobre cómo adquirieron su nivel de comprensión.

Sin embargo, diré que en el último año la diferencia en mi comprensión es lo suficientemente significativa como para sugerir que es probable que mi método produzca resultados prometedores para otras personas además de mí.

La estrategia es simple. Encuentre un libro de texto que reclame un tratamiento integral del tema y que sea respetado dentro del campo como punto de partida. Elegí Los elementos del aprendizaje estadístico. Revisa cada capítulo y escribe notas donde te expliques los conceptos. Tome estas notas e introdúzcalas en un programa de aprendizaje de repetición espaciada que le garantizará retener la información en un horizonte de tiempo prolongado. El objetivo no es realmente memorizar la información, sino proporcionar un regimiento mediante el cual se ve obligado a reconsiderar e internalizar los principios dentro del texto seleccionado. Con el tiempo, te das cuenta de que las relaciones entre los conceptos y el tema en su conjunto se vuelven más sólidos y coherentes en tu comprensión. A menudo reviso un tema que he visto muchas veces antes y lo entiendo desde un ángulo diferente. Las múltiples perspectivas sobre el mismo principio hacen que la idea sea más fácil de recordar en el futuro.

El pago de esta estrategia se realiza en un horizonte de tiempo largo. Es mucho trabajo escribir notas en un libro de texto y revisarlo de manera perpetua. Sin embargo, convertirse en un buen estadístico requiere muchas horas, y sugiero que este método puede requerir menos.

Además, existe un beneficio significativo al trabajar con datos reales y aplicar sus principios. Supongo que esto sucedería en paralelo con mi sugerencia.

Las estadísticas tardan MUCHO tiempo en aprender cómo hacerlo bien.

Una de las cosas más importantes es aprender de las personas con más experiencia y reconocer que hay diferentes tipos de experiencia. Por ejemplo, tengo una capacidad técnica decente (aunque conozco personas con más) pero hay cosas como asuntos operativos que sé que no entiendo tan bien como otras personas. Es muy presuntuoso pensar que alguna vez “lo sabrás todo”. No lo harás Así que desarrolle las habilidades sociales y cultive la humildad necesaria para escuchar a otras personas que saben cosas que usted no sabe.

Si consultar es parte de su trabajo, aprenda a escuchar lo que dicen con mucho cuidado. El verdadero problema del cliente rara vez es con lo que se “presenta”. Terminará siendo diferente a un terapeuta científico, por lo que su trato con los pacientes realmente importa. Debe desarrollar una buena idea del tipo de cosas que los clientes probablemente sepan y de lo que pasa en su área.

Desafortunadamente, debes desaprender muchas de las cosas que te enseñamos en las estadísticas de introducción. Por ejemplo, las clases de estadísticas introductorias están llenas de “conocimientos” de procedimiento obsoletos, como diagramas de flujo para cuando usas t y cuando usas la prueba z, dependiendo de la n . (¿Por qué abarrotamos las mentes de los estudiantes con tanta basura arcana? ¡En la era de una computadora, simplemente use la prueba t!) Respaldo la recomendación de Peter Flom de las Estadísticas de Robert Abelson como argumento basado en principios . Lo que Abelson argumenta es que las estadísticas son parte de un argumento probatorio general que se realiza, que involucra diferentes flujos de evidencia. Comienza con la teoría y el conocimiento de fondo, formula una pregunta de investigación y agrega evidencia estadística y de otro tipo, en, supongo que uno podría caracterizar, actualizar sus creencias en un enfoque retóricamente bayesiano . El libro de Abelson contiene mucho más, y vale la pena rastrear una copia. Si desea un libro más nuevo con un mensaje similar más orientado hacia el aprendizaje automático, consulte el Modelo predictivo aplicado de Max Kuhn y Kjell Johnson.

Supere la noción de que “un análisis complicado es mejor”. A menudo no lo es. El análisis complicado se utiliza mejor como un control de realidad para un análisis simple. Por ejemplo, si el análisis discriminante lineal o la regresión logística le dan el 97% del poder predictivo de un modelo de bosque aleatorio elegante, piense cuidadosamente si este último realmente vale la pena. Eso no significa que fue inútil , te dice que no hay mucho más allá de lo que te ofrece un LDA estándar.

Otra cosa que realmente necesita aprender es cómo verificar la realidad de la salida analítica. Por ejemplo, en un problema regular (=) los errores estándar de las estimaciones de parámetros deben ser proporcionales a [math] 1 / \ sqrt {n} [/ math]. Por ejemplo, si tiene un tamaño de muestra de 100 en una regresión, debe esperar que los errores estándar sean proporcionales a 0.1, suponiendo entradas razonablemente escaladas. Las desviaciones de estos problemas de señal como la colinealidad u otros problemas de identificación, particularmente las desviaciones del orden de magnitud. Lo primero que verifico cuando ejecuto un análisis son los errores estándar, ¡no los coeficientes!


= El problema regular tiene una definición técnica, pero en pocas palabras significa un problema donde la distribución gaussiana es una buena aproximación para las estimaciones de los parámetros. Esto puede ser complicado en situaciones como un modelo multinivel, donde no hay una definición clara de n .

Difícil, estoy tratando de aprender a ser un buen estadístico. Ahora, soy el tipo de persona que se compara con Fisher porque es uno de los faros brillantes de allí. Le recomendaré los estándares que he establecido para mí (y lo que una persona como Fisher hubiera esperado).

¡Conoce tus matemáticas!
No realmente, ¡conócelo! Hay demasiadas personas hoy en día que están en la moda de “Apelo a las matemáticas”. Comprenda el álgebra lineal, el análisis real, la teoría de probabilidad, las estadísticas matemáticas, los bits de la teoría de conjuntos, la optimización, la transformación de Fourier y el análisis funcional. Aquí hay algunas matemáticas:

Matriz / Álgebra Lineal:
Álgebra matricial desde la perspectiva de un estadístico: David A. Harville: 9780387949789: Amazon.com: Libros

Cálculo diferencial de matriz con aplicaciones en estadística y econometría, 2ª edición: Jan R. Magnus, Heinz Neudecker: 9780471986331: Amazon.com: Libros

Teoría de probabilidad:
Amazon.com: Métodos matemáticos de estadística. (PMS-9) (9780691080048): Harald Cramér: Libros

Estadística matemática:

Amazon.com: Estadística matemática (Springer Texts in Statistics) (9780387953823): Jun Shao: Libros

(La lista es ilustrativa, de ninguna manera exhaustiva. La uso personalmente y me gusta mucho. Conozca sus matemáticas, porque como estadístico, la gente esperará que USTED comprenda los modelos profundamente, tendrá que explicar qué hace dicho procedimiento. Si simplemente conoce las estadísticas del libro de cocina, no es mejor que un conserje con un curso intensivo en SPSS)

¡Lea sobre la filosofía básica de la ciencia!

Comprenda por qué usamos las estadísticas en general, cómo llegamos a esto, por qué la prueba de hipótesis es mejor que “probar”. Estos libros son fáciles de leer:
Amazon.com: Teoría y realidad: una introducción a la filosofía de la ciencia (serie Ciencia y sus fundamentos conceptuales) (9780226300634): Peter Godfrey-Smith: Libros

The Structure of Scientific Revolutions: 50th Anniversary Edition: 8601300156835: Reference Books @ Amazon.com

¡No se preocupe por las pruebas t y ANOVA!

Estos procedimientos se aprenden y agregará varios métodos a su arsenal a medida que se desarrolle. MANOVA, ANCOVA, regresión polinómica, AZUL, mínimos cuadrados ponderados, FIML: estos pueden entenderse fácilmente cuando estás alfabetizado matemáticamente y entiendes lo que significan los modelos. Cuando conozca por qué y cómo R o SAS realiza un determinado procedimiento, sabrá mucho más. Si desea una referencia de libro de cocina, intente:

Amazon.com: Descubriendo estadísticas usando R (9781446200469): Andy Field, Jeremy Miles, Zoe Field: Libros

¡Busca el diseño experimental!

Es una gran parte de las estadísticas, puede usarla.

Amazon.com: Estadísticas para experimentadores: diseño, innovación y descubrimiento, 2a edición (9780471718130): George EP Box, J. Stuart Hunter, William G. Hunter: Libros

Amazon.com: Diseño y análisis de experimentos (9781118146927): Douglas C. Montgomery: Libros

¡Aprende a usar R y Python!

Grandes herramientas, ¡no te arrepentirás!

Podría continuar, pero eso sería contraproducente: una vez que seas lo suficientemente profundo, lo entenderás.

¡Al final, disfruta tu trabajo ! La estadística matemática es una gran disciplina, ¡es lo que realmente une la ciencia y las matemáticas puras en una entidad continua! Un buen estadístico también debe estar al tanto de los altibajos de otras ciencias y campos: debe tener algunos conocimientos básicos de física, química, informática, otros campos de las matemáticas, la investigación de IA, la lógica y la epistemología. Y debe sentirse seguro: un estadístico es el mejor modelo para un científico. ¡Es una persona que sabe muchas matemáticas, sabe cómo diseñar experimentos óptimos, cómo difieren las mediciones, cómo y cuándo puede estar seguro / seguro / dudoso de algo! Conocer las estadísticas matemáticas significa que (con un ligero esfuerzo) puede leer sobre cualquier tema científico que le interese (la ciencia es solo eso: matemáticas y teoría y tendrá muchas de las matemáticas).

¡Buena suerte!

Recomiendo Estadística como Argumento Principled por Robert Abelson. Muy poca matemática, mucha comprensión.

Filosofía general:

“Si tuviera 6 horas para cortar un árbol, pasaría 4 de ellos afilando mi hacha” – Abraham Lincoln

Esa es una buena filosofía para la ciencia de datos / estadísticas (¡y la vida en general!).

1. Conozca sus datos. Aprenda todo lo que pueda sobre sus datos. Haga muchos análisis exploratorios e insista en muchas respuestas de personas que son expertos sustantivos.

2. Conozca sus objetivos y entiéndalos. No confíe en declaraciones vagas. ¿Qué estás tratando de averiguar?

3. Conozca sus métodos. Es mucho mejor usar un método un poco peor que usar el último y mejor método sin saber lo que está haciendo.

¡PENSAR! Pues sí, piensa. Pero a que me refiero? Bueno, en el extremo equivocado del continuo del pensamiento está la filosofía “la computadora lo dijo, lo creo, eso lo resuelve”. Lo siento. Basura dentro basura fuera. Dos subcajas:

1. Mucha basura solo significa que puedes obtener una estimación más precisa de algo que es inútil.

2. GIGO no solo se aplica a los datos sino a los programas.

En el extremo derecho del continuo hay una historia que Richard Feynman contó en Seguramente estás bromeando, Sr. Feynman . Cuando era niño, reparaba radios. Una vez, un cliente se acercó para ver si quería un refrigerio y lo vio sentado frente a la radio rota. Ella le preguntó qué estaba haciendo y él dijo “Estoy pensando”. Ella estaba asombrada! “¡Él arregla las radios pensando!” Sip.

Aquí hay una lista de lectura de Michael Jordan de UC Berkeley, uno de los mejores estadísticos de hoy: la lista de lectura de Michael Jordan.

En una nota personal, aunque no afirmaría ser un buen estadístico, encontré Elementos de la teoría de la información por Thomas M. Cover y Joy A. Thomas y Bayesian Data Analysis, por Andrew Gelman, John B. Carlin, Hal S. ¡Stern y Donald B. Rubin de esta lista de lectura son muy esclarecedores!

Mi respuesta es un poco diferente (y, no, no soy un “buen estadístico”, es un trabajo en progreso).

Aprender a ser un buen estadístico leyendo muchos libros es como aprender a nadar o conducir leyendo solo. O, más evasivamente, aprender a ser espiritual memorizando un texto sagrado.

En mi opinión, ser un “buen” estadístico consiste en gran medida en aprender a ver el mundo estadísticamente .

Cuando estás en el tráfico, ¿observas los patrones de los autos? Eso es información. ¿Por qué tomaron la ruta que hicieron? ¿Cuáles son sus expectativas sobre los cambios de carril y los tiempos de luz? Cuando esté en la fila, ¿cuánto tiempo tendrá que esperar? Si enseñas o tomas una clase, ¿cuántas personas participarán? Y un millón de otros ejemplos.

Casi todo lo que observamos son datos. Puede hacer muchas preguntas sobre cualquier dato que vea:

1) ¿Qué proceso generó esos datos?

2) ¿Hay unidades (personas, artículos) que faltan sistemáticamente (tal vez las personas mayores no responden su encuesta)? ¿Faltan algunos de los datos de algunos de los elementos (tal vez algunas personas no revelen su edad)? ¿No están disponibles algunas variables importantes completas (tal vez nadie pensó en obtener códigos postales)?

3) ¿Cómo puedes relacionar cosas que puedes observar fácilmente con algo que quieres entender? ¿La variable es suave y siempre positiva (como el ingreso)? Integral, con muchos ceros (¿cuántas empresas ha comenzado)? Etc.

4) ¿Hay distintos grupos de personas que necesitan tener parámetros dedicados a ellos (por ejemplo, la relación entre, por ejemplo, la altura y el peso puede diferir según el género)? [Esto es “heterogeneidad”.]

5) ¿Cambian las cosas clave sobre los datos con el tiempo? ¿Algunas personas, por ejemplo, abandonan su estudio?

La lista puede seguir y seguir. Mientras practica, puede intentar ayudar a varias personas a encontrar un buen modelo de algunos datos muy completos que necesitan comprender. Por ejemplo, si alguien tiene una base de datos, y hay algunas cosas que necesita pronosticar o simplemente controlar mejor, ¿puede armar un modelo conciso, razonable y robusto para ellos, usando herramientas que entienda bien, en un software que sea examinado? por la comunidad estadística?

Si puede hacerlo media docena de veces, aprenderá mucho más que simplemente leer libros de estadísticas. Idealmente, lo harías al mismo tiempo.

¿Cómo convertirse en un buen estadístico?

Soy Estadista por más de 10 años y todavía estoy aprendiendo a ser bueno. 😀

Ya ves … un estadístico nunca deja de aprender.

Puedes comenzar con esto …

1) Aprenda SQL, R, SPSS y SAS.
2) Aprenda metodologías estadísticas, 2 pruebas T de muestra independientes, CHI-Square, ANOVA, MANOVA, ANCOVA, medidas repetidas, etc.
3) Modelos estadísticos Regresión lineal, Regresión logística, Regresión logística multinomial, Análisis factorial, RFM (No es realmente un modelo pero es muy útil para personas de nivel C)
4) Modelos informáticos: árboles de decisión, cesta de la compra, clúster
5) Tenga cuidado … mientras aprende todo esto … aprenda CÓMO HABLAR EN LENGUA HUMANA QUE PUEDE HABLAR CON UN CEO. Su CEO no querrá asistir a una conferencia estadística mientras usted presente.
6) Aprender estrategias comerciales
7) Aprender estrategias de marketing.

Sí, un estadístico podría necesitar saber estadísticas, informática, programación (datos limpios), negocios, marketing, configuración del servidor (bueno para el inicio).

Y lo más importante … Si sus resultados de Estadísticas no pueden comprarle una piscina a su CEO … Él no estará interesado en escucharlo. (Comprar piscina = comprar propiedades de tierra.

Bienvenido al mundo de las estadísticas que siempre está aprendiendo. Espero que sigas siendo un juego.

Creo que las cosas más importantes NO son libros de texto o conferencias.

  1. Elige un libro de texto. Puede elegir un libro de texto en Amazon que tenga la tasa alta.
  2. Lee el libro de texto y calcula con tu propia mano. Entonces puedes entender la teoría de la estadística. No tiene que usar el software de estadísticas hasta que comprenda las estadísticas.

More Interesting

Soy ingeniero industrial (nunca he estado en ciencias de la computación) pero estoy interesado en la ciencia de datos. ¿Qué tengo que hacer?

¿Cómo es más útil el Big Data que otros conjuntos de datos?

¿Qué son exactamente los grandes datos y qué lenguajes de programación se deben aprender para comprender mejor este concepto?

¿Qué son los momentos en las estadísticas? ¿Qué nos proporcionan sobre la distribución de datos?

¿Puede la ciencia de datos ayudar en el dominio de la ley? ¿El sistema judicial indio adoptará / aceptará dicha herramienta, ya que este será un cambio importante?

¿Cuál es la diferencia entre big data y meta data?

¿Cómo utilizan las principales empresas la ciencia de datos en las finanzas?

Hipotéticamente, ¿sería posible desarrollar un robot que prediga tendencias utilizando la programación de análisis de datos? Estoy considerando seriamente hacer esto.

¿Qué es más preferible en el aprendizaje automático, la precisión del modelo A es del 50% en los datos de entrenamiento y del 97% en los datos de las pruebas, o el modelo B tiene una precisión del 80% en los datos del tren y el 75% en los datos de las pruebas? (Más detalles en el comentario abajo) gracias!

¿En qué áreas del aprendizaje automático es crucial la cuantificación de la incertidumbre?

¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?

Cómo prepararse para una maestría en informática en aprendizaje automático / ciencia de datos como una persona sin mucha experiencia en el campo de la informática

¿Qué tiene el futuro más brillante, big data / data science o desarrollo web?

¿Es bueno tener un doctorado en estadística después de completar mi doctorado en ciencia de datos o alguna otra buena idea?

¿El puesto de gerente de operaciones y logística en Uber es un buen trabajo para un aspirante a científico de datos?