Déjame ser tu “ejemplo vivo de tal estadístico” y decirte por qué no estoy interesado en Big Data y ML:
- Porque soy un estadístico. Las estadísticas no juegan con millones de registros, ya que no tiene sentido. Millones de registros forman prácticamente una población. No necesita hacer una inferencia ya que prácticamente SABE la respuesta.
- Porque me especializo en bioestadística. Esto requiere un aprendizaje constante. Ni siquiera tengo un poco de tiempo para perderlo al aprender algo que nunca usaré:
- por el punto 1)
- porque no estoy interesado en ML y BD, no aporta el menor valor a mi trabajo diario
- porque no me interesa una ciencia diferente a la medicina y la farmacia
- Porque 1000 – 10 000 de los sujetos en la fase III de prueba no son Big Data
- Porque en mi mundo 20-30 observaciones no es una historia inusual. Incluso menos número no es improbable (Fase 0). Y créanme, esta no es una propiedad exclusiva de la “ciencia de datos” para pasar largas horas ajustando parámetros de algoritmos. También en el “mundo de los datos pequeños”, uno puede pasar muchas horas tratando con una larga lista de problemas estadísticos y supuestos violados
El (extremadamente) pequeño número de observaciones es causado por los siguientes hechos:
- tratas a la gente. Es posible que no encuentre un número suficiente de ellos dispuestos a participar en su estudio (terapia peligrosa o “controvertida”, etc.). Cierta enfermedad puede ser rara. Un abandono puede ser significativo debido a una condición muy grave en la que se encuentran los pacientes. Es por eso que la parte crucial de cada ensayo clínico es determinar el tamaño mínimo de muestra requerido para obtener la precisión asumida. Mira, ¿cuánto difiere esta situación de lo que experimentas en el mundo de Big Data?
- Cuesta dinero real. Asumiendo que hay miles de voluntarios dispuestos a participar en su prueba, debe organizar todo y pagarlo. Puede ser más fácil para los ensayos de observación, pero, créanme, para los intervencionistas las cosas pueden complicarse. Y caro.
- Porque ya soy investigador de datos. No solo “realizo pruebas estadísticas”. Los interpreto en cooperación con los médicos, busco en la literatura casos similares, realizo metanálisis, busco patrones preocupantes, aprendo mucha terminología médica / farmacéutica específica y métodos más apropiados (y a menudo sofisticados) para hacer frente a uno de los más datos terribles (“mal condicionados”): datos médicos.
- Porque extraer una información útil de Small Data para mí no es menos interesante que hacer lo mismo con Big Data.
- Y sí, también uso métodos multidimensionales. Se inventaron y utilizaron métodos como la correlación canónica, PCA y FA, escalamiento multidimensional, LDA / QDA, SVM e IVM (importación de máquinas vectoriales, regresión logística del núcleo) mucho antes de la era de Big Data.
/ Tengo un viejo libro polaco sobre el análisis factorial de 1964, que involucra un método gráfico y geométrico, llamado “método de centroides”). La descripción en inglés del método se puede encontrar aquí. Lo esencial del análisis factorial /
- ¿Cuál es el mejor instituto de big data en Kolkata?
- ¿Cuáles son las diferencias entre una maestría en MIS, aprendizaje automático y ciencia de datos?
- ¿Qué me preparará mejor para convertirme en científico de datos: un título universitario relevante o autodidacta a través de Coursera, Kaggle y proyectos paralelos?
- ¿Qué es la programación de análisis de datos?
- Cómo analizar datos rápidamente
- Por último, si bien no menos importante. El alcance de mi actividad cotidiana se superpone con el que generalmente describen los científicos de datos. Así que soy un programador profesional de estadísticas y software, arquitecto de software y bases de datos, (bio) estadístico y administrador de bases de datos. También investigo mucho en medicina, diagnóstico y farmacia. Mezclo todas estas actividades en mi trabajo. Pero no juego con ML ni DM (hoy llamado generalmente ‘Big Data’), que son partes integrales de la ciencia de datos moderna. Y como no me gustan los “nombres parciales” y las “clasificaciones parciales”, no me encuentro y me llamo a mí mismo un “científico de datos” en el sentido común.