¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

He trabajado en ambos mundos; Aquí están mis 2 centavos:

1) Conocimiento de dominio: abordar problemas de datos profundos en biología requiere conocimiento y capacitación especializados adicionales. Por lo general, no te atraen estos problemas con el objetivo de convertirte en el próximo Bill Gates. Esto significa que la intersección de geeks de datos que pueden resolver estos problemas técnicos y tienen el conocimiento de dominio requerido es pequeña.

2) Fuerzas del mercado: mi impresión es que la barrera de entrada y salida exitosa es mucho más baja en el mundo web, y las recompensas monetarias potenciales pueden ser mucho más altas. Muchas personas que trabajan en los últimos problemas de datos bioinformáticos están en la academia, laboratorios nacionales o son estudiantes graduados mal pagados. Las startups web fallan rápidamente, y algunas realmente suceden. La primera startup de software en la que estuve fue adquirida, y la mayoría de mis amigos tecnológicos han trabajado en una compañía que fue adquirida en algún momento. No puedo pensar en ningún amigo en biología con la misma experiencia. Este es un argumento vago, y tal vez alguien en Quora pueda respaldar esto con números reales.

3) Nivel de comodidad: las personas tienden a relacionarse más fácilmente con los problemas de datos de inicio de la web y del consumidor. Por ejemplo: recomendar películas que le puedan gustar a alguien, encontrar personas que puedan conocer, personalizar fuentes de noticias, orientar anuncios o mejorar los resultados de búsqueda. La mayoría de las personas pueden familiarizarse rápidamente con posibles algoritmos o características de datos que podrían ser útiles. Estas cosas también están “de moda” e implican conceptos que puede explicar fácilmente a los inversores o a un extraño al azar que conozca en un bar.

4) Velocidad: muchas cosas parecen moverse más rápido en el espacio web / consumidor. En general, se eliminan más de la academia, los datos son más fáciles de recopilar y trabajar, hay menos obstáculos regulatorios y costos de inicio.

Análisis de datosBig DataBig Data AnalysisBioinformáticabiologíaMachine Learning

¿Cuál es la diferencia entre el aprendizaje por refuerzo y la optimización?

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

¿Se siguen evaluando empíricamente las arquitecturas de redes neuronales profundas?

¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?

¿Qué es el CAT6?

Además de las ideas anteriores, me gustaría argumentar que la naturaleza misma de la biología hace que los datos biológicos sean difíciles de abordar y comprender. Sugeriría que un enfoque informático de la biología sigue siendo realmente difícil porque 1) los datos biológicos son tanto estocásticos como ruidosos, 2) la biología molecular todavía es muy negra, y 3) la comprensión biológica aún no es muy accionable.

1. La información no siempre es lo mismo que los datos, y los datos no siempre son informativos , es decir, los datos biológicos son tanto estocásticos como ruidosos. En muchos sentidos, la biología molecular sigue siendo un campo de estudio muy crudo. Las células son muy pequeñas, no homogéneas y cambian constantemente. A diferencia de los sistemas digitales, cada señal de las matrices de ADN y tecnologías similares de alto rendimiento tienen puntos de datos analógicos, dependen mucho de las condiciones de cultivo y de la variación de lote a lote. La relación ruido / señal es muy alta, y aún se requiere mucha validación experimental para confirmar nuevos hallazgos.

2. Segundo, la biología molecular sigue siendo una caja muy negra . En muchos aspectos, todavía no entendemos lo suficiente sobre biología como para que la información que tenemos tenga un buen uso. Escuché la analogía de que la investigación biológica es como estudiar pequeñas computadoras pequeñas usando un martillo gigante, rompiendo las piezas y usando una sonda áspera (algo así como un imán en la analogía de la computadora) para recoger un subconjunto de las cosas de interesar. Los diagramas bien definidos en los libros de texto de biología hacen que parezca que todo ya está trazado, sin embargo, son representaciones mínimas de lo que realmente sucede en los sistemas reales. En realidad, estas redes serían órdenes de magnitud más densas y complicadas, con cada proteína interactuando con casi cualquier otra proteína. Hay una tremenda cantidad de redundancia y superposición que apenas estamos comenzando a entender.

3. La comprensión biológica todavía no es muy accionable. Las finanzas estadísticas también son muy negras y estocásticas, pero las personas están dispuestas a participar en su análisis porque sus conclusiones son procesables. Puede ir a scottrade, escribir el ticker y validar en tiempo real sus ideas. La biología molecular es muy diferente y los estadísticos solo pueden ser un pequeño engranaje en una máquina de investigación gigante. Incluso si identifica un gen que es el factor crucial en una determinada enfermedad, se requiere mucho tiempo, energía y mano de obra para validar experimentalmente el objetivo, elaborar un producto terapéutico que se adapte al objetivo y realizar las pruebas de requisitos previos requeridas antes de la primera prueba en humanos para cualquier droga. No importa considerar el proceso paralizante y tedioso de los ensayos clínicos antes de poder tener un producto legítimo.

Andrei Kucharavy

More Interesting

Cómo detectar regiones de texto solo de documentos escaneados

¿Cómo se glorifican los métodos del kernel en la coincidencia de plantillas?

¿Cuál es una buena manera de clasificar los documentos de texto contra un modelo de tema arbitrario?

¿Puedo trabajar en Google Machine Learning con una licenciatura en Informática pero habiendo realizado dos pasantías y 3 proyectos de código abierto?

¿Qué es un giroscopio? ¿Como funciona?

¿Qué es un modelo generativo profundo?

¿Cómo se compara Core ML con TensorFlow?

Cómo entrenar un clasificador SVM a partir de ejemplos de texto

¿Cuáles son las diferentes técnicas para el procesamiento del lenguaje natural para resolver un ensayo de clasificación automática?

¿Cuáles son algunos buenos textos en MCMC?