¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?

Algunos ejemplos de creación de colaboración en herramientas para la gestión de datos, de la literatura de investigación:

“Voyagers and Voyeurs: Supporting Asynchronous Collaborative Information Visualization”, por Jeffrey Heer, Fernanda Viégas y Martin Wattenberg [1]
“Un caso para un sistema colaborativo de gestión de consultas”, por Nodira Khoussainova, Magdalena Balazinska, Wolfgang Gatterbauer, YongChul Kwon y Dan Suciu [2]

Además, creo que la selección automatizada de modelos es importante para evitar la duplicación de esfuerzos. El estado de la selección del modelo en el aprendizaje automático actual no es diferente al estado de la selección de la ruta de acceso en las bases de datos antes del documento de 1979 de IBM System R [3]. Algunos sistemas automatizados de selección de modelos están disponibles para espacios de búsqueda limitados (por ejemplo, glmulti [4]), pero queda mucho trabajo por hacer en esta área.

[1] http://vis.stanford.edu/papers/s…
[2] http://arxiv.org/pdf/0909.1778
[3] http://citeseer.ist.psu.edu/view…
[4] http://www.jstatsoft.org/v34/i12…

¿Has oído hablar de alguien que usa datos de transacciones para ayudar a detectar patrones de fraude?

¿Cuál es la mejor capacitación en aula para la ciencia de datos en Bangalore?

¿Cuál es el criterio de elegibilidad para aprender análisis de big data?

¿Cómo las empresas que realizan aprendizaje automático obtienen datos etiquetados de manera confiable?

¿Cuál es actualmente la mejor explicación de cómo y por qué colapsa la función de onda cuántica?

¿Qué implica la creación de una aplicación para consumir, procesar y filtrar la manguera de Twitter de tweets en tiempo real?

He pensado bastante en esto, de hecho, varios de mis trabajos han tratado de abordar esto de alguna manera, a veces agregando a la infraestructura que usted describe. [1] Algunos otros ejemplos: La comunidad de gestión de datos de ciencias de la tierra ha pasado las últimas décadas tratando de describir, y en ocasiones construir, la infraestructura óptima de gestión de datos. En estos días, el programa EarthCube de la Fundación Nacional de Ciencias persigue un objetivo similar, utilizando una estrategia de compromiso social fuerte (poner a todas las personas de ciencia y datos en una habitación, por así decirlo).

Entonces, mi primer pensamiento fue: si todas las personas de datos pudieran reunirse en una habitación, construirían la mayoría de las herramientas fragmentarias de las que se está quejando. (Al principio, de todos modos.) Pero como esa pregunta tiene su propia página (si todas las “personas de datos” pudieran reunirse en una habitación, ¿qué tipo de herramienta construirían?), Consideremos toda su publicación.

Has introducido tres cosas que en realidad no se superponen mucho:

Buenas herramientas y marcos de procesamiento de datos.
Capacidades óptimas de herramientas para permitir la colaboración científica.
Técnicas para reducir las ineficiencias en I + D

(1) La razón por la que hay tantas herramientas y marcos de procesamiento de datos es porque el objetivo es infinitamente complejo. Hay muchos dominios científicos y de gestión de datos diferentes (su lista para empezar, luego agregue ‘ informática’); existen muchos entornos tecnológicos diferentes (variantes de nube, tipos de red, SO de escritorio, entornos de desarrollo) y tecnologías centrales (idiomas, estándares, protocolos); y hay muchos objetivos diferentes (investigar, ganar dinero, hacerse famoso, resolver los problemas del mundo, reducir la duplicación de esfuerzos de I + D). Entonces, por supuesto, hay innumerables soluciones, es una competencia dentro y en todas esas categorías.

(2) Otras respuestas aquí abordan la colaboración científica bastante bien. El entorno de colaboración ideal puede no existir, pero es interesante aplicar GitHub, Google Docs, Wikipedia, iPython, Etherpad y otras tecnologías a este desafío, aprender a lo largo del camino y buscar herramientas aún mejores. El progreso avanzará en este campo: ¡la colaboración es mucho más fácil ahora que hace 5 años!

(3) Dado que parte de adquirir credibilidad en la investigación científica / de ingeniería es crear algo nuevo que obtenga tracción, es una apuesta segura que las ruedas continuarán siendo reinventadas. Y dada la competencia en nuevas ideas, inevitablemente habrá bastante ineficiencia. En el ciclo habitual de invención y consolidación, afirmo que hay dos cosas que ayudan a minimizar la ineficiencia ‘derrochadora’.

Si surge una solución que toma una posición de liderazgo fuerte (piense en iPod / iTunes en la industria de los reproductores de música, que ahora es la industria de los teléfonos celulares / mini computadoras), eso normaliza mucho el campo de juego para consolidarse alrededor de la solución líder. Puede que no sea la mejor solución, pero las personas / empresas necesitan una fuerte voluntad para desafiarla.
Al carecer de soluciones dominantes, los servicios ampliamente utilizados que consolidan de manera efectiva las soluciones, las comparan y brindan orientación deberían mejorar la eficiencia de la selección. Si un espacio problemático tiene una solución efectiva, o incluso solo muchas soluciones, es poco probable que un investigador proponga otro a menos que piense que es mucho más efectivo de lo que hay.

Mi frustración fue la misma que la tuya, y aún lo es hasta cierto punto. Aún así, dado que el pensamiento no inventado aquí es tanto la naturaleza humana como contribuye a la mejora de las soluciones, no espero cambios radicales en el corto plazo.

John

[1] Ayudé a un gran equipo a crear un sitio web para consolidar las mejores prácticas de gestión de datos de ciencias marinas (proyecto de interoperabilidad de metadatos marinos), y escribí el concepto inicial de operaciones científicas para una ciberinfraestructura de observatorio oceánico NSF (Cyberinfrastructure | OOI). Entre otras cosas.

Alex K. Chen

Algún tipo de Github sin fricción para los científicos (ver http://news.ycombinator.com/item …)

En palabras del usuario …

Github para científicos: un sistema distribuido de alojamiento y control de versiones para todas las partes de la comunicación científica, incluida la escritura, el código, los datos y el audio / video / imágenes. ¡Para que puedas construir sobre el trabajo de otra persona versionándolo! ¿No es de eso de lo que se trata la ciencia?

Sin embargo, todavía no hay herramientas libres de fricción disponibles. Los wikis colaborativos funcionan bastante bien, pero aún tienen mucha fricción ( especialmente con tablas ). El problema es que todavía hay MUY pocas herramientas (si las hay) que permitan la fusión sin fricción de tablas y otros tipos de texto. Y eso es precisamente lo que más necesitamos: algo que tal vez combine las mejores partes de Wikis, Google Docs (con sus conjuntos de cambios), GitHub y Quora (en ciencia, asuntos de crédito, y solo Quora hace un buen trabajo al asignar crédito). De hecho , un sistema como ese podría incluso proporcionar una alternativa viable a las citas (con toda la información que ocultan) algún día, ya que nos permitiría identificar fácilmente cómo alguien contribuyó a un proyecto (y también cuantificar sus contribuciones)

Quizás SAGE ( http://www.sagemath.org/ ) es un paso en la dirección correcta. En SAGE, en realidad tienen cuadernos de colaboración que proporcionan una base para una fusión sin fricción de tablas, ecuaciones y documentos.

Pero también, es cierto, son las culturas separadas de cada campo el problema. La mayoría de los campos científicos están bastante separados entre sí. Y mucho de esto se debe a que muchos científicos piensan que * sus * métodos son mejores y que no tienen mucho que aprender unos de otros. Las personas que “incursionan” en diferentes campos, en particular, a menudo son rechazadas. Ver http://blogs.discovermagazine.co … y http://blogs.discovermagazine.co …. Publiqué un hilo en los foros de física sobre el tema de “reinventar la rueda”, pero finalmente terminé siendo atacado por ello ( http://www.physicsforums.com/sho …)

También discutí este problema con varios investigadores en la Escuela de Verano de Astrobiología Computacional ( http://www.ifa.hawaii.edu/UHNAI/ …), muchos de ellos también quieren reducir la duplicación del esfuerzo de RD. Pero el problema es, nuevamente, que la gente a menudo piensa que si no desarrolla las cosas desde lo más básico, entonces se está perdiendo algo (pedagógicamente hablando). Piensan que eres una persona intelectualmente descuidada que siempre intenta tomar atajos. Pero este tipo de creencias son los mismos tipos de creencias que nos obligan a tomar más y más tiempo para terminar la escuela (y como resultado, no estamos haciendo un trabajo creativo durante los años en que estamos en la cima). En algún momento, tenemos que hacer lo que funciona mejor: la pureza intelectual sea condenada. Después de todo, nos paramos sobre los hombros de gigantes. No necesitamos saber cómo funciona la tabla de lavar antes de usar la lavadora.

Y además, no hay ninguna prueba de que “aprender de los fundamentos” sea mejor que aprender cosas al revés. Personalmente, creo que obtengo una comprensión mucho más sofisticada de las cosas cuando aprendo cosas al revés (y también aprendo mucho más rápido)

Alguna información más útil en http://cameronneylon.net/blog/wh …

El primer paso es simple, hacer un registro, idealmente una dirección en la web para todo lo que creamos en el proceso de investigación. Para los datos y el software, solo los archivos mismos, en un disco duro es un buen comienzo. Empujarlos a algún tipo de almacenamiento web, ya sea un blog, github, un repositorio institucional o algún servicio de almacenamiento de datos dedicado, es aún mejor porque facilita el paso dos.

El segundo paso es crear fuentes que enumeren todos estos objetos, sus direcciones y la mayor cantidad posible de metadatos estándar, quién y cuándo sería un buen comienzo. Los abriría por elección, principalmente porque lidiar con la seguridad de los feeds es un problema, pero aún así funcionaría detrás de un firewall.

El tercer paso se vuelve un poco más difícil. Siempre que sea posible, configure sus sistemas para que las entradas siempre se puedan seleccionar desde una fuente configurable por el usuario. Siempre que sea posible, automatice el envío de resultados a los sistemas de almacenamiento elegidos para que los nuevos objetos se registren automáticamente y se creen nuevas fuentes.
Esto es extraordinariamente simple conceptualmente. Cree feeds, utilícelos como entradas para procesos. No es tan sencillo construir tal cosa en una herramienta o marco existente, pero tampoco tiene que ser demasiado difícil. Y tampoco necesita molestar al usuario. Los feeds deben crearse automáticamente y presentarse al usuario como menús desplegables.

El paso más allá de esto, crear un marco estándar para describir las relaciones entre todos estos objetos es mucho más difícil. No porque sea difícil, sino porque requiere un acuerdo sobre las normas sobre cómo describir esas relaciones. Esto es factible y estoy muy entusiasmado con el trabajo en Southampton en la Ontología Experimental OREChem, pero los problemas sociales son más difíciles. Otros prefieren el modelo de procedencia abierta o argumentan que los flujos de trabajo son la forma de administrar esta información. Es difícil llegar a un acuerdo sobre los estándares, particularmente si estamos tratando de maximizar su cobertura efectiva, pero si vamos a construir un registro computable de la ciencia, tendremos que abordar ese problema. Si podemos descifrarlo y obtener cobertura de los registros a través de un conjunto de modelos compatibles que nos dicen cómo están relacionadas las cosas, entonces creo que estaremos en condiciones de resolver el problema cultural de lograr que las personas los usen.

W. Gunn

More Interesting

¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?

¿Cuáles son las diferencias entre una maestría en MIS, aprendizaje automático y ciencia de datos?

¿Cuáles son los logros de Yahoo en el campo de Big Data?

¿Cómo se debe comenzar a aprender big data y hadoop?

¿Cuál es el mejor recurso en línea para aprender la programación de Python para la ciencia de datos?

¿Existe un papel significativo para el big data en la economía?

¿Cuál es la mejor manera de comenzar una carrera en análisis y big data?

¿Hay algún programa de CS o análisis en línea sobre programación, ciencia de datos y big data con una universidad prestigiosa? Mi presupuesto es de $ 20,000- $ 30,000.

Ciencia de datos: ¿Se puede utilizar el aprendizaje automático para el análisis de series temporales?

¿Cuál es la mejor manera de hacer un curso sobre big data en India?