¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.

La API de Streaming de Twitter te permitirá capturar una gran cantidad de datos en un período de tiempo relativamente corto. El estado / método de muestra para capturar la alimentación pública (limitada). También puede utilizar el método de estado / seguimiento que recupera tweets que mencionan una palabra clave o una lista de palabras clave.

Desde allí puede realizar casi un número ilimitado de análisis. A modo de inspiración, aquí hay una pequeña muestra de los muchos experimentos que he realizado:

  • Un análisis de decenas de miles de puntajes de canabalt publicados en Twitter, incluidas las comparaciones del método de muerte (muro, caída, aplastado) frente al tipo de dispositivo (ipod touch, iphone, ipad)
  • ¿En qué momentos la gente twittea con mayor frecuencia sobre Seinfeld?
  • Qué porcentaje de tweets contienen URL
  • Cómo deletrea la gente Goal durante el mundial (es decir, goooooooal vs goooooalllllll vs gooooooaaaaallll). Por ejemplo, ¡encontré 1158 menciones de GOOOOOOOOL y 2981 menciones de ggol! También encontré muchos casos en los que las personas usaban sus 140 para celebrar goles, la mayoría de las veces seguidos por 138 Os, y luego una L. A veces 137 O y un AL.
  • Un análisis de la cesta de la compra de los hashtags utilizados junto con otros hashtags
  • Usando la clasificación y la PNL para saber si los tweets que mencionan #homebrew están hablando de software de elaboración de cerveza o homebrew
  • Aprender acerca de la teoría de gráficos y la detección comunitaria utilizando listas de amigos / seguidores.

Otras personas, mucho más inteligentes que yo, han escrito sus propios programas para detectar las tendencias actuales.

Con los datos de Twitter, las posibilidades son realmente infinitas. Todo lo que necesitas para comenzar es algo de curiosidad. El resto caera en su lugar. Aunque estos parecen ‘proyectos de juguetes’, me han permitido aprender mucho en el proceso. También he podido aprovechar lo que aprendí en mi propio

(Esta es una lista en vivo. Ediciones y adiciones son bienvenidas)

1) Aquí hay un buen problema con los juguetes: organice a los usuarios de Twitter en grupos según la similitud de sus tweets. Para comenzar, puede usar métricas simples, como el número de palabras en el tweet, la longitud promedio de las palabras, la desviación estándar de la longitud de las palabras, etc. Use un algoritmo de clasificación / agrupación simple de su elección (por ejemplo, vea el capítulo sobre clasificación de texto Naive Bayes aquí) : http://nlp.stanford.edu/IR-book/ …)
Puede usar Twitter Streaming API como lo sugiere Neil Kodner para extraer las actualizaciones de estado de los usuarios y los métodos de clasificación de correo electrónico de Enron sugeridos por Josh Wills. Ejecute esto en al menos 1GB de tweets (puede extraerlo en menos de un día a menos que esté usando una conexión de acceso telefónico), vea si su algoritmo se escala bien. Extraiga más funciones con los métodos estándar de PNL (consulte ¿Cómo se determina la similitud entre las personas en línea?) E intente mejorar el rendimiento de su clasificador. Sería interesante ver cómo se comparan sus agrupaciones con las sugerencias de ‘Usuarios similares’ de Twitter o TunkRank.
Actualización de la conferencia Data 2.0: ahora puede tener acceso completo a Firehose (10,000 filtros de palabras clave por 30 centavos / hora): http://www.readwriteweb.com/arch…

2) Encuentre usuarios similares en Delicious (producto) según lo sugerido por el usuario de Quora: http://www.aiplayground.org/arti

3) Explorar ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público? y ¿Qué API de datos o fuentes deberían estar en mi guía O’Reilly? , http://www.reddit.com/r/datasets/

4) Extracción de preguntas frecuentes de las listas de correo, consulte http://mail-archives.apache.org/

5) Encuentre usuarios similares de Quora por intereses y segmentos: consulte ¿Qué estadísticas interesantes podrían calcularse a partir de las estadísticas de los usuarios de Quora?

6) Ejecute algunas estadísticas en Facebook o Google Profiles. Vea los ejercicios de Pete Warden y Paul Butler: http://petewarden.typepad.com/se …, http://petewarden.typepad.com/se …, http://paulbutler.org/archives/v

7) Cupones: http://paulbutler.org/archives/g

8) http://www.heritagehealthprize.com/

9) ¿Cuáles son algunos buenos proyectos de aprendizaje para aprender sobre el aprendizaje automático?

10) Kinect: ¿Hay algún truco genial para Kinect?

11) Un mejor corrector ortográfico: http://norvig.com/spell-correct… .

12A) Lineal A: consulte la respuesta del usuario de Quora: ¿Cuáles son algunos métodos computacionales utilizados en el desciframiento lineal A?

12B) Lineal B: Colaboración: Análisis de datos de juguete para Lineal B

13) Un misterio de asesinato: http://www.networkworld.com/comm

14) La respuesta de Michael E Driscoll a ¿Cuáles son algunos buenos programas de verano para estudiantes de doctorado interesados ​​en la ciencia de datos?

15) Seguimiento de objetos: http://info.ee.surrey.ac.uk/Pers

16) http://datavizchallenge.org/

17) Enumere los directores que han dirigido al menos 20 películas y han actuado en todas ellas, utilizando los datos de Internet Movie Database: http://www.imdb.com/interfaces&nbsp ; , http://imdbpy.sourceforge.net/

18) Mashups: http://www.housingmaps.com/ , ¿Qué API de datos o fuentes deberían estar en mi guía O’Reilly?

19) http://www.hearstchallenge.com/

20) ¿Cuáles son algunos buenos proyectos de clase para el aprendizaje automático usando MapReduce? Debería: ser paralelizable a ~ 3 personas, ~ 2–3 horas a la semana, tener un resultado secundario verificable.

21) Recomendaciones de Videolectures.net: http://www.r-bloggers.com/videol

22) Identificación de materiales: http://tunedit.org/challenge/mat

23) http://www.executablepapers.com/ También ¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?

24) http://overstockreclabprize.com/

25) Concursos de minería de datos: http://www.kaggle.com/ y http://www.kdnuggets.com/dataset

26) IEEE Vast: http://hcil.cs.umd.edu/localphp/

27) La API de Mendeley: http://dev.mendeley.com/ , http://dev.mendeley.com/datachal

28 ) Progresión del VIH: http://www.kaggle.com/c/hivprogr

29) Aplicaciones Data.gov: ¿Cuáles son las mejores aplicaciones creadas sobre datos abiertos del gobierno?

30) API de búsqueda de HN: http://news.ycombinator.com/item

31) Optimización de estrategias de negociación de divisas: http://gociop.de/gecco-2011-indu

32) Copa Yahoo KDD: http://kddcup.yahoo.com

33) Análisis de datos financieros con Perl: http://perlmonks.org/index.pl?no

34) Desafío Wide Finder: http://www.tbray.org/ongoing/Whe

35) Búsqueda en Internet: http://himmele.blogspot.com/2011

36) Life Tech: http://www.lifetechnologies.com/

37) Patentes descargables para jugar: http://www.google.com/googlebook

38) Ejercicios de aprendizaje automático de juguetes: http://stackoverflow.com/questio

39) Asignaciones en el curso CS 194-16 en Berkeley: http://datascienc.es/schedule/

40) Concurso de minería de datos de $ 50k de Topcoder, USPTO y NASA: http://community.topcoder.com/nt

41) Concursos de Mathworks: http://www.mathworks.com/academi

42) Una aplicación web de minería de datos: https://github.com/entaroadun/hn

43) KDD CUP: http://www.kdd.org/kddcup/

44) ¿Cuáles son los mejores algoritmos para clasificar el idioma de un fragmento de texto? ¿Por qué?

45) Tokenizar el texto visible en inglés del rastreo común:
http://matpalm.com/blog/2011/12/…

46) Construye un clon MixRank: mixrank.com

47) Desafío de gesto de Kaggle: http://www.kaggle.com/c/GestureC

48) Yandex (empresa) Desafío de predicción de relevancia: http://imat-relpred.yandex.ru/en (a través de KDnuggets: http://www.kdnuggets.com/2011/11 … a través de Jeff Dalton http: // twitter. com / #! / JeffD )

49) Predicción de aciertos: http://www.wired.com/underwire/2

50) Encuentra usuarios de Facebook en Match.com usando las herramientas de reconocimiento facial:
http://artemyankov.com/post/1830

51) Recomendador de Reddit: http://www.reddit.com/r/redditde

Mi colega hizo la lista de proyectos de ciencia de datos simples pero ilustrativos que pueden tomar menos de una semana de tiempo de trabajo: https://blog.statsbot.co/data-sc

Dejaré la descripción de uno de estos proyectos solo para tener la idea de si vale la pena seguir el enlace.

Spam o jamón
El spam vive donde sea posible dejar mensajes. Uno de los problemas clásicos de la ciencia de datos es la detección de spam. Puede entrenar un modelo para detectar correos electrónicos no deseados, mensajes de spam y comentarios de usuarios de spam para ocultarlos en el navegador.

Un motor de aprendizaje automático define el spam en función de la probabilidad de encontrar palabras como “venta” y “compra” en los mensajes de spam. Como resultado, puede obtener un prototipo funcional de AdBlock en aproximadamente una semana.

Problema de ML: clasificación de texto
Algoritmos: ingenuos bayes, clasificadores lineales, clasificadores de árboles, clasificadores de lo que quieras
Tecnologías: sklearn, nltk, scrapy
Datos: conjunto de datos de spam de SMS, conjunto de datos de spam de correo electrónico, conjunto de datos de spam de comentarios de YouTube
Implementación: extensión del navegador
Referencias: AdBlock, Adguard
Guías: Cómo construir un clasificador simple de aprendizaje automático de detección de spam, Primeros pasos: construcción de una extensión de Chrome

Otros problemas de ML son:

  • No hotdog
  • Recomendaciones de películas de Netflix
  • Lentes originales de Snapchat
  • Transmisión de Twitter
  • Apuestas de tenis
  • Predicción del precio de las acciones

Si desea saltar directamente a algunos problemas y ver cómo se utilizan ciertas técnicas, le recomendaría:

1) Programación de Inteligencia Colectiva http://www.amazon.com/Programmin
Libro sólido si quieres ver cuáles son algunas de las aplicaciones del aprendizaje automático en problemas del mundo real. Utiliza Python para demostrar estos ejemplos, un lenguaje de programación popular para científicos de datos, y le muestra cómo crear cosas como filtros de spam y sistemas de recomendación.

2) Aprendizaje automático para hackers: http://www.amazon.com/Machine-Le
Este libro te enseña cómo saltar usando R, otro lenguaje muy popular utilizado para el análisis estadístico y de datos. Ejecuta algunos paquetes R realmente útiles para la visualización de datos, el procesamiento y algunos paquetes de aprendizaje automático. También pasa por cosas como los sistemas de recomendación y el filtrado de spam, aunque creo que ofrece una variedad ligeramente mejor de herramientas y hace un trabajo minucioso al describir lo que hace cada línea de código.

Ambos libros apuntan a algunos buenos conjuntos de datos y dan instrucciones sobre cómo acceder a ellos. También contienen ejercicios.

Recomiendo el conjunto de datos de correo electrónico de Enron, disponible en CMU aquí: http://www.cs.cmu.edu/~enron/ .

Es una colección de correos electrónicos entre empleados de Enron, en su mayoría ejecutivos senior, y se ha utilizado para experimentar con algoritmos de agrupación de gráficos, clasificación de texto y análisis de redes sociales. No estoy seguro de que sea justo llamarlo un conjunto de datos de juguetes, pero es muy manejable en una sola computadora, ya que solo tiene aproximadamente medio millón de mensajes entre 150 personas. Una búsqueda en Google Scholar [1] puede ayudarlo a encontrar documentos relacionados con el conjunto de datos sobre cualquier tema de análisis de redes sociales o aprendizaje automático que pueda imaginar. Diría que comience con el informe descriptivo del conjunto de datos [2] y continúe desde allí. .

[1] http://scholar.google.com/schola
[2] (archivo PDF) http://www.isi.edu/~adibi/Enron/

Me parece que las personas aprenden nuevos métodos mejor cuando tienen una tarea / pregunta específica que les interesa explorar, y luego se ven obligadas a usar las herramientas adecuadas para resolverla. Como tal, creo que la idea de tener algún “problema de juguete” en el que centrarse es una buena idea, pero como otros han sugerido, también creo que ese problema tiene que venir de ti.

Dicho esto, hay muchos conjuntos de datos interesantes que entran en la categoría “socialmente relevante”, lo que podría inspirar algo de exploración de juguetes. Algunas ideas…

  • Banco Mundial: http://data.worldbank.org/ hay literalmente demasiados conjuntos de datos aquí para contarlos, pero dada la misión del Banco Mundial, la mayoría de ellos se centran en el crecimiento y el desarrollo. Un pequeño proyecto que hizo algunas series temporales básicas o una correlación de estos datos podría ser interesante. Comparar métricas posteriores al terremoto para los esfuerzos de ayuda en Haití vs. Pakistán podría ser un buen lugar para comenzar.
  • Censo de los Estados Unidos: http://www.census.gov/main/www/a … también Infochimps tiene un gran conjunto de API centradas en los datos del censo ( http://api.infochimps.com/ ), y si usted es un R pirata informático, podría usar mi contenedor para acceder a él ( http://cran.r-project.org/web/pa …). Los datos del censo son excelentes para hacer análisis espaciales, por ejemplo, comparar el nivel promedio de educación con el ingreso familiar promedio para todos los códigos postales de EE. UU. Y pegarlo en un mapa.
  • ICPSR – http://www.icpsr.umich.edu/icpsr … el Consorcio Interuniversitario de Investigación Política y Social es un tesoro de datos socialmente relevantes, e incluye las olas actuales y pasadas del Estudio Nacional de Elecciones de Estados Unidos. Este sería un buen lugar para considerar hacer una mezcla, tal vez patrones de votación en una determinada ruta del censo que controle los ingresos y la educación.
  • Yelp: http://www.yelp.com/developers/d … a la gente le encanta comer y entretenerse, y la API de Yelp tiene un conjunto de herramientas decentes para extraer estas preferencias. Recientemente, he intentado jugar con esta API como parte de un proyecto que involucra datos de violación del código de salud de Nueva York ( http://www.nyc.gov/html/datamine …) y descubrí que es un poco rebelde para trabajar con. Pero, si tenía un proyecto más pequeño en mente, ciertamente se ajusta a su descripción.
  • Datos locales – hablando de NYC Data Mine, algunas de las aplicaciones de datos de juguetes más útiles que he visto involucran datos abiertos locales. Verifique si su ciudad, o una cercana, mantiene un depósito de datos abierto y comience a hackear. Sugerencia: a la gente le encanta saber dónde están los autobuses y los taxis.

¡Buena suerte!

Impulsado por la respuesta del usuario de Quora, reuní: Quollaboration: Análisis de datos de juguetes para Lineal B como un ejercicio de análisis de datos y lingüística computacional.

Algunos datos adicionales de Lineal B disponibles para el acaparamiento y el análisis:
http://minoan.deaditerranean.com

La serie KN Am tiene dos excelentes ejemplos de cómo se pueden representar datos idénticos de manera muy diferente de una fuente a otra. OpenRefine se puede usar para ayudar a colapsar datos idénticos que se expresan de manera diferente, como se muestra en esta serie (Chadwick & Ventris vs. Killen & Olivier). Vea también mi respuesta a ¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine? para obtener orientación sobre lo que puede hacer.

La serie KN Ap también es muy divertida, ya que tiene muchos elementos de lenguaje repetitivos que permitirían a un científico de datos hacer algunas afirmaciones sobre los porcentajes de los diferentes elementos de lenguaje que se usan en esta serie. El MUL, por ejemplo, es un ideograma que significa “mujer”. KO-WO y KO-WA son grupos de signos (palabras) que significan, respectivamente, “niño” y “niña”. Los símbolos dentro de los grupos de signos también se pueden analizar para determinar el peso con el que aparecen en una determinada posición de una palabra. Por ejemplo, incluso una mirada no programática a estos datos revelará que JA tiende a aparecer al final de los grupos de signos.

Y, las transliteraciones de Hagia Triada del Lineal A:
http://people.ku.edu/~jyounger/L

Siempre tengo algunos problemas interesantes para trabajar en mi blog:

Aprendizaje automático

Actualmente estoy probando algunos algos de aprendizaje transductivo de la vieja escuela

Aprendizaje automático con etiquetas faltantes: SVM transductoras

y me gustaría probar los algos en algunos conjuntos de datos bien conocidos, como

Datos LIBSVM: Clasificación (clase binaria)

Realmente esto porque los algos TSVM son algos reales de aprendizaje … no son solo regresiones logísticas

Hay varias cosas que hacer, incluida la codificación, la ejecución de experimentos y el desarrollo de nuevas matemáticas

lo más importante, es necesario monitorear y ajustar los parámetros cuidadosamente, como se argumenta aquí

Página en umn.edu

ping me si está interesado

Si en un gráfico bipartito coherente los vértices se han ordenado de modo que los primeros m vértices indexen los objetos de X, el siguiente n indexará los objetos de Y y la última t indexará los objetos de Z y X, Y, Z son heterogéneos
1] Para mostrar que el algoritmo de coparticionamiento de gráfico bipartito coherente propuesto podría evitar la situación de partición incorrecta en la Figura a continuación en muchas extensiones.

2] Para mostrar que nuestro método podría obtener un intercambio de particiones en el tipo central de objetos bajo el concepto de consistencia

3] Puedes probar kaggle.com
Kaggle es una plataforma para competencias de predicción de datos.
Las empresas, organizaciones e investigadores publican sus datos y los tienen
analizado por los mejores científicos de datos del mundo

Esto es relativo a lo que preguntas en tu pregunta.

Esto debería darte esperanza.

Actualmente estoy tratando de encontrar una manera de construir una máquina de borrado de memoria humana, que use una máquina de cuchillas gamma modificada, para ionizar grupos de neuronas de tamaño cúbico de micras en el cerebro.

¿Podría esta técnica ser más segura de usar que la terapia electroconvulsiva, al borrar recuerdos específicos de personas con TEPT?

El siguiente paso en el trabajo de Andre Fenton es borrar los recuerdos espaciales específicamente en el cerebro de un ratón usando una máquina de gamma cuchillo modificado

Los pasos para hacer esta técnica están a continuación.
La máquina de resonancia magnética INUMAC que aún no se ha construido (para obtener imágenes de la enfermedad neurológica con MR de alto campo y contrastophores) puede obtener imágenes de un área de aproximadamente 0.1 mm o 1000 neuronas, y ver los cambios que ocurren tan rápido como una décima de segundo.
Permitiría imágenes funcionales mucho más precisas del cerebro en el trabajo, de lo que está disponible actualmente. Realmente no se puede discriminar lo que está sucediendo en el cerebro al nivel de unos pocos cientos de neuronas.
Combine el INUMAC con los últimos escáneres de TC. Con los últimos escáneres de TC, la imagen final es mucho más detallada que una imagen de rayos X. Dentro del escáner de TC hay un detector de rayos X que puede ver cientos de niveles diferentes de densidad. el INUMAC y los últimos escáneres CT con magnetoencefalografía (MEG) y electroencefalograma (EEG) para ver las señales eléctricas, que suceden en la magnetoencefalografía real, el magnetómetro SERF (sin intercambio de espín de relajación) en investigación para futuras máquinas. Esto ayudará a aumentar el futuro precisión de la señal eléctrica en el cerebro.
Ahora tiene señales BOLD y electro y químicas para deducir qué neuronas contienen qué memoria espacial específica.
Modifique una máquina Gamma Knife, actualmente las lentes de bola deben ser trabajadas para ionizar grupos de neuronas del tamaño de micras, en áreas cúbicas en el cerebro.
Recuerde que una onda gamma puede atravesar algo tan pequeño como una cirugía con cuchillo gamma, ionizan tumores en el cerebro del tamaño de un guisante, por lo que ionizar un área cúbica en el cerebro de alrededor de 20 micras sería mucho más seguro que la cirugía con cuchillo gamma. para este cuchillo gamma modificado se encuentra en la descarga a continuación en la parte inferior de esta página. La forma en que funciona la máquina de cuchillas gamma modificadas es que solo usa de dos a veinticinco haces. Pero dos haces harán que la reunión más pequeña se encuentre en el centro, donde la intensidad de los haces de ondas gamma es la más fuerte para ionizar las células. El colimador ajusta el ancho de los dos haces de rayos gamma para ionizar grupos de neuronas en un área de tamaño cúbico en el cerebro. Dos haces de rayos gamma son los mejores para hacer un área de encuentro más pequeña en el centro, pero más de dos haces pueden se usa si ayuda mejor con la ionización de un área cúbica de un grupo de neuronas.

El tiempo que los grupos de neuronas necesitan ser ionizados también es un factor de ionización.
Un neurocientífico puede decir “necesita encontrar un grupo de neuronas asociadas con una memoria específica, y luego necesitaría ionizar cada grupo de neuronas asociadas con esa memoria para borrar esa memoria específica”.

No necesita encontrar CADA grupo de neuronas en el cerebro que contiene una memoria específica.

Ionizar ALGUNOS de los grupos de neuronas es suficiente para interrumpir una memoria específica.

Y así es como lo haces.
Usted busca los grupos de neuronas que contienen la mala memoria en la tecnología INUMAC MRI y FMRI, CT EEG y MEG.

Encuentras los malos recuerdos, pidiéndole a la persona que recuerde los malos recuerdos.

Cuando haya identificado qué grupos de neuronas podrían contener los malos recuerdos.
Le pides a la persona que recuerde la mala memoria, a medida que ionizas las neuronas asociadas con la mala memoria, le pides a la persona que recuerde la mala memoria, cuanto más ionizas, más borrosa se vuelve la mala memoria para la persona, como tú pídale que lo recuerde.

Entonces, gradualmente, la mala memoria debe borrarse, pero el punto es que no fue necesario encontrarla e ionizar CADA grupo de neuronas en el cerebro para borrar la mala memoria.

Lo que sería como encontrar una aguja en un bosque.

Entonces, lo que ha hecho aquí es que ha impedido que las neuronas se comuniquen entre sí para hacer un mal funcionamiento completo de la memoria de la persona.

Al ionizar ALGUNAS de las neuronas, ha interrumpido el proceso de comunicación de las neuronas entre sí que forma la mala memoria para la persona.

¿Es mejor que la persona se vaya confundida y que las cosas en su mente no tengan un poco de sentido, o que la persona esté severamente deprimida con TEPT?

De todas las neuronas que contienen la mala memoria, solo ionizando menos del 10% de los grupos de neuronas, podría ser suficiente para interrumpir el proceso de comunicación entre estas neuronas para borrar con éxito una memoria.

Esto es mucho más seguro que la terapia electroconvulsiva, puede causar confusión y pérdida de memoria, ya sea de buenos recuerdos o recuerdos importantes que debe saber. y esta técnica con INUMAC y FMRI, y una cuchilla gamma modificada es más específica, para borrar los malos recuerdos y dejar los buenos recuerdos y recuerdos de cosas que necesita saber.
ZIP (péptido inhibidor de Zeta), y la optogenética nunca funcionará en un ser humano.
En la cirugía con Gamma Knife, ionizan un área del cerebro del tamaño de un guisante, quiero ionizar un área cúbica de unas pocas micras de tamaño, por lo que esto sería mucho menos peligroso que la cirugía con gamma Knife.
Además, es posible que no sea necesario utilizar ondas gamma, se podrían usar rayos X para ionizar los grupos de neuronas, lo que sería más seguro.

La seguridad es la prioridad más importante en esta idea.

Esta idea de borrar recuerdos específicos, es una opción que es una técnica más segura y más específica mejor que la terapia electroconvulsiva.

Los científicos de Stanford han demostrado una técnica para observar cientos de neuronas que disparan en el cerebro de un ratón vivo, en tiempo real, y han vinculado esa actividad al almacenamiento de información a largo plazo. El trabajo sin precedentes podría proporcionar una herramienta útil para estudiar nuevas terapias para enfermedades neurodegenerativas como el Alzheimer.

Los investigadores primero utilizaron un enfoque de terapia génica para hacer que las neuronas del ratón expresen una proteína verde fluorescente que fue diseñada para ser sensible a la presencia de iones de calcio. Cuando se activa una neurona, la célula se inunda naturalmente con iones de calcio. El calcio estimula la proteína, haciendo que toda la célula tenga una fluorescencia verde brillante.

Un pequeño microscopio implantado justo encima del hipocampo del ratón, una parte del cerebro que es crítica para la memoria espacial y episódica, captura la luz de aproximadamente 700 neuronas.

El microscopio está conectado a un chip de cámara, que envía una versión digital de la imagen a la pantalla de una computadora.

Luego, la computadora muestra un video casi en tiempo real de la actividad cerebral del mouse cuando un mouse corre alrededor de un pequeño recinto, que los investigadores llaman una arena.

Los disparos neuronales se ven como pequeños fuegos artificiales verdes, explotando al azar sobre un fondo negro, pero los científicos han descifrado patrones claros en el caos.

“Literalmente podemos averiguar dónde está el ratón en la arena mirando estas luces”, dijo Mark Schnizer, profesor asociado de biología y física aplicada.

Cuando un mouse se rasca en la pared en un área determinada de la arena, una neurona específica se disparará y parpadeará en verde. Cuando el ratón se dispersa a un área diferente, la luz de la primera neurona se desvanece y se genera una nueva célula.

“El hipocampo es muy sensible a la ubicación del animal en su entorno, y las diferentes células responden a diferentes partes de la arena”, dijo Schnitzer. “Imagínese caminando por su oficina. Algunas de las neuronas en su hipocampo se iluminan cuando está cerca de su escritorio, y otras se disparan cuando está cerca de su silla. Así es como su cerebro hace un mapa representativo de un espacio”.

El grupo descubrió que las neuronas de un ratón se disparan con los mismos patrones incluso cuando ha pasado un mes entre experimentos. “La capacidad de regresar y observar las mismas células es muy importante para estudiar las enfermedades cerebrales progresivas”, dijo Schnitzer.

Por ejemplo, si una neurona particular en un ratón de prueba deja de funcionar, como resultado de una muerte neuronal normal o una enfermedad neurodegenerativa, los investigadores podrían aplicar un agente terapéutico experimental y luego exponer al ratón a los mismos estímulos para ver si la función de la neurona regresa.

Aunque la tecnología no se puede utilizar en humanos, los modelos de ratón son un punto de partida común para nuevas terapias para enfermedades neurodegenerativas humanas, y Schnitzer cree que el sistema podría ser una herramienta muy útil para evaluar la investigación preclínica.

Si combinaras mi idea modificada de la máquina de cuchillas gamma, para ionizar las neuronas en el cerebro de los ratones, en este experimento podrías probar mi teoría del 10% que no necesitas encontrar e ionizar CADA neurona asociada con una memoria espacial.

Solo necesita ionizar el 10% de las neuronas asociadas con una memoria espacial específica, para borrar la memoria.

Probar esta teoría que no es necesario encontrar e ionizar todas las neuronas del cerebro para borrar una mala memoria es el siguiente paso en el experimento realizado por Andre Fenton.

Andre Fenton borró recuerdos espaciales en ratones usando ZIP (péptido inhibidor de Zeta) pero no puede borrar recuerdos específicamente, sería un experimento más avanzado basado en su experimento con el ratón en la tarea de evitar la colocación.

Parece que los recuerdos se crean como cambios de algunas moléculas hechas en sinapsis seleccionadas dispersas en muchas regiones del cerebro, y no en neuronas completas, ni en conjuntos de neuronas ubicadas una al lado de la otra.

Es posible que pueda deducir ionizando neuronas a escalas de micras cómo se consolidan los recuerdos en esta técnica.

Además, si pueden ayudar, solicito una subvención para que este cuchillo gamma modificado se construya en una universidad, así como una pasantía para comenzar a construir este cuchillo gamma prototipo y comenzar a hacer este experimento.

Vale la pena echarle un vistazo a Kaggle para conocer conjuntos de datos interesantes e incluso competiciones.

Probablemente podría hacer Bike Sharing Demand o Titanic: Machine Learning from Disaster en un fin de semana.

O, algunos conjuntos de datos interesantes que podría usar para sus propios proyectos:

  • Uso de la biblioteca de San Francisco
  • Preguntas de Python del desbordamiento de pila
  • Tendencias de video de YouTube

Si alguna vez quieres pasar más tiempo que solo un fin de semana, incluso puedes competir por premios en metálico.

¡Que te diviertas!

Consulte los conjuntos de datos del repositorio de aprendizaje automático UCI: http://archive.ics.uci.edu/ml/ . Hay muchos problemas para la clasificación, la regresión y la agrupación, la mayoría de ellos se usarían en una computadora promedio.

Your Home for Data Science tiene la más amplia variedad de conjuntos de datos para que los entusiastas de la ciencia de datos en ciernes practiquen y compitan en línea.

Se pueden practicar conjuntos de datos muy famosos, como los datos del Titanic, el conjunto de datos de Iris, las predicciones del mercado de valores, los precios de la vivienda en los EE. UU., Etc.

Si desea aprender y codificar de manera más simple, puede seguir los canales de youtube de siraj rawal, sentdex. El canal de Siraj rawal enfatiza más en escribir fragmentos de código, como generar un clasificador de imágenes en Tensorflow, predicción de precios del mercado de valores, cómo generar arte en Tensorflow, análisis de sentimientos utilizando aprendizaje profundo, generar música con tensorflow, etc.

Si está tan inclinado, el béisbol ofrece un tesoro de cuestiones estadísticas del simple “¿Qué estadísticas de bateo se correlacionan mejor con las carreras totales anotadas por un equipo?” al más complicado “¿Puedes encontrar una tendencia general en la carrera de los jugadores y usarla para extrapolar cómo será la carrera de un jugador actualmente activo?”. Eche un vistazo a baseball-reference.com y descargue algunas tablas de datos.

Hay una infinidad de proyectos interesantes que podrías hacer con estos datos:

http://www.data.gov/

También vale la pena echarle un vistazo a estos conjuntos de datos:

http://www.nyc.gov/html/datamine

Actualización: El gobierno ha recortado recientemente los fondos a data.gov, por lo que este recurso no estará disponible por mucho más tiempo …

  1. Agrupe a los usuarios de redes sociales, archivos de correo electrónico y otras fuentes en grupos e identifique automáticamente los intereses de los grupos en grupos. Usar API de las API REST de Twitter | Desarrolladores de Twitter o cualquier conjunto de datos disponible
  2. Prueba los concursos de Kaggle en The Home of Data Science

¿Qué tal jugar con los datos de Google Books Ngram?

http://storage.googleapis.com/bo

En lugar de las cosas de la red social de vainilla, intente construir un gráfico de algunas relaciones interesantes en datos médicos o alguna otra visualización. Hay muchos datos médicos anónimos de todo tipo, desde registros de historia clínica hasta radiología, escaneos cardiovasculares y neurológicos, e imágenes de procedimientos.

Hay una página de Wikipedia para este tema.

Enumera conjuntos de datos del mundo real analizados en ejemplos de libros de texto de estadísticas. Un buen enfoque podría ser tratar de reproducir el análisis en los libros para ganar competencia utilizando métodos estadísticos.

¡Las competiciones Kaggle “Getting Started” fueron creadas específicamente para ti! Y una vez que haya terminado con eso, tenemos muchas competiciones anteriores con datos bastante simples que puede atacar.

http://kaggle.com/competitions

More Interesting

¿Qué es mejor para un doctorado de aprendizaje automático, UMass Amherst o la Universidad de Edimburgo?

Pregunta sobre derechos de autor: Estoy interesado en hacer un análisis de los datos que se informan en The Almanac of American Politics. Si copio los datos en una hoja de cálculo y uso esos datos en mis cálculos, pero no publico los datos, ¿eso es una violación de los derechos de autor?

¿Cuáles son algunas formas no obvias en que la ciencia de datos puede ayudar a la igualdad de género?

¿Cuál es el mejor instituto para aprender el programa del aula del curso de análisis de big data en Bangalore?

Cómo aprender big data

¿Cómo se usan los conceptos de probabilidad y estadística en la ciencia de datos?

¿Dónde puedo buscar datos sobre la participación deportiva de la gente común en los Estados Unidos?

Como científico de datos, ¿es mejor especializarse en la recopilación o el análisis de datos?

¿Dónde puedo encontrar conjuntos de datos de rango?

¿Es GDS (Global Distribution Systems, donde se almacenan los datos de la aerolínea) una base de datos o un tipo de big data?

Cómo comenzar mi carrera en el campo del análisis de big data

¿Cuáles son los mitos del big data que afectan a las PYME?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área

¿Qué ha contribuido en gran medida al lanzamiento de la era de Big Data?

¿Cómo recopilar datos de agricultura en tiempo real para un área específica en India? Quiero hacer un informe del proyecto para mi estudio de ciencia de datos. ¿Cuáles son las fuentes de información que puedo usar?