¿Por qué alguien debería aplicar métodos de aprendizaje automático en su investigación?

La informática se basa en algoritmos, y un algoritmo es una secuencia finita de instrucciones inequívocas que, cuando se le dan todas las entradas necesarias, produce el resultado correcto y se detiene.

Eso es genial, pero ¿qué pasa si no puede pensar en un algoritmo para dar la respuesta correcta? Por ejemplo, si quiero calcular el factorial de un número, comienzo con el número y lo multiplico por uno menos que él mismo hasta llegar a 0, pero ¿cómo escribo un algoritmo para decirme: “esta es una imagen de ¿Joshua Gross parado frente a un cañón ”(mi foto de perfil actual)? No hay una forma directa de escribir ese algoritmo. Sabemos cómo los humanos calculan los factoriales (es como arriba), pero no sabemos cómo los humanos detectan individuos y cañones en las fotografías.

ML nos permite utilizar la potencia computacional masiva para hacer una gran cantidad de comparaciones. Si desenrolla un modelo de detección de imágenes, lo que está haciendo es comparar una imagen dada con cada imagen etiquetada (o conjunto de características de imagen) que ha visto e identificar cuáles son las más similares. Por supuesto, tales comparaciones de imagen a imagen no son directamente posibles, por lo que el modelo presenta una representación de cada imagen etiquetada que ha visto (junto con las etiquetas).

Si tiene una gran cantidad de datos inconsistentes y desea clasificar o cuantificar esos datos, entonces ML tiene sentido. ¿Qué es grande? No es simple, pero ML trata mejor con más datos (dentro de un límite), y ciertamente la norma está en megabytes si tratamos con datos textuales o numéricos (verdaderos), y puede escalar a terabytes, y si estamos hablando sobre los medios, en petabytes. En cuanto a lo inconsistente, si un humano puede revisar los datos y formar un algoritmo o un modelo estadístico altamente preciso, entonces no necesita ML.

Para mi maestría, utilicé ML (algoritmo genético) sin supervisión para permitir que un robot encontrara una solución a un laberinto. Fue interesante y divertido, pero no fue realmente una aplicación práctica (aunque algún día podría pensar en una aplicación). Para mi doctorado, escribí un clasificador para agrupar las direcciones de correo electrónico concurrentes para dar a las personas “filtros sociales” (es decir, grupos que podrían etiquetar como “familia”, “amigos”, “colegas”, “equipo de boliche”). Esta no era la tesis en sí, pero parecía útil. No sé si se usaría en la práctica, pero se usan cosas similares (por ejemplo, nombres sugeridos en gmail), y estos se basan en el mismo principio.

Quizás el ejemplo canónico actual es el de autos sin conductor. Necesitamos construir modelos que integren cantidades masivas de datos y actúen sobre ellos. No hay un algoritmo para conducir en primer lugar, y la fusión de sensores en esta escala y en tiempo real está resultando ser un gran desafío. Veremos dónde estamos en dos años más o menos.

El contexto: por qué utilizar el aprendizaje automático en la investigación

Depende del tipo de datos que tenga un investigador. ¿Está estructurado, no estructurado, cuál es el volumen de datos ?, ¿con qué frecuencia estamos generando nuevos datos (a qué velocidad por minuto, hora o día)?

Entonces ahora tendríamos el problema y las características de big data visibles. En tal situación, un investigador puede no ser capaz de analizar manualmente los datos para generar ninguna información de valor, luego puede optar por desarrollar un algoritmo que automatice las ideas de conducción a partir de estos datos

Caso de uso Economía (no soy un experto en este dominio) y atención médica para dos perspectivas diferentes

En economía, podemos echar un vistazo a la crisis de alto riesgo de 2008. Solo algunos gestores de fondos de cobertura podemos identificar los riesgos de la crisis de alto riesgo con anticipación. Aunque los datos sobre las posibilidades de impago de préstamos estaban disponibles en diferentes formas y eran accesibles para todos.

Uno de esos formatos de datos se obtuvo mediante el análisis de estos datos proporcionados por la naturaleza tóxica de los bonos corporativos, el crecimiento de CDO sintético y el estado de incumplimiento de préstamos de clientes en todo el banco, etc.

El desafío aquí radica en analizar los detalles de estos productos, ya que los datos de ellos están en formato estructurado y no estructurado (documentos en papel). Sería tedioso para un investigador analizar los datos no estructurados distribuidos en miles de documentos físicos. Entonces, tener un algoritmo de identificación de riesgo de mercado habría permitido a los investigadores determinar los riesgos exactos planteados, ¿cuál es el nivel de ingresos de las personas que obtuvieron préstamos? ¿Cuántos préstamos otorgamos? ¿Están pagando préstamos con nuevos préstamos hipotecarios? y así.

Caso de uso asistencial

Supongamos que usted es biólogo del cáncer y trabaja con datos de imágenes de mamografías de cáncer. Entonces, en un lote típico, recibiría 10,000 archivos de mamografías de diferentes hospitales. Ahora sería imposible analizar y clasificar manualmente estos datos de mamografía, que son datos de imagen no estructurados (por ejemplo, en términos de diagnóstico + ve para cáncer, diagnóstico – ve, cáncer en estadio avanzado, tumor benigno o algunas mamografías de control, etc.).

Para automatizar el trabajo, lo ideal sería desarrollar un algoritmo de análisis de imágenes para hacer una clasificación inicial de los datos de la mamografía y luego distribuir estos datos para un análisis experto adicional.

Espero que mi explicación te ayude con tu comprensión.

More Interesting

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?

Aprendizaje profundo: ¿Una versión suave de unidades lineales rectificadas funciona mejor o peor que una no lineal?

¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?

¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?

¿Cuáles son las buenas formas de combinar dos salidas de un clasificador?

Cómo agregar una razón de probabilidad para una característica en mi conjunto de datos

¿Cómo aprendiste Machine Lerning?

¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

¿Qué es una explicación intuitiva de la diferencia entre equilibrios correlacionados y equilbria correlacionada gruesa?

Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP

¿Cuál es el mapa de ruta para un chico universitario para una carrera de aprendizaje automático y competir en Kaggle?

¿Por qué hay una disminución en el rendimiento de los modelos pre-entrenados?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Cómo puedo aprender a realizar simulaciones de dinámica molecular? ¿Cuáles son algunas buenas fuentes para aprender sobre este campo?

¿Por qué podría ser preferible incluir menos predictores sobre muchos?