Lo dejaré a usted para asegurarse de que su perfil no sea demasiado amplio (no lo suficientemente especializado), pero para que una organización tenga éxito en esta área, creo que estas habilidades deben estar presentes:
- Capacidad de ” caminar ” en texto no estructurado en un modo de búsqueda y / o analítico. Probablemente ya tenga muchas herramientas que lo ayuden a hacer esto.
- Por qué estoy en esto, raspar siempre es una habilidad útil.
- Si ha raspado alguna materia prima, también debe tener en cuenta el equilibrio entre pasar tiempo lavando sus datos y posiblemente repararlos más adelante. Un ejemplo: ¿Va a dejar los archivos de tipo pdf con oraciones rotas, o va a restablecer el significado original (recomiendo este último).
- El siguiente paso está estrechamente relacionado con el anterior: Obtenga una buena idea de cómo organizar sus datos . Siempre puede hacer reparaciones a medida que informa, pero a veces la basura conduce a la basura … Al organizarlo, pienso en sacar metadatos del contenido central, usar marcas de tiempo para obtener una visión adicional de sus diversas partes del material fuente, use metaetiquetas para identificar varios protagonistas y similares.
- Ahora lo peor de lo tedioso, el trabajo preliminar está hecho. Pero ahora tiene que tomar una decisión estratégica: aprendizaje profundo , procesamiento del lenguaje natural , varios tipos de aprendizaje supervisado o no supervisado: ¿los dominará a todos o se especializará?
- No se olvide de obtener un curso realmente bueno en lingüística , preferiblemente no solo de lingüística de datos, aprenda de estas habilidades básicas de humanidades: análisis de autoría, lingüistas forenses, estilometría.
- Además: ¿Vas a comenzar desde abajo, o vas a construir sobre los avances de los demás, y quizás incluso tú mismo agregues avances comunes? Le sugiero especialmente que estudie ontología, modelos de temas, modelos de temas compartidos basados en la nube (en WordMaps nos gusta hablar de topología en lugar de ontología).
- Sea muy consciente de cómo su institución educativa habla sobre el futuro: cómo ven, prácticamente, el éxito de la IA o el aprendizaje automático. Eso sí, se ha hablado mucho en esta área durante muchos años, y algunos avances en esta área aún no hacen mucho trabajo útil. Sé que puede sonar bastante crítico, pero es tu futuro y no debes limitarte por ningún camino histórico si puedes ver otros nuevos que ofrezcan una mejor curva de aprendizaje.
Permítanme terminar mostrando un ejemplo de un trabajo realizado, más de una vez por todas, pero aún así, muchas instituciones siguen trabajando exactamente en la misma tarea, generalmente comenzando una y otra vez:
- Sin Evolution, ¿qué causará que la IA (inteligencia artificial) luche por la supervivencia? ¿De dónde vendrá la motivación para que AI haga algo?
- ¿Cómo es el día de trabajo de un ingeniero de investigación de IA?
- ¿Cuál es más posible, futuro humano mejorado o futuro humano cyborg?
- ¿Por qué podrían estar equivocadas las estimaciones de la IA que se está desarrollando tan rápido como 2030?
- ¿Cuál es la diferencia entre inteligencia artificial y soporte de decisión clínica?
Este gráfico de anillos muestra la distribución relativa de 6 aspectos de los sentimientos / emociones (sentimientos no físicos, principalmente, tal como aparecen en un par de miles de textos (contenido variado). Lo que ha sucedido aquí:
- Se le pidió a la herramienta que encontrara “sentimientos”. Esta instrucción lleva a la herramienta a cargar un modelo de tema, o más específicamente, esa parte del modelo de tema mucho más amplio que es sensible a los sentimientos.
- El siguiente paso fue automático, la herramienta leyó todos los textos, empleando aproximadamente 25,000 tokens que son indicativos de uno o más de los 6 aspectos de los sentimientos que nos interesan.
- Cada vez que se encuentra un token en los textos, el sistema busca un n-gramo. En este caso, el sistema se configuró para buscar n-gramos de la longitud mínima de “2” y con un número máximo permitido de tokens intermitentes de “1”.
- Ahora, si desea obtener más detalles, puede proporcionarlos, pero el informe automático comienza mostrándole la distribución entre sentimientos divididos en ” intenso “, ” abajo “, ” arriba “, “algún grado de importancia “, ” diminutivos ” y, finalmente, un conjunto que hemos llamado ” kux ” – básicamente significa cosas que no son un lenguaje muy malo, pero que no aparecerán, o no deberían aparecer en un informe trimestral de una empresa comercial – lenguaje grosero, si usted será.
- Suministramos este recurso a nuestros usuarios y los alentamos a crear sus propias adiciones al recurso. Como puede imaginar, hemos resuelto una parte sustancial de este problema fundamental o, como Chris Anderson: Acerca de mí habría dicho: Una parte de “la larga cola”.
Este gráfico circular final muestra los sentimientos / emociones como parte de una variedad de otros temas. Su participación es típicamente alrededor del 4% de todos los temas en los textos.