Cómo hacer un programa que entienda lo que significan los datos dados

Comprensión , esa es la proverbial pregunta de $ 64,000. Creo que todo está en tu definición.

Afortunadamente, reduce la definición de lo que quiere decir en los detalles de la Pregunta, que son algo así como Metadatos o datos sobre datos; en otras palabras, los metadatos se encuentran debajo de los datos … ; ^)

en.wikipedia.org/wiki/ WordNet

WordNet es una base de datos léxica para el idioma inglés. Agrupa palabras en inglés en conjuntos de sinónimos llamados synsets, proporciona definiciones cortas y ejemplos de uso, y registra una serie de relaciones entre estos conjuntos de sinónimos o sus miembros. WordNet puede verse así como una combinación de diccionario y tesauro. Si bien es accesible para usuarios humanos a través de un navegador web, su uso principal es en análisis automático de texto y aplicaciones de inteligencia artificial.

en.wikipedia.org/wiki/ DBpedia

DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar semánticamente las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Este es un problema de clasificación complejo. No hay una “cosa” que todos hagan. Una práctica común es construir gráficos de conocimiento que estén modelados para almacenar hechos sobre temas, temas y palabras clave que se encuentran en datos no estructurados (la web). A menudo, es una combinación de preprocesamiento con una variedad de tuberías, además de técnicas supervisadas y sin supervisión. Una técnica útil para comenzar con este tipo de problema es hacer un trabajo exploratorio con un modelo de árbol de decisión contra diferentes categorías de términos.


En el caso de Google y la búsqueda de la fecha de nacimiento de Lil Wayne – Búsqueda de Google, los datos del gráfico saben que Lil Wayne es una “persona” y la fecha de nacimiento con la persona es una consulta asignada a la base de datos del gráfico para metadatos correlacionados.

http://blog.urx.com/urx-blog/201
Contenido del modelo de minería para modelos de árbol de decisión (Analysis Services – Minería de datos)

¿Cuáles son algunas formas en que puede producir este tipo de datos? Clasificación de aprendizaje automático, como árboles de decisión, LDA, ingenuos Bayes, bosques aleatorios, creo que son buenos lugares para comenzar.

Si estás familiarizado con Python, te recomiendo que consultes los tutoriales en Gensim para sumergirte un poco con LDA, pero scikit-learn tiene muchos de los clasificadores mencionados anteriormente. Si eres completamente nuevo en Machine Learning, es un poco difícil entrar, pero es un reino de conocimiento emocionante en este momento. Es útil aprender los fundamentos sobre cómo abordar diversos problemas, por lo que recomiendo encarecidamente un buen MOOC, hacer muchas preguntas y, siempre que sea posible, leer todo lo que pueda tener en sus manos.
Recursos iniciales:

  • Prólogo a la ciencia de datos
  • Introducción al curso en línea de ciencia de datos
  • Convertirse en un científico de datos – Plan de estudios a través de Metromap – Perspectivas pragmáticas
  • Curso elemental de estadística en línea
  • Probabilidades y estadísticas
  • Aprendizaje automático – Universidad de Stanford | Coursera

necesitaría una combinación de técnicas de análisis inteligente, semántica de lenguaje específica y un algoritmo muy inteligente que puede escanear una gran cantidad de datos no indexados.
Además, necesitaría una buena potencia de cálculo para incluso escanear la web en busca de todos los elementos no indexados. Una vez que tenga sus datos, puede intentar vincularlos a fuentes web específicas donde considere que la clasificación de datos ya está hecha (como vincular Brad Pitt a IMBD o algo así).
A partir de ahora, la mayoría de los motores de búsqueda actuales utilizan palabras clave predictivas (tienen un gran depósito de búsquedas pasadas y las optimizan dinámicamente a medida que un tema en particular gana popularidad) y algoritmos inteligentes. Los sitios web tienen la responsabilidad de optimizar sus posibilidades de aparecer en los resultados de búsqueda mediante el uso de palabras clave específicas. El proceso de optimización en el sitio resultante se llama SEO (Search Engine Optimization).
Puede aprender sobre esto en temas avanzados de construcción web más o menos.

La idea es escanear todos los sitios que tienen esos nombres / palabras e identificar el conjunto común de palabras / factores que lo describen y almacenarlo en una base de datos bastante grande que finalmente tendría información sobre las palabras más comunes para cada otra palabra /nombre. Esto a su vez se utiliza para hacer que parezca que la ‘palabra / nombre’ se ‘entiende’ como algo.
Sobre la pregunta sobre qué están utilizando las compañías mencionadas para hacerlo, no tengo una respuesta definitiva … probablemente sean sus algoritmos incorporados. Puede obtener un poco más al respecto en Google (¡búsqueda!) O información privilegiada de primera mano si puede encontrar un contacto allí.

More Interesting

En una escala de 0-10, ¿cuánto conocimiento de aprendizaje profundo obtendrá después de completar la especialización deeplearning.ai?

¿Cuán plausibles son las teorías de las máquinas que nos conquistarán en el futuro?

¿Cuáles son actualmente las capacidades más altas o más impresionantes del aprendizaje automático?

¿Cuál es la diferencia entre traducción automática y memoria de traducción?

¿Por qué Google está invirtiendo tanto en IA y, sin embargo, Google Translate parece avanzar muy lentamente?

¿Qué es una explicación intuitiva para las redes neuronales?

¿No podemos simplemente programar robots para no derrocar a la humanidad?

Como contador público, ¿debería preocuparme que la inteligencia artificial eventualmente reemplace los servicios que proporciono?

¿En qué se diferencia un ingeniero de software de aprendizaje automático con más de 3 años de experiencia de un doctorado sin experiencia en ML para resolver problemas a escala de Google? ¿Qué ventajas tiene la persona con experiencia? ¿Qué diferencias en el resultado podemos esperar?

Si las redes neuronales artificiales se rediseñaran desde cero basándose en nuestro conocimiento actual del cerebro humano, ¿cuáles serían las diferencias importantes?

¿Aleatorización en algoritmos evolutivos (genéticos)?

¿Tendrá personalidad la singularidad tecnológica?

¿Crees que los robots puedan convertirse en enemigos de la humanidad?

¿Qué startups están trabajando en IA y ML?

¿En qué debería especializarme si quiero estudiar la intuición artificial?