Cómo manejar coordenadas geoespaciales en aprendizaje automático

Hay dos tipos de cosas que puedes hacer.

Primero, si de alguna manera estás limitado a los datos disponibles (para una competencia o algo así). La mayoría de las cosas que puede hacer se limitarán a la agrupación.

Puede leer sobre kmeans y comprender sus limitaciones, especialmente relacionadas con la inicialización aleatoria, y cómo superarlas. También puede usar algoritmos especializados como dbscan y OPTICS, que están diseñados para trabajar con datos geoespaciales.

Si tiene acceso a datos externos, puede usar la geocodificación para relacionar sus datos con muchas otras cosas. Administrativo (distritos, ciudades, regiones o países). Económicos, como ingresos medios locales, crecimiento, etc. Sociológicos, como estadísticas de delincuencia, inclinación política, y similares. Meteorológica, etc.

¡Eso debería darle algunos elementos para comenzar a trabajar!

Puede convertirlos en datos categóricos por vecindario, si tiene una lista decente de vecindarios en los que agruparlos.

El problema es que el impacto en el precio de estar en una ubicación particular será muy no lineal.

Intente visualizarlo como una superficie, con x e y siendo las coordenadas yz siendo el impacto en el precio de una casa en esa ubicación. La superficie z (una función de x e y) probablemente estará muy irregular, con muchos máximos y mínimos locales.

Considere una porción 2-D de esa superficie de costo: x y z. Un árbol de decisión dividirá x en dos subrangos y asignará un impacto en el precio a una casa en cada mitad. Pero esto no es algo sensato que hacer en una superficie llena de baches.

Si, a medida que avanzamos a lo largo de x, ambas mitades de la superficie particionada tienen altibajos, entonces estar en la mitad de esa partición no será predictivo de un precio más alto o más bajo, porque depende de dónde dentro de esa partición caiga su casa.

En otras palabras, este tipo de función es muy difícil de aprender con un bosque aleatorio, porque no se puede encontrar una buena linealización para la superficie: no hay una aproximación lineal de la superficie que sea precisa en todas partes.

Es simplemente complicado en general: sería muy propenso a ajustarse demasiado con este enfoque.

Probablemente desee utilizar los datos x, y para crear características que tengan efectos lineales (o al menos no desiguales) en el precio; por ejemplo, puede identificar todos los centros comerciales en un área y agregar “distancia al más cercano centro comercial “como característica, ya que es razonable decir que cuanto más cerca de un centro, mejor.

Para cada casa, agregue características a distancias iguales a algunos puntos clave, como una escuela, una parada de autobús o un parque. Esa debería ser una aproximación bastante buena y fácil, y si el conjunto de datos y el modelo son lo suficientemente grandes, otros puntos clave se deducirán automáticamente en función de las fluctuaciones de los precios.

Por lo general, puede discretizar el mapa y ponerle una codificación única; para obtener una bonificación adicional, puede hacer una descomposición de bajo rango de todas las casas en este nuevo espacio dimensional [matemáticas] k ^ 2 [/ matemáticas] (donde [matemáticas] k [/ matemáticas] es el número de cubos que está discretizando cada dimensión en).

Es bastante computacionalmente grande (como siempre lo es tratar con espacios continuos), pero la mayoría de las características de interés se encontrarán en unas pocas coordenadas, por lo tanto, tomar una aproximación de bajo rango podría producir resultados de la misma calidad (y a veces mejor, ya que reduce el sobreajuste )

La forma más fácil sería convertir las coordenadas a una distancia de algún punto relativo. Ese punto relativo podría ser dinámico, como en la distancia de otros puntos cercanos, que es el más común ya que la vivienda cercana es el mejor indicador para las predicciones de precios, o también estático si sus datos contienen puntos con coordenadas que se relacionarían directamente con los precios de la vivienda (escuelas y su calidad publicada, grandes cadenas de tiendas con ubicaciones publicadas y relaciones conocidas con los ingresos del área y la gentrificación (Starbucks), cruces de ferrocarril (desafortunadamente, los cruces son a menudo lo único que puede buscar, ya que las propias vías del ferrocarril no se arreglarían), y así en)

De todos modos, es mucho más fácil trabajar con la distancia como factor asociativo que las coordenadas espaciales.

More Interesting

¿Por qué imaginamos (y creamos en algunos casos) robots con forma humana?

Como médico que programa y participa en la investigación tecnológica, ¿cómo puedo comenzar a aprender sobre aprendizaje automático / aprendizaje profundo?

¿Puede AI controlar un grupo de ataque de portaaviones de la Marina de los EE. UU.?

¿Qué empresas que cotizan en el mercado de valores de India se beneficiarán exponencialmente con el aumento de la inteligencia artificial y la tecnología de drones?

¿Cuáles serán las 5-10 aplicaciones principales para IA / aprendizaje automático, y qué marcos y cadenas de herramientas serán necesarias para impulsar este trabajo?

¿Por qué algunas personas solo juegan contra la IA y no contra jugadores reales en los videojuegos?

¿Hay AI que pueda analizar JSON para un nombre de campo anidado particular?

¿Es mejor aprender IA sobre ML, en caso de que ML se vuelva obsoleto?

¿Qué dicen los profesores universitarios sobre las técnicas de aprendizaje automático aplicadas en sus campos?

¿Puede una IA de computadora vencer al mejor jugador humano de Clash Royale?

¿Cuál es la mejor manera de aprender inteligencia artificial mientras se está en educación a tiempo completo? (escuela secundaria - 16 años)

¿Google Neural Machine Translation tendrá una precisión del 95% de un nivel humano para finales de 2017?

¿Sería un ciudadano o una posesión una inteligencia artificial consciente de sí misma?

¿Podemos construir un órgano biónico para el lenguaje?

Estoy realmente interesado en la IA (inteligencia artificial) y el aprendizaje automático, ¿cómo hago una carrera en él?