¿Cuál es una buena manera de codificar la geolocalización como una característica?

Si se trata de un problema de clasificación, supongo que tiene un nuevo punto y desea clasificar si es un PDI o no.

Aquí hay una idea, sus ubicaciones están esencialmente en el espacio euclidiano 2D. Parece razonable que los PDI puedan tener alguna correlación espacial, por lo que podría crear una función que tome la clase modal de las geolocalizaciones k más cercanas visitadas previamente. Eso es solo agregar una sola característica en su clasificador.

Alternativamente, si se trata de un problema de clasificación binaria, puede codificar cada geolocalización de entrenamiento como 0 o 1 y, para cada punto, usar el suavizado del núcleo con un núcleo gaussiano, por ejemplo, para calcular una suma ponderada sobre todas las geolocalizaciones visitadas anteriormente para obtener Una sola característica. ( El puntaje k más cercano es solo un ejemplo del uso de suavizado del núcleo con un núcleo no uniforme).

¿Cómo puede Machine Learning ayudar a un desarrollador de Android?

¿Cuáles son los documentos más importantes en el aprendizaje activo?

¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?

¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?

¿Los matemáticos trabajan en problemas que surgen de la inteligencia artificial (teórica) y el aprendizaje automático?

¿Cuáles son algunos algoritmos que un científico de datos debe saber y comprender?

Además de la respuesta de Jack Rae, agregaría:
Use las geolocalizaciones de todos en su sistema y cree un mapa de calor:
Una característica significativa podría ser el color agregado de todos los lugares que visitó un usuario específico. Esto mantendría datos sobre si este usuario visita lugares populares o no.
Otra característica que puede extraer este mapa de calor es agrupar ubicaciones en función de un umbral de color (cada lugar con n o más visitantes es un grupo, o utilizar cualquier otro enfoque de agrupación). Luego, cree una función para cada grupo y verifique si el usuario visitó este lugar (1) o no (0).

En general, la creación de funciones sin comprender completamente el problema podría ser una oportunidad en la oscuridad …

Ankit Sharma

More Interesting

¿Qué algoritmos (aprendizaje automático y aprendizaje profundo) funcionan con un pequeño conjunto de datos, sin sobreajustarlo?

¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

¿Cómo entrenamos redes neuronales en datos numéricos?

¿Por qué la optimización convexa es tan importante en el aprendizaje automático?

¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?

¿Cuándo es PyTorch más útil en comparación con TensorFlow y viceversa?

¿Cuáles son las diez mejores universidades del Reino Unido para obtener un doctorado en inteligencia artificial o aprendizaje automático?

¿Qué son los modelos mixtos en términos simples?

¿Por qué podría ser preferible incluir menos predictores sobre muchos?