¿Hasta qué punto son aplicables las leyes de privacidad de la UE, por ejemplo, el derecho al olvido, a las empresas que dependen de modelos personalizados de aprendizaje automático?

Lamentablemente, se puede argumentar que tiene sentido legal.


Como tecnólogo y evangelista, creo que todo el movimiento de “solicitar sus datos”, “el derecho a ser olvidado”, etc., está condenado al fracaso.

Más allá de ir en contra de la tendencia de apertura, es simplemente inverosímil. La selección y personalización de contenido ya hace un buen trabajo en la aparición y desaparición de contenido; eliminar contenido físicamente, especialmente a pedido de alguien, es solo una exageración.

Visto desde esta perspectiva, la idea de “solicitar modelos relacionados con usted” es doblemente inverosímil. O al cuadrado inverosímil, si lo prefiere.

Incluso extraer toda la información que la compañía tiene sobre cierto usuario es una tarea no trivial. No se puede completar con precisión; todo será una aproximación.

Ante tal solicitud, las empresas solo intentan hacer un trabajo lo suficientemente bueno para presentarle los datos que creen que:

  1. Satisfacerte, y
  2. Será lo suficientemente completo como para que la empresa pueda defender sus argumentos en caso de que elija emprender acciones legales.

Es pura suerte que hasta la fecha no haya habido una gran batalla legal en este campo.

Estoy seguro de que, por ejemplo, un Googler experimentado que trabaja en Google+ le pedirá a Facebook que divulgue TODOS los datos que Facebook tiene para ella, el proceso iterativo de {“¡Hey, no incluiste X!”, “Muy bien, aquí está X para ti.” } nunca convergerá.


A una solicitud para proporcionar a un usuario modelos estadísticos y / o de aprendizaje automático relacionados con ella, una empresa razonable probablemente respondería que estos datos son imposibles de extraer en formato sin formato, lo que le daría una cantidad significativa de información sin comprometer la confidencialidad de su información. otros usuarios

Y la compañía tendrá el 100% de razón. Es simplemente imposible arrancar esos modelos de una manera que garantice que tengan sentido y que no exponga nada sobre nadie más.


Ahora, ¿qué pasa si dice que no necesita los modelos en sí, pero necesita poder aplicarlos a las entradas que desea?

Diga, si le pide a Facebook que clasifique las historias que envía (contenido + metadatos) según el modelo que utilizan para clasificar su feed. Efectivamente, exponga una API disponible solo para usted.

O pídale a Quora que pueda evaluar si ciertas preguntas o respuestas (contenido + metadatos) serían interesantes para usted y qué tan interesantes. Como una API. Para que pueda aplicar esos modelos a, por ejemplo, su correo electrónico entrante o sus chats de Facebook.

Como una exageración, podría argumentar que tanto Facebook como Quora deberían tener la obligación legal de proporcionar alguna interfaz IMAP a su correo electrónico, de una manera que el contenido, más interesante para usted según sus modelos, termine en ciertas carpetas.

Eso, si bien aún es difícil e inverosímil, no sería imposible.

Obviamente tampoco tendría ningún sentido. Pero las leyes son al menos tan extrañas como las personas que votan por ellas, y las personas han demostrado ser muy raras cuando se trata de privacidad digital.


Como dije anteriormente, como tecnólogo y evangelista, estaría firmemente en contra de un mundo en el que uno pueda solicitar a las compañías que divulguen más datos sobre ellos.

Pero bueno, ahora tenemos el derecho a ser olvidados: no me sorprenderá si algunos países o estados realmente impulsan la ley de “modelos relacionados conmigo”.

Y en tal caso, mi mejor consejo sería: conseguir palomitas de maíz.

El derecho a ser olvidado se aplica solo a la información personal. Esa es información que se puede vincular a un individuo.
Por lo tanto, un archivo de registro de solicitud http sería información personal porque la dirección IP identifica a las personas. Si elimina algunos dígitos al final, ya no se puede usar para identificar individuos y puede hacer lo que quiera con ellos. La persona a la que pertenecen los datos no tiene derecho a solicitar su eliminación.
Del mismo modo, cuando desee capacitar a un modelo para predecir futuras compras, simplemente no incluiría ninguna información sobre la identidad de los compradores. Entonces ya no es información personal y puedes hacer con eso lo que quieras. Si necesita incluir información sobre la dirección de sus usuarios, no use la dirección sino solo el código postal. Hay toneladas de personas con el mismo código postal, así que nuevamente no es información personal.

No creo que tenga ningún sentido en absoluto. Uno involucra sus datos específicos. El otro no, sino más bien, involucra datos acumulados. Esa información incluiría la información de otras personas. Datos a los que no tiene derecho de acceso.