¿Por qué Apple ha adoptado una estrategia de privacidad diferencial en torno a la IA y los datos del usuario, pero Google no?

A2A

Respuesta corta

Apple y Google adoptan diferentes enfoques de la privacidad porque tienen modelos comerciales que son dramáticamente diferentes en muchos aspectos, incluso con respecto a la privacidad.

¿Cuáles son algunos casos cotidianos que se pueden resolver mediante aprendizaje automático / ciencia de datos / IA?
¿Cómo podría ser útil un robot capaz de verificar los signos vitales de salud?
¿Cómo pueden los ingenieros industriales ser parte de la próxima revolución industrial, es decir, la inteligencia artificial?
¿Podrían los extraterrestres ser máquinas de producción propia ya que máquinas altamente inteligentes habían eliminado a los productores originales?
Descubrimiento de drogas: ¿pueden las drogas ser diseñadas para mutar para mantener su capacidad de luchar contra su objetivo?

Respuesta larga

El enfoque de Google a la privacidad es simple: A cambio de proporcionar una gama increíblemente amplia de servicios gratuitos a los usuarios, Google emplea información que recopila sobre esos usuarios para alimentarlos con anuncios, de los cuales Google obtiene ingresos.

Este enfoque se explica en la Política de privacidad de Google (énfasis agregado):

Usamos la información que recopilamos de todos nuestros servicios para proporcionarlos, mantenerlos, protegerlos y mejorarlos, desarrollar nuevos y proteger a Google y a nuestros usuarios. También utilizamos esta información para ofrecerle contenido personalizado, como ofrecerle resultados de búsqueda y anuncios más relevantes.

Por lo que puedo decir, habrá poca o ninguna necesidad legal de cambiar este enfoque fundamental de la privacidad a medida que Google avance más hacia la inteligencia artificial (IA).

Apple solía tener un enfoque simple para la privacidad, que caracterizo de la siguiente manera: No queremos que su información personal vaya más allá de su número de teléfono móvil (según corresponda) y su ID de dispositivo para que pueda recibir y enviar comunicaciones. De hecho, con cada versión principal de iOS estamos encriptando los datos en su dispositivo más a fondo para que, eventualmente, no podamos acceder a él incluso si se nos ordena. (Por lo tanto, nuestras disputas con el gobierno federal a principios de 2016).

Pero debido a que Apple necesita moverse en la dirección de la IA para que los dispositivos de Apple sean más útiles para los usuarios, Apple se dio cuenta de que tenía que comenzar a copiar y analizar los datos del usuario.

La protección que ofrece la privacidad diferencial es que a medida que se recopilan datos de cada usuario, se inserta información aleatoria. Esto dificulta la identificación de lo que ha estado haciendo un usuario determinado, pero le permite a Apple analizar los datos de muchos usuarios para actuar de manera que beneficie a todos los usuarios, al tiempo que protege la privacidad de cada usuario.

En resumen, Apple necesita privacidad diferencial para poder mantener sus manos fuera de los datos identificables por el usuario; Google, por el contrario, utiliza expresamente datos identificables por el usuario, por lo que no se requiere privacidad diferencial.

¿Se pueden incorporar la programación genética, la metaprogramación y el aprendizaje profundo en el mismo programa?

¿Es posible que PS sea reemplazado por AI o Sketch en el futuro?

¿Las redes neuronales convolucionales funcionan mejor en problemas de clasificación de imágenes que las redes neuronales recurrentes?

¿Qué es más realista en el futuro: una muy buena comprensión de cómo diseñar sistemáticamente redes neuronales o NN que se construyen por sí mismos?

¿Cómo pueden los robots algún día volverse verdaderamente inteligentes y comenzar a pensar por sí mismos?

¿Hay otra palabra para la automatización de procesos robóticos? ¿Es la inteligencia artificial la misma cosa?

He retrasado la respuesta a esta pregunta porque quería pensarlo un poco. Aquí está lo que pienso.

Google y Apple son compañías muy diferentes. El negocio de Google es la publicidad. Y los clientes de Google no son las personas que usan el motor de búsqueda o las aplicaciones de teléfonos celulares, o cualquier otra cosa. Aquellos de nosotros que usamos las cosas de Google somos en realidad el producto real. Nuestros datos son lo que Google vende a sus verdaderos clientes; las personas y empresas que compran sus anuncios. Todo lo que Google hace es vender anuncios. Así es como se ha convertido en el gigante que es. Todo lo que crea es solo otra forma de hacerlo más pegajoso para nosotros. Haciéndonos más difícil dejarlo. Convencernos de que usemos sus productos y nos quedemos para que tenga más y más información valiosa para compartir con sus vendedores. Quiere ser tan valioso que no importa cuántos datos nos demos (o no nos demos) de que estamos guardando sobre nosotros, seguiremos usando sus servicios. Por lo tanto, Google no puede darnos demasiada privacidad. Si lo hace, no puede vender esos datos críticos. Pero tiene que equilibrar la cantidad de datos que protege frente a la cantidad de datos que vende. Es un equilibrio complicado. No puede arriesgarnos a que despertemos y nos vayamos. No puede arriesgarnos a decidir que la conveniencia no vale el precio que estamos pagando.

Apple, sin embargo, vende productos. Y debido a que vende productos, sus clientes son las personas que compran esos productos. No puede permitirse el lujo de perder a esos clientes molestándolos por cuestiones de privacidad. Entonces Apple también tiene un equilibrio de privacidad v datos. Y debido a su modelo de negocio, tiene que proteger nuestra privacidad mucho más de lo que Google tiene que protegerla.

Dana H. Shultz

Primero … obtengamos una definición de “Privacidad diferencial” de Wikipedia …

Dice … todo esto se debió a que Netflix quería predecir mejor qué películas podrían gustarle a la gente …

Netflix ha ofrecido un premio de $ 1,000,000 por una mejora del 10% en su sistema de recomendaciones. Netflix también ha lanzado un conjunto de datos de entrenamiento para que los desarrolladores competidores entrenen sus sistemas. Al publicar este conjunto de datos, proporcionaron un descargo de responsabilidad: para proteger la privacidad del cliente, toda la información personal que identifica a los clientes individuales se ha eliminado y todos los identificadores de cliente [sic] se han reemplazado por identificadores asignados al azar [sic]. Netflix no es el único portal de clasificación de películas disponible en la web; Hay muchos otros, incluido IMDB. En IMDB, las personas pueden registrarse y calificar películas y tienen la opción de no mantener sus datos anónimos. Arvind Narayanan y Vitaly Shmatikov, investigadores de la Universidad de Texas en Austin, vincularon la base de datos de capacitación anonimizada de Netflix con la base de datos IMDB (usando la fecha de calificación de un usuario) para anonimizar parcialmente la base de datos de capacitación de Netflix, comprometiendo la identidad de un usuario. [1]

Y … también señalemos … que la premisa de esta pregunta es un error … ya que Google está usando la privacidad diferencial … en este momento …

APLICACIONES ACTUALES DE PRIVACIDAD DIFERENCIAL

Oficina del Censo de EE. UU., Por mostrar patrones de conmutación,

RAPPOR de Google, para telemetría como el aprendizaje de estadísticas sobre software no deseado que secuestra la configuración de los usuarios (implementación de código abierto de RAPPOR),

Google, para compartir estadísticas históricas de tráfico.

El 13 de junio de 2016, Apple anunció su intención de utilizar la privacidad diferencial en iOS 10 para mejorar su tecnología inteligente de asistencia y sugerencias.

DEFINICIÓN … La definición de Wikipedia no se puede pegar aquí.

De: Algunos pensamientos sobre ingeniería criptográfica … por Matthew Green

¿Qué es la privacidad diferencial?

La privacidad diferencial es una definición de privacidad que fue desarrollada originalmente por Dwork, Nissim, McSherry y Smith, con importantes contribuciones de muchos otros a lo largo de los años. En términos generales, lo que dice puede resumirse intuitivamente de la siguiente manera:

Imagine que tiene dos bases de datos idénticas, una con su información y otra sin ella. La privacidad diferencial asegura que la probabilidad de que una consulta estadística produzca un resultado dado sea (casi) la misma, ya sea que se realice en la primera o segunda base de datos.

Continuando de esta fuente ..

Lo bueno de DP es que el mismo enfoque general se puede aplicar a funciones mucho más interesantes, incluidos cálculos estadísticos complejos como los utilizados por los algoritmos de Machine Learning. Incluso se puede aplicar cuando se calculan muchas funciones diferentes en la misma base de datos.

Pero hay una gran advertencia aquí. Es decir, mientras que la cantidad de “fuga de información” de una sola consulta puede estar limitada por un valor pequeño, este valor no es cero. Cada vez que consulta la base de datos sobre alguna función, la “fuga” total aumenta, y nunca puede disminuir. Con el tiempo, a medida que realiza más consultas, esta fuga puede comenzar a acumularse.

Este es uno de los aspectos más desafiantes de DP. Se manifiesta de dos maneras básicas:

Cuanta más información tenga la intención de “solicitar” a su base de datos, más ruido debe inyectarse para minimizar la fuga de privacidad . Esto significa que en DP generalmente hay una compensación fundamental entre la precisión y la privacidad, lo que puede ser un gran problema al entrenar modelos de ML complejos.

Una vez que los datos se han filtrado, desaparecen. Una vez que haya filtrado tantos datos como sus cálculos le dicen que es seguro, no puede continuar, al menos no sin arriesgar la privacidad de sus usuarios. En este punto, la mejor solución puede ser simplemente destruir la base de datos y comenzar de nuevo. Si tal cosa es posible.

La filtración total permitida a menudo se denomina “presupuesto de privacidad” y determina cuántas consultas se permitirán (y qué tan precisos serán los resultados). La lección básica de DP es que el demonio está en el presupuesto. Configúrelo demasiado alto y perderá sus datos confidenciales. Póngalo demasiado bajo, y las respuestas que obtenga podrían no ser particularmente útiles.

Ahora, en algunas aplicaciones, como muchas de las de nuestros iPhones, la falta de precisión no es gran cosa. Estamos acostumbrados a que nuestros teléfonos cometan errores. Pero a veces, cuando DP se aplica en aplicaciones complejas, como la capacitación de modelos de Machine Learning, esto realmente importa.

Mortalidad versus divulgación de información, de Frederikson et al.

La línea roja es la mortalidad parcial.

Para dar un ejemplo absolutamente loco de cuán grandes pueden ser las compensaciones, considere este artículo de Frederikson et al. desde 2014. Los autores comenzaron con una base de datos pública que vincula los resultados de dosificación de warfarina con marcadores genéticos específicos. Luego utilizaron técnicas de ML para desarrollar un modelo de dosificación basado en su base de datos, pero aplicaron DP en varios presupuestos de privacidad mientras capacitaban el modelo. Luego evaluaron tanto la filtración de información como el éxito del modelo en el tratamiento de “pacientes” simulados.

Los resultados mostraron que la precisión del modelo depende mucho del presupuesto de privacidad en el que se formó. Si el presupuesto se establece demasiado alto, la base de datos pierde una gran cantidad de información confidencial del paciente, pero el modelo resultante toma decisiones de dosificación que son tan seguras como la práctica clínica estándar. Por otro lado, cuando el presupuesto se redujo a un nivel que logró una privacidad significativa, el modelo “lleno de ruido” tenía una tendencia a matar a sus “pacientes”.

Ahora, antes de que te asustes, déjame ser claro: tu iPhone no te va a matar . Nadie dice que este ejemplo se parezca vagamente a lo que Apple va a hacer por teléfono. La lección de esta investigación es simplemente que existen compensaciones interesantes entre la efectividad y la protección de la privacidad que brinda cualquier sistema basado en DP: estas compensaciones dependen en gran medida de las decisiones específicas tomadas por los diseñadores del sistema, los parámetros elegidos por las partes implementadoras, y así

Google usa Privacidad diferencial en su sistema RAPPOR … (más de esta fuente …)

Un enfoque mucho más prometedor es no recopilar los datos sin procesar en absoluto. Google adoptó recientemente este enfoque para recopilar estadísticas de uso en su navegador Chrome. El sistema, llamado RAPPOR, se basa en una implementación de la técnica de respuesta aleatoria de 50 años. La respuesta aleatoria funciona de la siguiente manera:

Cuando un usuario desea informar una información potencialmente vergonzosa (por ejemplo, “¿Usa Bing?”), Primero lanza una moneda, y si la moneda sale “cara”, devuelve una respuesta aleatoria, calculada por lanzando una segunda moneda. De lo contrario, responden honestamente.

Luego, el servidor recopila las respuestas de toda la población y (sabiendo la probabilidad de que las monedas salgan “caras”), ajusta el “ruido” incluido para calcular una respuesta aproximada para la tasa de respuesta real.

Apple no ha declarado si están utilizando o no un sistema como RAPPOR de Google o uno que reúne grandes cantidades de datos en bruto … pero el problema de tener cosas que realmente no quieres saber es que otras personas que quieren saberlo podría piratear u “orden judicial” para obtenerlo. El valor de este sistema realmente disminuye si está almacenando todos los datos “en bruto”, pero solo se está engañando al extraerlos incorrectamente para dar la impresión de información anónima … mientras mantiene todos los problemas de seguridad que vienen al tratar de proteger esto. datos de todas las miradas indiscretas, nacionales y extranjeras.

Si bien no hay evidencia sólida de que Apple esté usando un sistema como RAPPOR, hay algunas pequeñas sugerencias. Por ejemplo, Craig Federighi de Apple describe la Privacidad Diferencial como “el uso de hashing, submuestreo e inyección de ruido para permitir … el aprendizaje colaborativo mientras se mantienen completamente privados los datos de usuarios individuales”. Es una evidencia bastante débil de cualquier cosa, es cierto, pero la presencia del “hash” en esa cita al menos sugiere el uso de filtros similares a RAPPOR.

Fuentes adicionales para leer más …

Esto es lo que significa la privacidad diferencial de Apple para iOS 10 (The Verge)

La ‘Privacidad diferencial’ de Apple se trata de recopilar sus datos, pero no sus datos (por cable)

Dana H. Shultz

La respuesta corta es que Google es una empresa de servicios (principalmente publicidad) que se basa en el aprovechamiento de datos, mientras que Apple es una empresa de electrónica de consumo. Para que Google asuma la postura sobre los datos como Apple, necesitarían estar en un modelo de negocio similar y no están cerca. Amazon podría tomar la misma táctica que Apple, pero Facebook no podría en el modelo actual.

Con Apple venden los productos de sus clientes, mientras que Google vende a sus clientes información sobre sus usuarios (que en gran medida no son sus clientes).

Dana H. Shultz

More Interesting

¿Cuáles son los principales candidatos actuales en el campo de la IA?

Al sintonizar una red neuronal, ¿cuánto tiempo suele esperar mientras entrena antes de cambiar los hiperparámetros y probar otra configuración?

¿Cómo afecta la inteligencia del juez humano al resultado de la prueba de Turing?

¿En qué se diferencia un ingeniero de software de aprendizaje automático con más de 3 años de experiencia de un doctorado sin experiencia en ML para resolver problemas a escala de Google? ¿Qué ventajas tiene la persona con experiencia? ¿Qué diferencias en el resultado podemos esperar?

¿Cuál es la diferencia entre la arquitectura de red neuronal y el algoritmo de red neuronal?

¿Cómo se siente Karen Kolkey sobre la realidad virtual?

¿'The Grid' va a darles a los diseñadores dificultades para encontrar trabajo? ¿Debido a AI UX?

¿Cuáles son sus recomendaciones para el aprendizaje automático de autoaprendizaje?

¿Puedes entrenar una red neuronal para convertir pseudocódigo arbitrario en código fuente canónico?

¿Qué debe saber el laico sobre el aprendizaje automático?