¿Alguna vez habrá un programa que use estilometría para descubrir toda mi actividad anónima en Internet?

Voy a ir con sí, hasta cierto punto.

Si escribes usando solo un estilo de escritura, eso significaría que repites muchas estructuras gramaticales. Por ejemplo, cuando está definiendo algo, usa las mismas palabras críticas, la misma puntuación, pausas gramaticales, etc.
Piensa de manera similar cuando estás haciendo cosas diferentes: describiendo algo con gran detalle, exponiendo algo superficialmente, argumentando a favor o en contra de un punto en particular, etc.

Esas estructuras gramaticales son diferentes entre sí debido a las palabras, las pausas, los puntos, los recursos literarios que puede usar (es decir, si está exponiendo algunos temas superficialmente, es más probable que use más metáforas que al definir algo o describirlo). con detalles muy técnicos), etc. Creo que sería factible construir un sistema que reconozca estas estructuras.

Ahora, como dije, suponiendo que un “estilo de escritura” se compone de las pequeñas partes que ya presenté, el universo de los estilos de escritura , entendido como todos los tipos posibles de puntuación, pausas, figuras y recursos que obedecen a reglas gramaticales y combinaciones. de estos diferentes estilos, debe ser finito.

¿Por qué? Hablando de puntuación, hay símbolos finitos para esto. También hay tipos finitos de puntuación: punto, para finalizar ideas. Exclamación y signos de interrogación por razones obvias. Comas para separar dos ideas dentro de las mismas oraciones, separar la lista de sustantivos o adjetivos, y un par de otros usos, como pausas. Y eso es.
Lo mismo sucede con los recursos literarios, son finitos. (Aunque pueden crearse, la tasa de creación de estos recursos es algo que los une a la finitud virtual)

Entonces, el universo de los estilos de escritura es finito. Pero el universo de personas que escribe también es finito. Y, seamos sinceros, la mayoría de nosotros no tenemos un estilo creado por nosotros mismos. Está construido principalmente con partes de otros, fuertemente influenciado por la gran cantidad de escritores que hemos leído durante nuestras vidas. El estilo de esta misma respuesta que está leyendo es prácticamente el mismo con al menos otras dos mil respuestas no escritas por mí aquí en Quora.
Otro punto en contra de la idea es, además del cambio de estructuras gramaticales, el cambio de contexto. Por ejemplo, tengo que escribir diferente en Quora que en Twitter, en un blog, en Google o en 4chan.

No creo que exista una máquina con un índice de precisión cercano al 60%, y mucho menos al 100%.
Sin embargo, creo que una máquina podría algún día reconocer las distintas estructuras: “Aquí estás definiendo algo, pero aquí estás explicando algo en términos simples”.

La estilometría y la atribución de autor también se han investigado en la academia. Para mi propia investigación, he leído varios trabajos de investigación sobre estilometría que utilizan técnicas de Machine Learning.

De los trabajos de investigación, los siguientes son los atributos distintivos ampliamente mencionados y los marcadores de estilo de escritura:

[Los atributos se clasifican en términos generales en marcadores léxicos, sintácticos, estructurales, específicos de contenido e idiosincráticos.]

  1. Los indicadores de estilo léxico son medidas estadísticas basadas en caracteres o palabras. Por ejemplo: longitud de la oración / línea, riqueza de vocabulario y distribuciones de longitud de palabra.
  2. Los indicadores sintácticos son palabras de función, puntuación y patrones de parte del discurso en las oraciones. Se ha demostrado que las palabras de función son discriminadores altamente efectivos de la autoría, ya que las variaciones de uso de tales palabras son un fuerte reflejo de las elecciones estilísticas de una persona.
  3. Los indicadores estructurales incluyen atributos relacionados con la organización y el diseño del texto (p. Ej., Párrafo). Otros atributos estructurales incluyen características técnicas como el uso de varias extensiones de archivo, fuentes, tamaños y colores. Al analizar programas de computadora, se utilizan diferentes características estructurales (por ejemplo, el uso de llaves y comentarios).
  4. Los indicadores de contenido específico se componen de palabras clave y frases importantes sobre ciertos temas, como palabras n-gramas y frases. Por ejemplo, en una discusión sobre computadoras, los usos de palabras como “sistema” y “máquina” pueden ser distintivos.
  5. Los indicadores idiosincrásicos incluyen errores ortográficos, errores gramaticales y otras anomalías de uso. Las idiosincrasias también pueden reflejar elecciones deliberadas del autor o diferencias culturales, como el uso de la palabra “centro” versus “centro”.

Encontré esta interesante herramienta académica de código abierto de la Universidad de Drexel, JStylo-Anonymouth, [https://psal.cs.drexel.edu/index…] que puede hacer tanto la atribución de autoría como la evasión de autoría (anonimización).

La mayor parte de la investigación académica sobre atribución de autoría aún no ha logrado resultados precisos. Definitivamente hay margen para más trabajo e investigación en esta dirección.