Atribución de autoría

El análisis de atribución de autoría forense está sujeto a determinadas condiciones que tienen que ser observadas para asegurar la validez de los resultados. Bailey (1979:7) las especifica de la forma siguiente:

“In my view, there are at least three rules that define the circumstances necessary for forensic authorship attribution

    1. that  the  number  of  putative  authors  constitute  a well- defined set;
    2. that there be a sufficient quantity of attested and  disputed samples to reflect the linguistic habits of each candidate;
    3. that the compared texts be conmensurable”.

El análisis de autoría interesa en casos de plagio, escritura de anónimos, problemas de seguridad nacional e inteligencia,  historia literaria y a la lingüística forense, al análisis de los temas candentes en redes sociales y a la identificación de rasgos sicológicos (incluso sanitarios) de personalidad, entre otros.

Antes de proceder a exponer el problema, se hace preciso distinguir entre determinación de autoría, verificación de autoría y atribución de autoría.

Por verificación de autoría entiendo la argumentación orientada a confirmar la autoría de un texto dado. La verificación nos exige confrontar el texto dubitado con otros textos indubitados del mismo autor. El proceso de verificación de autoría se hace necesario cuando existen dudas sobre la autoría oficialmente aceptada para un texto. La verificación de autoría es muy frecuente en el mundo real, por ejemplo en casos de falsificaciones. En literatura española, se me ocurre, por ejemplo, el caso de la cervantina Epístola a Mateo Vázquez, cuya autenticidad siempre fue puesta en duda. Otro ejemplo, al acto primero de La Celestina sobre el que siempre existieron dudas de que fuera Rojas su autor.

Por atribución de autoría entiendo la argumentación orientada a elevar una propuesta de autor para un texto dubitado que ha llegado a nosotros anónimo o bajo pseudónimo. Es el caso, por ejemplo, de lo que ocurre con el Quijote de un supuesto Alonso Fernández de Avellaneda, que nunca existió.

Por determinación de autoría entiendo la argumentación orientada a seleccionar uno entre dos o más candidatos a la autoría de un texto. Para la determinación de autoría habremos de confrontar el texto dubitado con otros textos indubitados de los distintos candidatos a la autoría. El proceso de determinación de autoría se justifica cuando existe un debate entre dos o más candidatos a la autoría de un texto, y no existen dudas de que uno u otros de los candidatos contemplados hubo de ser necesariamente su autor.  Un ejemplo de determinación de autoría lo ofrecen diferentes trabajos (entre ellos el mío) para decidir sobre la Historia verdadera de Nuevo México, que firma Bernal Díaz del Castillo, pero que recientemente ha sido atribuida a Hernán Cortés.

Problema

Disponemos de un texto dubitado del que desconocemos quien pudo producirlo. La lengua en la que se emite el discurso es el único elemento con el que el analista cuenta.

Proceso

  1. Perfil lingüístico del texto dubitado: huellas diatópicas, sociológicas, diastráticas, idiolectales (edad, sexo, ideología, tópicos y temas), además de otras competencias culturales y dominio de registros. Se observan en texto dubitado todo tipo de variables (longitud de frase, longitud de párrafo), variables morfosintácticas (por ejemplo, secuencias de categorías sintácticas más frecuentes, relación de contenido OP-OS, OS-OP, OP-OP, posición preferente de adverbios), variables léxicas o semánticas y variables pragmáticas
  2. A partir del perfil lingüístico del texto se establecerá la lista de candidatos a la autoría y se procederá a la obtención de muestras textuales de cada uno de ellos, con el cuidado de que las mismas resulten indubitadas. Se procurará que la extensión de las muestras, el género, etc  estén en consonancia con el texto dubitado.
  3. Se confronta  el perfil verbal del texto dubitado con el perfil verbal que, analizando las mismas variables, ofrecen las muestras textuales de los otros candidatos.
  4. Y se procede a su cuantificación para establecer índices de frecuencia. La confrontación estilística de los textos dubitado e indubitados viene realizándose con éxito desde tiempos inmemoriales en los estudios literarios, pero dicha confrontación no resulta fácil de acometer cuando nos ocupamos de textos de gran magnitud, y sobre todo, este tipo de aproximación ha sido considerada subjetiva  (dos peritos de partes contrarias podían interpretar de manera diferente unas mismas observaciones) y se ha dejado de aplicar en otras ciencias forenses como el ADN, las huellas dactilares o el análisis de la escritura. Y, consecuentemente se ha demandado que el análisis cuantitativo llevado a cabo por métodos probabilísticos y multivariantes pudieran proyectar objetividad  en el análisis de las propiedades cuantificables de muestras conocidas (indubitadas) y desconocidas (dubitadas). Para el proceso de cuantificación, procederemos al análisis:
    1. MFW de stylo
    2. Funciones “classify” y “oppose” de stylo
    3. Táblas y gráficas a partir de datos de LIWC

Herramientas

1. Para trazar el perfil verbal de los textos nos serviremos de muy diversas herramientas, partiendo siempre de LIWC,  y siguiendo con Voyant o Textalyser.

2. Stylo para la confrontación de los textos en debate.

3. CORDE CORPUSDELESPAÑOL como corpus de referencia.

Conclusión

Los enfoques predominantes en los últimos tiempos se basan en el aprendizaje automatico de maquina supervisado. Es decir, trabajamos con un clasificador que confronta las muestras textuales de los autores analizados con  un clasificador que trabaja con diccionarios convenientemente etiquetados y que puede establecer sus predicciones con muy notable porcentaje de acierto y nos permite clasificar a los autores por edad, por sexo, nacionalidad, sicología, ideología, y orientación política.