Verificación de autoría

Problema

Necesitamos comparar dos textos para verificar si ambos han sido escritos, o no, por el mismo autor.

Suguiero varias alternativas:

Pasos

1. Obtenemos (por ejemplo con Textalyser o Voyant) los porcentajes de frecuencia de las 15 palabras más frecuentes en un texto (el número de palabras que tendremos en cuenta puede variar en función de lo que el analista considere oportuno: a mayor número de palabras consideradas, mayor precisión) .

2. Elaboramos una tabla de Excel con las frecuencias (15, 20, 40… fenómenos) de los textos objeto de comparación y la guardamos en formato CSV.

3. Importamos esa tabla (en formato CSV) a la libraría de Stylo y observamos si los  componentes  cuyas frecuencias usamos se distribuyen de una manera semejante.

4. Repetimos las operaciones 1, 2 y 3 con los 10 bigramas  más frecuentes (y con otras características analizadas: riqueza verbal, extensión de la frase, media de caracteres por palabras, etc.) de cada uno de los dos textos.

Complemento cualitativo

Como complemento podemos también analizar los casos de verbatim de uno y otro texto (no siempre el tamaño de los textos nos dará opción a esta comparación.

… Y trabajando con grandes CORPUS:

El método que propongo se basa en el procesamiento computacional y estadístico de textos que son independientes, preparándolos para la posterior interpretación del investigador.  El método se basa el análisis de la distancia entre los componentes de un corpus, mediante

-un recuento de palabras

-la comparación de la proporción de frecuencias de palabras entre textos o porciones de texto.

-los recuentos de coincidencias de palabras en textos o porciones de texto.

Pasos:

PLANO LARGO

Primero, consideramos a los autores como una unidad, agrupando todas sus obras como si de un solo texto se tratase;

Segundo, procesamos el léxico del conjunto de autores en una tabla  en la que están representados todos los autores: los autores en columna y las palabras en fila. Las celdas de la tabla contienen la frecuencia de cada palabra en cada autor.

Tercero, a partir de la tabla proyectamos en un plano bidimensional las relaciones entre los autores sobre la base de sus coincidencias léxicas (tendencia a usar las mismas palabras);

Cuarto, observamos cualitativamente si aquellos autores que el análisis léxico aproxima tienen otras coincidencias, de edad, lugar de nacimiento, clase social, etc.

PLANO CORTO

Primero, creamos una nueva tabla con las novelas individualizadas en columna y las palabras en fila, con expresión de las frecuencias léxicas en las celdas resultantes.

Segundo, observamos cualitativamente si aquellos novelas de un mismo autor se agrupan en función del léxico y si se aproximan a otras novelas de otros autores (próximas también en género, etc.).

Tercero, extraemos los temas de cada una de las novelas (con modeling topic) y procedemos a la comparación.

CONCLUSIÓN: En función de la congruencia.

Herramientas

En realidad, nos sirven para la verificación de autoría las mismas herramientas que hemos utilizado en los casos de determinación o de atribución de autoría, pues seguramente habremos de seguir  varios de los pasos allí señalados, pero he preferido remitir aquí a enfoques alternativos. Al final siempre se derivarán, sígase el camino que se siga, en una tablas de frecuencia que nos permitirán objetivar la comparación entre los texto objeto de análisis.