Perfil combinado de autor

El uso del idioma fue reconocido durante mucho tiempo como portador de información extralingüística diversa, como el período histórico, el dialecto (tanto geográfico como social), el género y la edad del autor, la ideología, etc. Usando más o menos la misma configuración experimental, podemos identificar no solo la identidad del autor, sino también diversas características del autor, tanto biológicas como psicológicas. Este tipo de análisis, llamado perfil de autor, está ganando interés en la comunidad de investigación (ver Reddy, Vardhan y Reddy, 2016 para una revisión actual de la literatura), ya que sus posibles aplicaciones son más amplias que la atribución estándar de autoría.

Trabajaremos con perfiles de autor usando los metadatos disponibles en el corpus de entrenamiento de autores contemporáneos a la obra dubitada. Cada modelo identificará la identidad del autor oculto en términos de género, edad, región y ciudad, clase social. Esta información combinada puede reducir el número de los candidatos, limitándose los candidatos que comparten características con el texto dubitado.

Método

  1. Trabajamos con un corpus seleccionado de obras que comparten idénticas

-fechas de creación,

-extensión sin una gran desviación estándar

-no limitamos la selección a los autores sobre los que previamente se sospecha,

  1. Se convierten los textos en UTF-8.
  2. Dividimos nuestra muestra en fragmentos de 1000 palabras, aumentando así la muestra vectorial considerablemente.
  3. Analizamos los textos a partir de 2 grams y 3 grams de caracteres, y 2 grams de palabra.
  4. Palabras más frecuentes.
  5. Creamos una tabla (1000 x 4) de frecuencia normalizada de 2, 3 caracteres n-grams y 2 palabras n-grams + 1000 MFW
  6. Sometemos la tabla al algoritmo de aprendizaje automático de clasificación, Support Vector Machines (SVM) , trabajando combinadamente

-Primero, creamos un corpus de entrenamiento  por el género (M, F) y sometemos los fragmentos de la obra dubitada a confrontación.

-Luego, creamos un corpus de entrenamiento  por la edad (<40, 40, >40) y sometemos los fragmentos de la obra dubitada a confrontación.

-Luego, creamos un corpus de entrenamiento  por región Castellano, Leonés, Aragonés, Valenciano, Andaluz, Gallego, Vasco, Catalán).

  1. Estos filtros* irán atribuyendo el texto dubitado a hombre o mejor, reduciendo el número de candidatos; el segundo filtro nos conducirá a los candidatos de una región dada; el tercer filtro a un rango de edad y ello reducirá los candidatos a unos pocos, que serán tratados como un grupo cerrado con los que se creará una nueva tabla (4.000 características), a la que se aplicará SMV.

* El número de filtros podría aumentarse (con tablas LIWC)