Análisis semántico

Los autores también pueden clasificarse en función de la similitud conceptual y semántica.

La mayoría de las investigaciones de atribución de autoría se han centrado en la clasificación basada en un número relativamente pequeño de tipos de características, incluidas las palabras (principalmente palabras frecuentes como preposiciones y artículos), n-gramas de caracteres y parte de las etiquetas de voz. Esto limita la aplicabilidad del análisis de autoría para desarrollar una comprensión más rica de los trabajos en estudio, aunque el análisis en sí mismo puede ser lo suficientemente preciso para preguntas prácticas, pero no ayudan mucho a compreder a los autores. Después de todo, ya creemos que sabemos quién escribió la mayoría de las palabras en el canon literario. En cambio, el interés está en interpretar y comprender una voz autoritaria distintiva. Este artículo explora el uso de conceptos (medidos por el vocabulario de un tesauro) para distinguir entre autores. Mostramos que este método es manejable, que concuerda en gran medida con los otros estudios en este volumen, pero también que produce afirmaciones significativas sobre cómo y por qué dos autores difieren.

La atribución de autoría moderna:

Primero, esa atribución puede hacerse sobre la base puramente del estilo de escritura, “sin prestar atención al significado”. En segundo lugar, se supone que los autores tienen hábitos formalizados de estilo de escritura que persisten en diferentes documentos. En tercer lugar, que la presencia o ausencia de estos hábitos puede detectarse mediante procedimientos simples y métodos estadísticos.

Este análisis es típico de un estudio de atribución de autoría:

  • Reúna muestras escritas de los autores de interés para usarlas como training documents (también conocidos como “documentos conocidos o indubitados”).
  • Extraer características estilísticas (50 palabras más comunes, por ejemplo; aunque se pueden elegir diversos parámetros de análisis) de los training documents.
  • Extraiga las mismas características estilísticas del test document (también conocido como “documento dubitado”).
  • Compare la distribución de características del test document con los diversos training documents (mediante análsis de CP, SVM, Redes neuronales. Etc.).
  • La autoría del test document se atribuye presuntamente al autor cuya distribución de características es más similar.

Características o parámetros válidos para el análisis

 

Palabras, caracteres, puntuación, n-grams, partes del discurso, preferencias de color… Pero casi ninguna de estas caaracterísticas añade un valor interpretativo a nuestro análisis.

Los “conceptos”, las ideas básicas expresadas en los escritos, pueden proporcionar pistas sobre la autoría. Por ejemplo, escribir convincentemente de una ciudad puede requerir el conocimiento de esa ciudad. El catolicismo expresado por las historias ficticias del Padre Brown refleja el propio conocimiento de Chesterton. Estos conceptos están codificados en la historia, al menos en parte, en términos del vocabulario utilizado.

Así, al aplicar una ontología semántica de las palabras utilizadas en una obra, podemos determinar no solo las palabras que una persona escribe sino los conceptos que expresa.

Un Tesaurus es una ontologái conceptual, esto es, una lista de palabras organizadas en conjuntos casi sinónimos que pueden o no organizarse en jerarquías más grandes. Por ejemplo, el Tesauro en inglés de 1911 de Roget (Roget, 1911) enumera lo siguiente como expresión de la idea de “variación”: variación; alteración, modificación, estados de ánimo y tiempos verbales; discrepancia, discrepancia, divergencia; desviación; aberración; innovación. variar; desviarse; divergir; alternativo, desviarse. variado; modificado; diversificado.

El modelado de temas (Underwood, 2012), al igual que un diccionario de sinónimos, busca crear conjuntos de palabras que, colectivamente, describan un concepto. La ventaja del modelado de temas sobre los Tesauros, reside en el hecho de que  los conjuntos que nos devuelve el modelado de temas se definen probabilísticamente en términos de coincidencia: dos palabras están en el mismo conjunto porque cuando una aparece en un documento, la otra probablemente también, y cuando una no aparece, probablemente la otra también.

Nuestra versión de análisis de texto, el Conjecturator, utiliza un enfoque de relleno aleatorio similar para crear conjeturas estadísticamente comprobables en grandes corpus.

Por ejemplo,

  1. las novelas escritas por hombres podrían tener menos usos de adjetivos relacionados con los olores que novelas escritas por mujeres.
  2. Comprobamos esta conjetura en una colección de novelas victorianas confirmó esto.

Actuamos así en casos de determinación de autoría, esto es, discriminación entre dos o tres autores.

  1. Creamos un corpus representativo.
  2. Extraemos de un Tesaurus en linea 30 categorías semánticas
  3. Probamos la frecuencia media de cada una de las palabras de esta categoría en el corpus representivo.
  4. Las comparación entre los usos de dos escritores nos dirá si es “significativa” (en el sentido estadístico), y posiblemente, por lo tanto, si sugiere algo interesante en el sentido del análisis literario.
  5. Si dos autores se diferencian claramente en el porcentaje manifiestan intereses alejados

Conclusiones:

Los resultados presentados anteriormente muestran, en primer lugar, que el uso conceptual se puede medir de una manera computacionalmente manejable. Segundo, el uso conceptual puede ser una característica que distingue a un escritor de otro (y, por extensión, puede distinguir un grupo social de otro). Tercero, el proceso de evaluación del uso del concepto generará automáticamente datos interpretables por humanos que describan las diferencias entre los autores en términos significativos. En palabras de Craig, si podemos distinguir a dos autores, hemos aprendido algo muy significativo sobre ellos: hemos aprendido las ideas que intentan expresar.