¿Qué es la estilometría?

En términos muy generales podríamos decir que se trata de una disciplina que nos proporciona herramientas y métodos para el análisis cuantitativo de los textos,  sabiendo que podemos cuantificar  al menos el léxico, las clases de palabras  y las asociaciones de estas palabras en el texto (Bock (1986) y Bock y Loebell (1990)).

Con ayuda del ordenador, basándonos en datos estilométricos y contando con las herramientas adecuadas a cada caso, podemos

  • identificar, con porcentaje muy cercano al 100% (si se dan las condiciones adecuadas) el autor de un texto;
  • definir las peculiaridades del habla de la persona que realizó un determinado escrito;
  • pronosticar, también con porcentajes relevantes, las posibilidades de éxito de una novela los grandes temas que vertebran el sentido de un texto, etc.
  • definir el estado de ánimo, el sexo, la edad, la formación cultural, del autor.

En términos generales podemos decir que la estilometría añade al análisis tradicional de un texto la fiabilidad y la objetividad que la cuantificación garantiza. La intuición del lector cuenta, a partir de los análisis estilométricos, con unos datos objetivos sobre los que construir sus propuestas de lectura de un texto, datos que, además, pueden ser replicados por otros análisis (como ocurre con las ciencias aplicadas o la medicina)

Hoy  la conjunción de ciertos recursos informáticos estadísticos nos permite enfrentarnos a los textos desde ángulos diferentes, y siempre complementarios, a los tradicionales que son esencialmente de carácter lingüístico. Y no sólo estas tres disciplinas (lengua, estadística e informática)  concurren en la implantación y auge de la la estilometría. Desde el campo de la lingüística forense (trazado de perfiles verbales), de la sicología (análisis de los textos para evaluación de estados emocionales de los pacientes), de los estudios de género (análisis de las diferencias expresivas de hombres y mujeres), de la historia literaria (creación de grandes archivos de textos digitales) se han hecho aportaciones sustanciales a la estilometría.

En términos generales podemos decir que la estilometría añade al análisis tradicional de un texto la fiabilidad y la objetividad que la cuantificación garantiza. La intuición del lector cuenta, a partir de los análisis estilométricos, con unos datos objetivos sobre los que construir sus propuestas de lectura de un texto, datos que, además, pueden ser replicados por otros análisis (como ocurre con las ciencias aplicadas o la medicina)

Lectura próxima y distante

Los recursos informáticos estadísticos  con los que hoy cuenta el analista nos permiten enriquecer la lectura próxima (esto es, lectura meditada, o placentera de un texto) con la lectura distante (asistida por la informática y aplicada a grandes corpus de  textos).

Si hasta hace bien poco trabajar con un centenar de novelas era ya empresa titánica, hoy podemos trabajar con cientos de miles de novelas. Y, de esta posibilidad, surge una pregunta: ¿lo digital modifica nuestro conocimiento de la literatura? Antes de contestar a esa pregunta debemos aclarar que lo que sí que modifica es nuestra manera de relacionarnos con la literatura. Los algoritmos con que trabajan nuestras herramientas han cambiado la forma de acercarnos a los textos y el objeto de nuestras búsquedas en ellos. Porque  nuestro análisis en “lectura distante” poco tiene que ver con la vivencia del hecho literario que experimentamos en una “lectura cercana”.

Hemos de tener muy claro que los textos literarios son actos comunicativos, en tanto que convertidos en corpus de análisis dejan de hablarnos, dejan de ser actos comunicativos. A cambio de esta pérdida de significación, los enfoque digitales nos permiten rastrear patrones textuales. Nos permiten  descubrir en el envés de la textualidad formas regulares que se emparejan con situaciones concretas y que nos permiten  predecir acciones sucesivas o futuras. Y estos patrones pueden ser léxicos (bigramas), sintácticos, narratológicos…  Es curioso ver cómo la forma literaria selecciona algunos elementos, los combina y crea un modelo del mundo. Así, por ejemplo, es curioso observar cómo en la estructura Oración Subordinada (OS)-Oración Principal (OP) asocia lugares (OS) y emociones (OP).

La “lectura distante” permite someter a análisis (libre de la subjetividad del analista) varios miles de novelas del periodo de transición de los siglos XIX y XX (novelas canónicas y populares de todo género) y, desde ahí, corregir los limitados panoramas que las historias de la literatura ofrecen, por ejemplo, para lo que en dichas historias se etiqueta como novela realista, novela naturalista o novela modernista, rescatando matices y diferencias que se escapan a la lectura próxima del más avezado historiador (limitados siempre su conocimiento a un corpus mucho más reducido).

Frente a la lectura tradicional basada en la intuición, la estilometría se basa en el dato. Y muchos se asustan ante esta realidad, puesto que para la mayoría de filólogos  (y de los lectores en general) es el “placer” del  texto el que nos guía, al menos en un primer momento, y el que provoca las preguntas que nos hacemos ante el hecho literario: ¿qué nos dice este texto?, ¿cómo formula su mensaje?, ¿a quién se dirige? Y otras muchas, que no es preciso enunciar.

Nunca podremos prescindir de la lectura cercana del texto, si no queremos prescindir del disfrute y vivencia del texto. Pero la estilometría no nos aleja del texto. Al contrario: nos permite encarar el análisis de corpus mucho más ricos y extraer de ellos información para afrontar la lectura cercana con otros pertrechos. El análisis cuantitativo sobre el que se basa la “lectura distante” permite plantearse preguntas como:

  1. ¿El suspense usa los mismos mecanismos en todos los períodos y géneros, y para todos los tipos de lectores, o sus técnicas varían según el tiempo y el lugar? Para contestar a esta pregunta es preciso un análisis comparativo detallado de los textos de “suspense” de más de 200 años.
  2. ¿Qué variedad de discursos (lo que Bakhtin denomina “heteroglosia”) concurren en un texto narrativo y como esta concurrencia varía según las épocas.
  3. ¿Qué términos se asocian con diversos sociolectos a lo largo del tiempo?
  4. ¿Qué conceptos académicos, políticos y sociales se asocian en torno a una palabra, por ejemplo “seguridad”, a lo largo de la historia.

Marco de la razón de verosimilitud

Los análisis estilísticos tradicionales se caracterizan por la subjetividad. Un mismo fenómeno podía ser interpretado de forma totalmente contrario por parte de dos analistas. Bastaba que ese fenómeno para uno de ellos resultase relevante y, en cambio, para el otro no mereciese atención crítica.
Con el marco de la razón de verosimilitud introducido por el Tribunal Supremo de EE.UU después del fallo judicial de 1993, de Daubert v. Merrell Dow Pharmaceuticals, Inc. Estableció unos estándares que los jueces deben utilizar para determinar si los métodos científicos de los peritos son fiables y, por tanto, decidir si la prueba pericial es admitida estableciendo unas Reglas Federales de Evidencia:

a) La metodología debe haber sido probada y debe ser replicable;

b) Debe existir una tasa de error real o probable sobre la técnica aplicada;

c) Deben existir y se deben mantener unos estándares para el control de la aplicación de la técnica;

d) La metodología debe haber sido sometida a revisión y publicación.

Y fueron estos estándares (sobre todo el b) los que determinaron la necesidad de aportar objetividad a los análisis estilísticos, de modo que las conclusiones nunca dependieran exclusivamente de la subjetividad del analista.

Herramientas

Existen numerosísimas herramientas informáticas (que quien lo desee podrá ver comentadas en esta página) preparadas para extraer información de los textos a muy diferentes niveles (fonético, léxico, morfológico, sintáctico, semántico y pragmático) y  llevar a cabo operaciones múltiples con dicha información. Hoy existen algoritmos capaces de comprender que un texto dado pertenece a una novela histórica, distinguiendo de manera inequívoca su estilo del de, por ejemplo, la novela policíaca.

De modo que es posible

  • revisar las categorías literarias (géneros, períodos literarios, estilos) con un ordenador:
  • de la misma manera el ordenador, basándose en datos estilométricos, pude identificar, con porcentaje muy cercano al 100% (si se dan las condiciones adecuadas) el autor de un texto o definir el idiolecto de la persona que realizó un determinado escrito;
  • establecer cuantitavamente el porcentaje de emociones que componen una página, o un capítulo, de un textos dado;
  • trazar el discurso de la línea emocional de una determinada novela;
  • extraer los temas dominantes de un escrito dado, así como el porcentaje en que un tema prevalece sobre otro;
  • pronosticar (con una fiabilidad superior al 80%) si una novela va a tener éxito de lectura o no;
  • distinguir en un texto escrito en colaboración la parte que corresponde a cada una delas manos que en él han intervenido;
  • y en fin, un montón considerable de otras operaciones.

El futuro de la estilometría

Dos cosas llaman la atención y explican por qué los estudios basados en la estilometría (algoritmos, herramientas y métodos para el análisis cuantitativo de textos literarios) se hallan en el ámbito anglosajón varias décadas por delante respecto a las literaturas hispánicas: el trabajo en equipo y los medios disponibles. Pongo un ejemplo: el Literary Lab de la Universidad de Stanford cuenta con un archivo de textos digitalizados que le permite trabajar, por ejemplo, con 200.000 novelas, dando además acceso a multitud de herramientas específicamente diseñadas para trabajar con textos en lengua inglesa entre las que podríamos destacar potentísimos diccionarios con cientos de miles de palabras etiquetadas morfológica, sintáctica y semánticamente. Muchas de estas herramientas sólo están preparadas para trabajar con textos en inglés, o, si son capaces de procesar textos en español, no garantizan idéntica precisión.

Pero no quiero ahora hacer historia ni lamentar las carencias hispanas. Aunque vayamos varios años por detrás respecto a la estilometría anglosajona, son muchas las cosas que con las herramientas de que disponemos podemos realizar. Ya no podemos decir que los estudios estilométricos son incipientes en lengua española. Basta visitar los recursos que ya ofrece el IULA (Institut de Lingüística Aplicada) para constatarlo. Y, así, en una década nadie podrá dedicarse a la literatura sin contar con la estilometría, que frente a la crítica tradicional nos permite trabajar con datos absolutamente objetivos, mensurables y cuantificados (limitando así los errores interpretativos derivados de un enfrentamiento subjetivo);  y, lo que es más importante, la estilometría  hace posible el trabajo con cantidades de texto nunca antes imaginadas. Resumiré lo que pretendo decir en un ejemplo: si una vida apenas da para una lectura cercana y crítica de unas 500 novelas, el ordenador está en disposición de ofrecernos información de 200.000 novelas en unos pocos segundos; realizar en corpus amplísimos búsquedas complejas  de palabras o de patrones complejos de palabras y, con el apoyo de la estadística, pueden  mostrar los resultados en varias maneras.

En resumen: La computadora no reemplaza la interpretación humana, sino que la potencia: Las posibilidades que ofrecen los análisis estilométricos cambian la forma de interpretar los textos  y permiten hacerle a un corpus dado preguntas impensables para un análisis tradicional.

¿Merece la pena el trabajo que exige la estilometría?

¿Merece la pena, si debo dispersar mi esfuerzo en conocimientos como informática o estadística, que tradicionalmente son ajenos al filólogo?

Hoy día las herramientas existente (muchas de ellas “on line”) está preparadas para ser usadas   por cualquiera sin necesidad de conocimientos específicos en las disciplinas mencionadas.

Sin más conocimientos que los alcanzados por los estudios literarios tradicionales, el analista que trabaja con las herramientas de la estilometría puede desde el primer momento interactuar con un texto desde otra óptica: con la estilometría, el análisis de texto se convierte en una práctica de descubrimiento con caminos insospechados.

La mayoría de intuiciones pueden traducirse en elementos cuantitativos objetivados de las intuiciones.

El texto electrónico

La palabra escrita es una de las formas esenciales en que nos comunicamos y preservamos información en lo personal (correos electrónicos, twitter, chats, blogs), en la industria (textos legales), en el mundo académico (novelas, poemarios, etc.).

Hoy la comunicación se produce, o se trasmite al menos, en formato electrónico; accedemos a la comunicación en forma electrónica; y la electrónica también genera sus propias herramientas de creación y de análisis de la información. Podríamos hablar de herramientas de generación automática de textos, herramientas de análisis y herramientas de minería de textos.

¿Qué podemos hacer con los textos electrónicos?​

  • Podemos archivar grandes cantidades de texto y hacer copias fidedignas de estos archivos.
  • Podemos recuperar rápidamente pasajes de una gran base de datos de texto de millones de páginas y ponerlo en relación con temas o ideologías dados.
  • Podemos cuantificar estilo de escritura o tratar de identificar al autor de una obra en disputa por su estilo hasta determinar si se trata o no de una falsificación.
  • Podemos determinar la legibilidad de un texto (importantísimo para la educación, para la industria y para la administración).
  • Podemos comparar obras escritas y establecer su grado de dependencia entre ellas o la direccionalidad de esa dependencia.
  • Podemos buscar, recuperar, manipular, medir y clasificar documentos de lenguaje natural para  seleccionar porciones de texto por patrones y por autor por tema y género o tipo.
  • Podemos trazar el perfil verbal (o sicológico e ideológico) de un hablante y, a través del mismo, analizar su creatividad, su sociolecto, su idiolecto, etc., midiendo la longitud de sus frases, la tasa de repetición, la cantidad de preguntas, giros negativos, muletillas, etc.

Y además…

Explorar el uso de palabras coloquiales  en texto
explorar el uso de la palabra coloquial en su interior usando herramientas como lista de palabras, la concordancia y colocación.

Analizar los fundamentos teóricos en el Texto
explora el uso de la teoría mediante el uso de herramientas como la lista de palabras, la concordancia y colocación.

Explorar el sentido de las palabras en el texto
explora los sentidos de uso de una palabra en un texto mediante la combinación de la búsqueda de sentido y de concordancia y colocación

Supuestos de prueba sobre dependencias sintácticas dentro del texto
explora  las dependencias sintácticas conocidas mediante herramientas como lista de palabras de frecuencia, la concordancia, la co-ocurrencia y colocación.

Extraer guión de diálogo de un discurso
extrae y examina el diálogo de un personaje de una obra de teatro para explorar un discurso particular de una forma lineal.

Comparar textos para verificar la autoría
compara  dos textos para determinar similitudes en la estructura, el uso de la palabra y otros patrones textuales.

Explorar conceptos en un texto
utiliza herramientas como la lista de palabras de frecuencia, la concordancia, la co-ocurrencia y la colocación de explorar un concepto específico.

Visualizar el análisis del texto en Excel
utiliza Microsoft Excel para crear gráficos para ayudar en su interpretación.

Explora cambios en el uso del lenguaje por un particular Escritor
utiliza el Googlizer, listas palabra,  frequencias, concordancias y colocación para explorar cómo el uso de un escritor de lengua cambia durante toda la vida.

Visualizar tendencias de estudiante
utiliza WordClouds y colocación visual para explorar eficientemente tendencias académicas para un concepto particular.

Analizar el discurso de un Blog
utiliza Palabras Lista, Concordancias  y collatios para explorar temas en el discurso de un  blog.