1.  En primer lugar nos aseguraremos que estamos trabajando con un texto fiable y que no ha sido manipulado por el editor, por ejemplo en un proceso de modernización que no se limita a la ortografía, sino que se extiende también al léxico.

2.  En segundo lugar, regularizaremos a ortografía de nuestro corpus: si trabajamos con textos que responden a diferentes convenciones ortográficas (es el caso de textos medievales, por ejemplo, que han sido editados con criterios ortográficos diferentes, deberemos, antes de nada, proceder a uniformar y regularizar su ortografía, para garantizar que es idéntica para todos los textos de nuestro corpus. Con esta uniformación ortográfica garantizamos que trauajaron y trabaiaron  (>trabajaron) no sean identificadas como dos palabras diferentes sino como una sola y misma voz.

3.  Una vez regularizada la ortografía regularizaremos la codificación de nuestro texto, convirtiendo su formato (Word, pdf, otro) en UTF-8: Aunque muchas de las herramientas que se pueden localizar en nuestro laboratorio de Estilometria admiten textos en cualquier formato, lo preceptivo es convertir los textos objeto de análisis al formato de texto plano (Unicode UTF-8), codificación de caracteres que, a diferencia de ASCI (que al trabajar con códigos de 8 bits no son capaces de codificar todos los alfabetos y escrituras del mundo), la norma Unicode, que es una gran tabla, que en la actualidad asigna un código a cada uno de los más de cincuenta mil símbolos, los cuales abarcan todos los alfabetos europeos, ideogramas chinos, japoneses, coreanos, muchas otras formas de escritura, y más de un millar de símbolos locales. Ello garantiza permanencia en texto objeto de análisis de vocales acentuadas o de las “ñ”.

4. Una vez reducido nuestro texto a Unicode UTF-8 debería ser aceptado, sin elementos de distorsión, por cualquiera de las herramientas de análisis. No obstante, podemos seguir procediendo a limpiar nuestro texto todavía más (existen pequeños, pero muy efectivos scripts que funcionan con la librería de Stylo y que garantizan la fiabilidad de este proceso de limpieza). Por ejemplo:

  1. Asegurarnos que nuestro texto es texto plano
  2. Convertir todo el texto en minúsculas
  3. Quitar los números
  4. Eliminar posibles espaciados anómalos
  5. Eliminar nombre propios (por ejemplo en textos dramáticos)

Cada texto exigirá unas u otras operaciones de “canonicalización”, pero todas ellas deberá el analista justificarlas suficientemente, para garantizar que el “objeto” analizado no ha sido caprichosamente contaminado por nuestras operaciones de regularización.

5. Cada protocolo de análisis exige una determinada organización del corpus, pero en casi todos los casos deberemos contar con un CORPUS DE ANÁLISIS  un CORPUS DE CONTROL o de EVALUACIÓN.  Es especialmente interesante el corpus de control , pues el segundo nos servirá para controlar el porcentaje de acierto del  nuestro análisis.

Observaciones
Y deberá tenerse en cuenta algunas consideraciones que hago a título personal y que se basan en la experiencia y horas de trabajo con diferentes herramientas:

  1. La eliminación de los nombres propios de una obra dramática, si esta tiene una extensión normal, resulta irrelevantes para la mayoría de los procesos de análisis que pueden interesar al crítico, por lo que yo aconsejo mantenerlos.
  2. Salvo en determinados procesos de “Modeling Topic” tampoco el resto de operaciones de cononicalización del textos referidas en el apartado anterior (puntos 2 a 5) son relevantes.