Ingredientes

  • Un texto electrónico para explorar.
  • Nuestro laboratorio Voyant  (también podríamos trabajar con herramientas creadas en RStudio para llevar a cabo operaciones de TOPIC MODELING que han demostrado extraordinario rendimiento). VÉASE TAMBIÉN EN EL “Repositorio” los pasos que deben darse con el “modelado de tópicos” en RStudio.)

El protocolo que seguiremos lo vamos a ejemplificar ahora con Voyant. Este protocolo se aplica a un texto en la identificación de temas dentro de un texto.

DEBATE

Discusión

Encontrar en un texto las posibles fuentes de textos electrónicos (google)

PASOS

Steps

  1. Contar con un texto
  2. Preparar el texto (txt);
  3. Generar un “word list” (sorted by frequency) usando Voyant;
  4. Examinar la lista para ver si llama la atención algo inusual.
  5. Refinar la “word list”, aplicándole un  stop list“;
  6. Re-examinar  la lista en busca de las palabras esperadas o no esperadas;
  7.  Explorar  la CONCORDANCIAde las “keywords”  usando Voyant para encontrar su contexto;
  8. Identify patrones de uso de las palabras con  herramientas de COLLOCATE de Voyant

Usando una lista de palabras puede tener una primera pista sobre la naturaleza del texto. Las preguntas que se le puede pedir de la lista de palabras pueden ser:

1. ¿Cuáles son las preocupaciones fundamentales de este texto?
2. ¿Qué es inusual en el texto?
3. 
¿Hay algún patrón en los tipos de palabras usadas? 
4. Teniendo en cuenta las expectativas, ¿hay palabras que faltan en la lista de palabras?

Glosario

Una Stop list  está formada  por una serie de palabras que usted puede optar por excluir de una operación en particular debido a que considere que sean irrelevantes para su tarea de análisis. 

Si usted busca términos descriptivos, por ejemplo,  puede optar por excluir palabras de función. Su interés puede estar sólo en palabras extraordinarias.

EJERCICIO

Este ejercicio utiliza lista de frecuencias, un servicio de búsqueda de textos, una concordancia y collocación para explorar un tema en particular dentro de un texto.
Se aplica la fórmula estudiada a un ejemplo textual que está disponible gratuitamente en Internet para que pueda completar los pasos por sí mismo y ver los resultados.

Pasos

1. Descárguese un texto  de la red, por ejemplo  sobre la historia de Inglaterra, y prepárelo.
2. Ejecute la herramienta de WORD LIST de Voyant
 para generar una lista de palabras ordenadas por frecuencia. El resultado debe ser similar a la siguiente:

El recuento de palabras

El ——– 3591
De ——- 2057
Y ——— 1360
Para —— 1234
Un ——– 850
Fue ——- 848
En ——– 758
Tenido —-686
Has estado  265
Sé ——— 255
No ——— 246
En ——— 240
En ——— 213
Desde —— 212
Quién —— 201
Ellos ——- 187
Su ———- 174
Todo ——- 153
Rey ——– 139

Las palabras más utilizadas son las palabras de función como ‘el’, ‘a’, ‘no’, etc. Estas palabras  no parecen ser particularmente únicas ni interesantes para definir el tema de un texto (aunque sean valiosísimas para determinar la autoría, por ejemplo), por lo que decidimos eliminarlas.

3. Ejecute la herramienta de WORD LIST de Voyant otra vez, aplicando nuestra Stop list  para excluir de la lista las palabras de función.  El resultado debe ser similar a:

El recuento de palabras

Rey —— 139
Gran —— 115
Parlamento —— 92
Inglaterra —— 86
Casa —— 83
Hombres —— 81
Tiempo —— 75
Gobierno —— 74
Charles —— 73
Poder —— 68
Partido —— 66
Público —— 59
Años —— 57
Francia —— 56
Largo —— 56
Inglés —— 55
Corte —— 54
Commons —— 53
Estado —— 52
Iglesia —— 51
Nueva —— 46
Hombre —— 46
País —— 46

La lista de palabras frecuentes es ahora más sugerene. Palabras tales como: el Rey, Gran, el Parlamento, Inglaterra, Casa, Hombres, Tiempo, Gobierno, Charles, Power, Fiesta, Años, público, destacan inmediatamente.

4. Ahora que hemos encontrado algunas palabras interesantes, vamos a ver cómo estas se utilizan en el contexto. 

Utilizando la herramienta de CONCORDANCIA   de Voyant, localizaremos los lugares del texto en que aparece una palabra en particular.
Esta búsqueda devuelve una lista de las palabras clave y las cinco palabras a cada lado de la palabra objeto de la búsqueda. 

Varios temas y caminos para una mayor exploración emergen de este proceso:

la palabra “tiempo” se produce con frecuencia. ¿Esto sugiere un enfoque en el paso del tiempo o de la importancia del tiempo de la historia que se relaciona? Observe el uso frecuente de las palabras “largo”, “año”, “viejo”, “bueno”, “pasado”, “vida”, “día”, “maquillaje”, “pasado”, “sí”, “pronto” en relación con la palabra tiempo.

¿Hay un tema predominante en este texto? – Tenga en cuenta el enfoque en títulos, ‘rey’, ‘Parlamento’, ‘Gobierno’, ‘Charles, ‘Power’, “Estado”, ‘hombre’, “Nación,’ General ‘,’ Corona’,  ‘Duke’, ‘Royal ‘,’ Head ‘,’ Monarquía ‘,’ jefe ‘,’ alta ‘,’ Señor ‘,’ Príncipe ‘.

5. ¿Cómo se trata  al poder  en el texto? Utilice la herramienta de COLLOCATION  de Voyant para explorar el uso de la palabra “poder”.

Poder se trata no es una entidad única, pero es frecuentemente calificada: “poder espiritual”, “poder temporal”, “poder coercitivo”, “poder arbitrario”, “poder incómoda”, “poder de la espada”, “poder político” .

6- ¿Cuál es la actitud del autor hacia el hombre común? Utilice la herramienta de CONCORDANCIA de Voyant y dé entrada de la palabra “hombre” como objetivo.

Tenga en cuenta que las palabras de los hombres es generalmente menospreciados: ‘peor clase de hombres’, “hombres sin valor'”, “hombres  infelices”, “hombres pequeños”, “hombres merecían clemencia”, “hombres ambiciosos”, “peor conjunto de hombres de la mundo”.

7. ¿Cuál es la actitud del autor hacia la monarquía? Siga el mismo proceso

Tenga en cuenta que el título del Rey es de uso común, pero no el rey Carlos o King James. El nombre propio Charles se utiliza con frecuencia, pero la colocación de King y Charles son raros.

Rey es “detestado”, “disgustado”, “juicio político” – por otra parte, nunca se utilizaron términos “ejecutados”, “asesinado”.

8. La palabra Tribunal está emparejado con una variedad de términos despectivos, ‘aduladores’, ‘ocultos’, “pelearon con”, “… abusados ​​”,” la extravagancia del …”, “la … emocionada y la amarga indignación”, “el vicio y la locura”, “no le gustaba”,” falta de fe de la … ‘,’ sediciosa ‘

9. Los “parlamentarios” se relacionan con  términos positivos: “poder incuestionable”, “debería ser gobernado”, ‘elegidos’, “antiguo poder e indudable”, ‘legalmente’.

Por lo tanto, estas herramientas simples pueden identificar fácilmente los temas de poder, la monarquía, el hombre y la hora común en la historia de Inglaterra.