Filología digital
Además de las herramientas de carácter general y de los gestores bibliográficos, se han ido desarrollando numerosas herramientas digitales pensadas para agilizar diversas tareas. La mayor parte forman parte de la lingüística informática y se orientan al trabajo lingüístico o traductivo, aunque otras son puramente filológicas o de apoyo a la edición.
Transcriptio. La transcripción de textos es una de las tareas más mecánicas, pero también donde más errores se insertan en el proceso de fijación o traducción de un texto. Los programas de OCR funcionan cada vez mejor con textos impresos o digitales, pero no sucede aún lo mismo con los manuscritos. Algunas herramientas han llegado para agilizar este proceso, especialmente crítico con los manuscritos, denominadas apps de Reconocimiento de escritura a mano (HWR). Distinguimos las que, como Wacom Banboo Spark, One Note, Evernote Scannable, Good Notes, Notes Plus, etc. están asociadas a los ipads con pencil para reconocimiento de manuscritos digitales. Existen además varias aplicaciones sencillas de transcripción automática: Livescribe Smartpen, tranScriptorium. Las más importantes en las tareas literarias son las aplicaciones de software de transcripción, asociadas a un proyecto y que requieren entrenamiento, que pretenden facilitar tareas paleográficas o filológicas [Ejemplos: las 7 Partidas; ETSO. comedias áureas].
- IMPACT (Improving Access to Text). Desarrollado por la Comisión Europea, ofrece diversas herramientas OCR, de corrección y analizadores.
- Carabela. Indexación probabilística de colecciones de manuscritos. Reconocimiento y búsquedas textuales en colecciones masivas de manuscritos de los siglos XV-XVI en los manuscritos de viajes del Archivo General de Indias y al Archivo Histórico Provincial de Cádiz. Programa desarrollado por la UPV dentro del Pattern Recognition and Human Language Technology (PRHLT).
- Spanish Paleography Digital Teaching and Learning Tool. Herramienta de enseñanza y aprendizaje digital de Paleografía Española (ss. XV-XVIII) desarollada por CUNY sobre documentos de la colonia La Española. Distingue cuatro formas de escritura: cortesana, procesal, encadenada y humanístic. Tutorial.
- Transcribo. Aplicación RCP en Java para PC o mac. de Proyecto del Trier Center for Digital Humanities y del Projekt Arthur Schnitzler.
- Transcribus. Proyecto de la Universidad de Innsbruck. Una vez registrados, permite gestionar colecciones propias, emplear el sistema de transcripción y descargar los resultados en diversos formatos. [Una introducción. | Aprendizaje de uso.]
- DigiPAL (Digital Resource and Database of Palaeography, Manuscripts and Diplomatic).
Cursos y recursos:
- BYU. Script Tutorial Tutoriales para descrifrar manuscritos 1500-1800.Incluye diferentes lenguas, incluida el castellano.
- Conscriptio: Recopilación de cursos, vídeos y recursos.
- Interactive Album of Mediaeval Palaeography. Ejercicios de trascripción de documentos medievales.
- Curso de Paleografía Latino Hispanoamericana. Base de datos que contiene instrucciones sobre cinco períodos de escritura desde la época medieval hasta el siglo XIX.
- Herramienta digital de enseñanza y aprendizaje de paleografía española, CUNY. Recurso interactivo en línea diseñado para ayudar a los usuarios a aprender, descifrar y leer manuscritos escritos en español durante el período moderno temprano, aproximadamente desde finales del siglo XV hasta el siglo XVIII.
- Littera Visigothica. La escritura visigoda es el sistema de escritura medieval característico de la Península Ibérica. Esta web invita a los usuarios a explorar la escritura visigoda desde un punto de vista multidisciplinar. Ejercicios de transcripción.
- Interactive Album of Mediaeval Palaeography. Ejercicios de trascripción de documentos medievales.
- Newberry. French paleography. Más de 100 manuscritos franceses cuidadosamente seleccionados, escritos entre 1300 y 1700, con herramientas para descifrarlos.
- The National Archives, Palaeography. Curso y ejercicios de paleografía en línea (latín, en inglés).
- Interactive Album of Mediaeval Palaeography. Ejercicios de paleografía interactivos a partir de textos en varias lenguas (ss. IX-XV).
- The Scottish Archive, Scottish Handwriting.com. Curso guiado de paleografía en línea (inglés).
- Diane y John Tillotson, Medieval Writing. Curso y ejercicios de paleografía en línea (latín, francés, inglés).
- Universidad de Barcelona-Taedium, Scriptorium. Curso y ejercicios de paleografía en línea (latín, en catalán).
- UC3Mx, Mooc Caligrafía y paleografía: espacios históricos para su estudio y práctica
- Marjorie Burghart, Image markup tool. Software libre de tratamiento de imágenes útil para anotar textos (en Vic Image Markup Tool).
- Dominique Stutzmann, Paléographie. Materiales sobre Paleografía (con tres vídeos) en la revista Ménestrel.
- Marcos García, Fuentes paleográficas latinas (explicaciones y 20 fuentes ttf de pago).
- Atelier national de recherche typographique, Tipos digitales de protorromanas y Gotico-Antiqua.
- Leonor Zozaya, “Cursos online de paleografía: herencias, limitaciones, logros y propuestas”, El profesional de la información, 23, 5 (sept-oct 2014), pp. 475-484. [enlaces]
Collatio y alineación de textos. En crítica textual se denomina collatio a la fase preparatoria de una edición crítica que se lleva a cabo tras la recensio. Se trata de un cotejo sistemático de todos los testimonios existentes de un texto con el fin de localizar errores significativos que permitan relacionas y jerarquizar esos testimonios. La colación permite anotar cuidadosamente todas las variantes, los diferentes errores y alteraciones intencionadas, para crear el apparatus criticus, pero también es la base científica del análisis textual y de la eliminatio. Los trabajos de anáisis y la edición de textos largos que presentan mucha dificultad conducen a realizar una selección de loci critici, lo que no exime del cotejo completo y minucioso de todos los testimonios. La alineación es uno de los recursos fundamentales a la hora de facilitar este cotejar y de mostrar textos para que el lector pueda apreciar estas variaciones. Cuando dos o más ediciones se ofrecen en paralelo, hablamos de ediciones sinópticas. Word y otros tratamientos de texto permiten disponer gráficamente varias columnas en una página, aunque para evitar desplazamientos indeseados del texto suelen representarse dentro de cajas. El programa InDesign permite una gestión de columnas profesional.
En Traducción, algunos programas de paquetes como SDL Trados, Wordfast, SDLX o MemoQ Aligner permiten explotar textos ya traducidos para crear memorias de traducción. Su empleo es una solución eficaz para mejorar la productividad: crea una memoria bilingüe que agiliza la decisión y las búsquedas. También es posible usar a fondo estos programas como herramienta filológica para detectar los problemas y variaciones entre ediciones de un mismo texto.
- Linguee o Reverso Context. Herramientas basadas en ofrecer traducciones en su contexto comparadas.
- WinAlign. Es el programa de alineación más empleado. Tutorial. Vídeo. Vídeo 2.
- Wordfast Aligner. Interfaz parecida al anterior. Es posible descargarse una demo. Tutorial.
- LF Aligner. Alineador automático de código abierto. Interfaz poco user-friendly, pero de uso efiza y sencillo. Reseña.
- Youalign. Aplicación en línea que alinea textos a partir de los documentos que se envíen (word, excel, pdf, html, xml, rtf, etc.) y genera archivos TMX que se pueden cargar en la memoria de traducción.También genera archivos html para publicar en internet, o usarlo en con unmotor de búsqueda de terminología y fraseología en su contexto.
- Juxta. Programa especializada en cotejar y comparar una obra en varias versiones en su mismo idioma, y compartir los resultados. Desarrollado en Java para PC, mac y Unix. Un ejemplo y su Manual de uso.
Stemma codicum y análisis sintáctico. El estema es una representación en forma de árbol jerárquico. En lingüística se emplea, desde Lucien Tesnière (con el nodo en lugar central), para formalizar las estructuras sintácticas. En crítica textual, es el esquema de la filiación y transmisión de testimonios (versiones conservadas o hipotéticas de una obra) desde un original o arquetipo. Representar grafos en árbol no es una tarea fácil con los tratamientos de texto Aquí proponemos varios para mejorar la diagramación. A pesar de las facilidades de la automatización, sigue siendo fundamental la intervención humana en la toma de decisiones.
- PAUP (Phylogenetic Analysis Using Parsimony). Se trata del programa más utilizado para realizar estemas en filogenética computacional. Basado en el principio de economía (ex parsimoniae), desde la versión 3.0 permite una matriz de distancias y métodos de probabilidad. Hay versión para PC, Mac, DOS y Unix. El algoritmo detecta la similitud entre versiones. Preguntas frecuentes.
- Stemweb, del Helsinki Institute for Information Technology HIIT, and Stemmaweb. Ofrece una fórmula algorítmica para crear hipótesis de estemas.
- Byzantini. Código fuente disponible en https://github.com/tla/stemmaweb/ desarrollada por el proyecto Tree of Texts de la Univ. de Lovaina y el proyecto Interedition. Ofrece una colección de herramientas de análisis de textos intercalados.
- The Trees 3 Program. Es el más completo: permite animaciones. Programado por Sean Crist para la Univ. de Pensilvania, es de pago, pero es posible probar una demo.
- LinguisticTree Constructor. De manejo complicado: hay instalarlo y luego definir las relaciones, atributos, especificaciones, etc. de las categorías.
- TreeFormSyntax. Programado por la UBC; hay que instalarlo.
- Phpsyntaxtree, de Eisenbach. El más fácil de usar. No se instala, sino que se emplea en la web. Es el que se utiliza habitualmente para representar árboles sintácticos en internet.
- RSyntaxTree, de Hasebe. Es una copia del anterior con variaciones: permite emplear caracteres asiáticos, tiene alguna opción de tipográficamás y un validador del etiquetado.
Ejercítate. Sigue estos pasos:
- Abrir la aplicación PhpSyntaxTree. Si necesitas caracteres, cópialos en No tengo enie.
- Etiquetar entre corchetes los constituyentes sintácticos o categorías gramaticales (léxicas, funcionales) que se desee identificar, situando delante su valor y un espacio en blanco.
Generar el árbol haciendo clic en «Draw». Avisa del número de corchetes de cierre y apertura, que debe coincidir. Te doy uno ejemplos ya etiquetados:[α [A a][β [B [? φ]][C c]][D d]]
[O [SN/sujJuan][SV [V’ [V piensa] [SP/CCL en la cárcel]][SP en su casa]]]
[O [SV’ [SN/CCT [detEsta] [S mañana]]] [SN/suj [Detel] [N cartero]] [SV’ [V ha entregado] [SN/Cd [Det una] [N carta]] [SP/CI [E a] [Det mi] [N marido]]]]
- Es posible cambiar tipografías, que el dibujo sea en blanco y negro o en color (dibuja constituyentes y subconstituyentes en azul; en rojo, la oración; en negro, la dependencia jerárquica), numerar o no los constituyentes sintácticos que aparecen en varias ocasiones, etc. También puede sustituirse los subconstituyentes por un triángulo: basta con dejarlo sin separar mediante más corchetes.
- Una vez dibujado el árbol, hay que hacer clic en él. Se descarga automáticamente una imagen al ordenador. Basta con insertar la imagen [insertar>Imagen] en el lugar que deseemos del documento de MicrosoftWord (u otro). Es posible retocarlo después: hacer clic en la imagen, ir a Formato y elegir la opción deseada.
Análisis textual. La lingüística computacional aplicada ha desarrollado diversos programas de explotación de textos o de corpora de textos. La gestión de documentos, su categorización e indexación automática permiten crear herramientas muy variadas, desde la minería de datos hasta la creación de programas de lematización, corrección y revisión o flexionadores. Hecha un vistazo al concepto y a resultados en español de Signum o el Molino de Ideas. Algunas aplicaciones en línea son muy sencillas, fundamentalmente son visualizadores, pero otras han evolucionado hacia el análisis académico complejo, como TACT.
- Words. Conjunto histórico de programas de análisis textual desarrollado por Howard P. Iker para la Univ. de Rochester. Permite identificar los temas principales de un texto. Reseña.
- Wordle. El más sencillo de los analizadores gratuitos de palabras. Envías el texto y genera una nube de palabras, cuya frecuencia determina el tamaño. Echa un vistazo al resultado en los discursos inaugurales de las presidencias de los EE.UU.
- WordSmith Tools. Conocido conjunto de herramientas de análisis léxico para PC. Incluye un generador de concordancias, identificador de palabras clave de un texto y un generador de listas de palabras.
- TACT (Textual Analisys Computing Tools). El conjunto de programas más conocido de análisis para MS-DOS. Desarrollado por la Univ. de Toronto, entre otras cosas, incluye un creador de base de datos textual en forma de corpus, un fraccionador del corpus, un sistema de búsqueda y consulta, así como herramientas estadísticas. por ejemplo, permite calcular el número de veces que aparece una palabra en un texto o su distribución. Tutorial. Tutorial.
- ListWords. Herramienta web gratuita, de uso muy sencillo. Se usa para contar palabras de un documento web (html, xlm o rtf) o enviado por el usuario y para generar listas.
- Voyant Tools. Es un conjunto de programas de explotación de textos de uso sencillo, claro y muy visual. Corpus Term Frequencies proporciona rápidamente la frecuencia de palabras y su distribución en un texto. Introducido un texto, ofrece el cómputo de la lista de palabras, y herramientas de visualización: nube de palabras, concordancias, word trends, etc. Voyal Links es una herramienta que construye mapas de palabras, a partir de sus relaciones de proximidad. Echa un vistazo a un resultado práctico bien desarrollado en EcoLexicon.
- Visual Text. Entorno gratuito de desarrollo integrado de sistemas de extracción de información, procesamiento de lenguaje natural y analizadores de texto. La versión Tutoriales.
- Docuburst. Herramienta de visualización web gratuita para explorar el contenido de un texto. A partir de un texto propio o de los proporcionados por otros, DocuBurst presenta un gráfico interactivo de 'rayos de sol radial' que organiza los nombres extraídos del texto según su significado. Los colores muestran la frecuencia y los temas comunes. La visualización muestra los nombres propios (por ejemplo, nombres de personajes) en una nube de palabras. La visualización también proporciona una herramienta de comparación para contrastar el uso la palabra en dos documentos.
- Paper Machine. Extensión de código abierto de Zotero que permite generar análisis y visualizaciones de corpora proporcionado por el usuario, sin necesidad de recursos computacionales extensas o conocimientos técnicos. Tutorial.
- Text Grid. Conjunto de recursos para investigación en Humanidades financiado por el gobierno alemán. Ofrece un repositorio y un el entorno virtual de investigación. Entre otras funciones, permite localizar textos (casi todo en alemán e inglés) y aplicar varias herramientas de análisis, como Voyant.
- Discursis. Herramienta de análisis del discurso humano. Analiza el comportamiento de los usuarios y su interacción con otros, localizando tendencias, liderazgo, conformismo o cambios de comprtamiento. Cuesta 290$, pero ofrece una licencia académica.
- TextArc. Representación visual en java de un texto entero en una sola página. Combina un índice, las concordancias y el resumen.
- Otras 55 herramientas de análisis textual.
- DIRT (Digital Research Tools). Wiki de recursos digitales.
Plagiarismo. Existen varios programas de análisis de textos cuyo fin es detectar el plagio. El más potente y usado por las universidades de todo el mundo es Turnitin. Se trata de un programa en línea de pago, con una gran base de datos de trabajos previos. Realiza un minucioso informe que expresa en procentajes el nivel de plagio y ofrece el enlace a los textos fuente desde donde se copión. CheckText es un comparador en línea y gratuito de textos. Localiza textos que ya existen en la web o en una base de datos y emite un informe estadístico, una nota de legibilidad y las posibles fuentes de plagio.
Editar y etiquetar. Los textos siguen editándose de manera tradicional, habitualmente en un tratamiento de textos. El trabajo con herramientas digitales permite avanzar en varias áreas e incluso combinar en formatos multimedia o variorum de varias ediciones. Muchas de estas ediciones son resultado de un desarrollo particular, pero comienza a haber herramientas en línea para trabajar al menos en una parte del proceso.
- EDIT. Un curso de edición digital del texto de la General Historia. El Taller de Edición de Textos Digitales en la UAM.
- TEI Critical Edition Toolbox [beta]