Repositorio

Para facilitar la conservación de las bitácoras y las imágenes, creamos un repositorio de tostadas. Los archivos son guardados en dos formatos: HTML y WARC. El HTML es guardado `headedless` en tanto el formato WARC salva los `headers` y otros metadatos que no son guardados en el HTML plano. WARC, un formato de archivo diseñado por la IIPC y usado por el Internet Archive específicamente para la preservación de información disponible en la Web. Para más información sobre este formato puede consultarse la guía de implementación. La información de los Etherpad es muy compleja de obtener por medio de técnicas como el Web crawler o Web scraping, por lo que estamos experimentando con estrategias para recuperar, almacenar y conservar la información disponible en los Etherpad.