Vergonzoso de tan simple: de RIS a csv vía Zotero

En más de 30 años dedicado al análisis cuantitativo de los procesos de comunicación y publicación científicas (vulgo análisis bibliométrico) la frase que más he escuchado has sido “el Science Citation Index no cubre la producción científica española” que, andando el tiempo, ha actualizado su contenido, aunque no su significado: “Web of Science no refleja a producción científica española”, “Scopus no cubre la producción científica española” y demás frases equivalentes.
Todas ellas son ciertas, aunque son más verdaderas cuando se matizan: Scopus, WoS (por Web of Science) reflejan en buena medida la producción española en STM: ciencias, tecnología y medicina. También en algunas áreas de las ciencias sociales, como las ciencias económicas y de la conducta. Esto es lógico, puesto que hace tiempo que se obliga a los investigadores españoles a publicar sus trabajos en revistas incluídas en la cobertura de alguno de esos sistemas o los dos: en 2017, WoS incluyó más de 85.000 trabajos publicados en 12.128 revistas diferentes con contribución de grupos de investigación españoles. Pero los investigadores y académicos españoles son mucho más productivos que todo eso.

2017-08-24 11.10.42

Vale, un tanto perjudicada, pero la Feldhase von Dürer

 

El ejemplo de la Historia Moderna

Hará un año que CarolinaC me pidió ayuda para determinar la producción científica de un par de departamentos universitarios de Historia Moderna/Contemporánea. Cuando examiné las fuentes, no me sorprendió averiguar que el investigador más prolífico había publicado dos trabajos según Scopus y nueve según el WoS… pero era autor de 288 publicaciones según Dialnet, el gran sistema bibliográfico español. Parecido contraste existía con los casi 5.000 autores restantes. Descargué los registros de Dialnet en formato RIS y, gracias a un script preparado por FrançoisP obtuve las tablas SQL adecuadas para el análisis de esa información. Si alguien está especialmente interesado, aquí tiene mi contribución.

Un embrollo de siglas

Los archivos csv (comma separated values, o simplemente delimitados por coma) son archivos de texto eran un formato ideal para su transcripción a tarjetas perforadas y para su manejo en los programas de cálculo pioneros, allá por los años 70 y primeros ochenta. Son ideales para representar registros, cada uno presentado como una secuencia de atributos que ocupa una línea. Entre unos y otros atributos, vale cualquier cosa: coma, punto y coma, tabulador y demás. Nunca entenderé por qué sólo algunos sistemas de información bibliográfica y muy pocos gestores personales de esa misma información aceptan el formato csv como soporte de intercambio de registros. Hay quien (como el Hellenic National Documentation Centre) monta APIS y entornos en Java para posibilitar el intercambio entre diferentes sistemas bibliográficos. Hay quien, consciente de las limitaciones de Mendeley, recurre a otro gestor bibliográfico (JabRef) para exportar y eventualmente compartir sus registros a través de csv.Yo soy mucho más limitado.

Aunque es un formato propietario de ISI ResearchSoft (originalmente Research Information Systems) RIS se ha extendido y es admitido y empleado por la práctica totalidad de gestores personales de información bibliográfica, además de por un gran número de bibliotecas digitales y sistemas de información bibliográfica. RIS es lo que se llama un formato “etiquetado” porque presenta en cada línea un elemento precedido de una etiqueta que lo define; así, TY es el tipo de referencia, AU precede a los autores y demás.

ris1

Registros en formato RIS, con las etiquetas de campo precediendo los diferentes atributos. La etiqueta ER (end of record) cierra cada registro y TY (type of record) abre el siguiente.

Dialnet admite la descarga de registros en formato RIS. ¿ Cómo delimitarlos por coma para poder importarlos a tablas SQL y analizarlos sin recurrir a compañeros con sobrecarga de trabajo y sin ahogarse en una sopa de siglas y acrónimos ?

Como siempre: Zotero

Aunque parezca increíble, a veces a uno se le olvida sumar: Zotero puede exportar registros en formato delimitado por comas. Zotero admite la importación de registros en 20 formatos diferentes ¿ So ?. Basta con descargar los registros en RIS, importarlos en Zotero y exportarlos luego en csv para poder capturarlos en tablas SQL. Las fases de este sencillo proceso se muestran a continuación.

zotero2

Desplegable con la lista de formatos que Zotero admite y, al fondo, la lista de registros capturados

Tras la carga en Zotero, basta seleccionar los registros y (botón derecho del ratón) exportar los registros seleccionados. Es muy rica la variedad de formatos de exportación.

 

zotero4

Entre los formatos a que Zotero puede exportar está, claro, el delimitado por comas.

El resultado de la exportación resulta algo decepcionante porque no hay manera de elegir los elementos bibliográficos a exportar y el Dublin Core es muyyyyyyy amplio.

 

csv1

Los registros exportados desde Zotero en formato csv. Las comas simples y las dobles comillas se pueden cambiar con un adecuado procesador de textos.

Finalmente, los registros se pueden incorporar a un sistema de gestión de bases de datos (DBase, Access, FileMaker o, como en este caso, MySQL) para su procesamiento.

 

SQL1

Fragmento de la tabla que contiene los registros.

Siempre será posible, no obstante, eliminar de la definición de tabla los elementos no deseados.

No hay excusas

He iniciado esta nota con un rodeo: hay que manejar varias fuentes para obtener un corpus de documentos que refleje con cierta fidelidad el objeto de estudio. A pesar de las objeciones de sus administradores, Dialnet es una buena fuente de información sobre la investigación española que no está contenida en publicaciones STM. Y sus registros se pueden descargar con facilidad: vía libre para un análisis más exahustivo y fiable de la comunicación y la publicación científica española. Por cierto, una última imagen con alguno de los resultados sobre los investigadores de Historia Moderna.

 

Figure 2

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s