Cómo obtener datos bibliométricos/bibliográficos para el trazado de redes de citas (I)

Esta es la primera de una serie de cuatro entregas sobre los procedimientos para obtener redes de citas entre trabajos científicos que sean adecuadas para su visualización y análisis. Las siguientes entradas las ofreceré con frecuencia irregular, pero irán llegando.

De hecho, ya he publicado la segunda entrega.

Los documentos científicos hacen mención expresa del uso de las ideas, los métodos, los resultados y otros elementos que toman de trabajos anteriores. Estas menciones se traducen en listas de referencias bibliográficas que enumeran esos trabajos. Las referencias permiten establecer tres tipos de relaciones de cita entre los trabajos fuente (que hacen la referencia) y los trabajos citados.

ebola

El componente gigante de la red de cita directa entre trabajos de investigación del virus Ebola desde 1977. Las comunidades se han coloreado y el tamaño de los vértices el proporcional al grado de entrada (Gephi con Force Atlas 2)

La relación de cita directa se establece entre un trabajo fuente y todos aquellos que menciona y aparecen en su bibliografía.
El enlace bibliográfico relaciona aquellos trabajos fuente con alguna referencia bibliográfica común.
La co-citación se establece entre aquellos trabajos citados que aparecen conjuntamente en las referencias de otros posteriores.
El siguiente esquema ayuda a comprender estos conceptos.

citationnetworks

Las principales relaciones de citas en un esquema original del proyecto Tethne

Las relaciones de citas se pueden representar mediante diagramas o redes de citas. El análisis de estas redes permite averiguar cuál es el significado de las relaciones en un contexto determinado y, eventualmente, avanzar en la descripción e incluso la valoración de los procesos descubiertos.
Los datos bibliográficos necesarios para trazar redes de citas se obtienen mediante tres operaciones básicas:

La definición del conjunto de registros
La identificación de sus relaciones y
La obtención de la red

Además, en una segunda fase se procede a

La visualización de la red y
El análisis numérico de la red y sus componentes.

A continuación introduzco esas operaciones y, después, ofrezco el estudio de un caso para detallar el procedimiento completo.

Obtención de los datos (las operaciones básicas).

El primer paso es definir la disciplina, área o línea de investigación que interesa y luego identificar los conjuntos de documentos que la conforman. En casi todos los casos,  la definición inicial pasa por enumerar un conjunto mayor o menor de términos y construir con ellos perfiles de búsqueda en uno u otro sistema.
Tras obtener, en una o varias rondas, el conjunto de documentos deseados, es necesario obtener también las listas de referencias bibliográficas de cada uno. Si se ha recurrido a un sistema bibliográfico que las incorpora, estupendo. Si se ha recurrido a otro sistema, será necesario conectar de algún modo cada registro obtenido con  su versión en un sistema que incorpore sus referencias. Esta operación concluye con el almacenamiento de los registros en tablas SQL o en otro tipo de soporte estructurado.
La tercera operación consiste en trazar la red de citas entre los documentos recuperados. Y aquí se ofrecen dos opciones. La opción más complicada es elaborar la red por nosotros mismos, partiendo de los registros que hemos descargado en tablas SQL o similar. La opción más cómoda es emplear algún programa que por sí mismo trace la red. Más adelante me referiré a tres o cuatro.

La visualización y el análisis (las operaciones adicionales)

Tras la obtención de los datos, es necesario proceder al examen de la red obtenida y a su análisis cuantitativo, en busca de rasgos que nos permitan caracterizarla.
El punto de partida es un simple archivo de texto que contiene una relación de los nodos (o vértices) de la red, con su identificación y su nombre o etiqueta y una lista de las conexiones (o aristas) entre esos nodos, eventualmente acompañada de valores que indican la intensidad de cada conexión. Este formato recibe el nombre de “formato Pajek” y la extensión “.net”. Es el formato más habitual del archivo resultante de los programas o las aplicaciones que más adelante mencionaré. Si, por el contrario, el archivo es resultante del procesamiento de registros en SQL, la extensión se la adjudicamos nosotros y santas pascuas.
Prácticamente todos los programas de visualización de redes admiten el formato Pajek en la entrada de datos. Y lo mismo sucede entre los formatos de salida.
Con ser importante y muy gratificante la obtención de una buena representación gráfica de nuestra red, sólo es eso: una representación más o menos atractiva. La manipulación de algunos de sus componentes puede arrojar algunas luces sobre su composición y el por qué de su topología, pero para el análisis numérico bien vale recurrir a otro tipo de aplicaciones. Veremos una de ellas a continuación, cuando desentrañemos el caso práctico que he seleccionado.

El tema: la adrenoleucodistrofia

La definición

Mediado 1910, dos médicos  vieneses describieron una esclerosis difusa de la medula espinal en un niño de seis años. Tres años más tarde se comunicó el hallazgo en su cerebro de lo que se definió como “encefalitis periaxial difusa” y, en 1923 E. Siemerling y Hans Gerhard Creutfledt (sí, el mismo de la “enfermedad de las vacas locas”) asociaron a la sintomatología nerviosa la afectación de la médula suprarrenal. Estos datos sólo me sirven para expresar que el tema tiene cierto recorrido histórico además de tratarse, evidentemente, de un tema médico.
Al haber elegido una enfermedad, es lógico recurrir al principal sistema de bibliografía médica, a PubMed.
La ventaja de PubMed, además de su gratuidad, es que es un recurso completo, y puede proporcionarnos información adicional muy útil sobre los temas que manejamos antes de abordar una búsqueda bibliográfica pura y dura. Yo he consultado un par de sus recursos asociados: los encabezamientos de materias médicas (MeSH) y el compendio de descripciones de genes y genotipos OMIM. Sin entrar en excesivos detalles, esto me ha permitido enriquecer mi perfil de búsqueda y asociar los siguientes términos:

Adrenoleukodystrophy (el término principal)
Adrénomyéloneuropathy (el término para la afectación en adultos) y
ABCD1 (el código del gen afectado)

El resultado de la combinación (la suma lógica) de los tres términos es un conjunto de 2168 registros correspondientes a otros tantos artículos de investigación sobre la enfermedad.

La combinación de sistemas

Los sistemas bibliográficos difieren no sólo en su orientación temática; también en el tipo de documentos que incluyen y la forma en que representan su contenido. PubMed aprovecha una larga tradición y una gran experiencia para describir temáticamente el contenido de los trabajos. En la figura siguiente,  la flecha señala una serie de términos etiquetados como MH, encabezamientos médicos que expresan la temática de ese artículo en cuestión. Resulta de grandísima utilidad contar con ellos pero, tal y como advertíamos en los párrafos introductores, es necesario también obtener las referencias bibliográficas, que conectarán cada artículo mediante la relación de citas y referencias.

medline

Un registro de MEDLINE en el formato así llamado donde aparecen los descriptores temáticos asignados al trabajo y el código PMID inicial.

Dos sistemas bibliográficos proporcionan las referencias de casi todos sus registros: Web of Science y Scopus. Ninguno de ellos es gratuito, pero resultan accesibles en muchos países a través de contratos nacionales o institucionales. Es posible identificar un registro procedente de PubMed en estos dos sistemas porque los dos incluyen el código único que identifica cada registro de PubMed. Este código numérico se puede identificar en la primera línea de cada registro (vedlo en el de la figura precedente) con la etiqueta PMID.  La figura siguiente muestra la versión del Web of Science del mismo registro y, justo antes de la etiqueta del final de registro (ER) he señalado con una flecha el código, que aquí se etiqueta con la expresión ‘PM’.

wos

El mismo registro en la Web of Science con el código de identificación de PubMed

Este es el fin de la primera parte de la obtención de datos bibliométricos para el trazado de redes de citas.

Advertisements

3 thoughts on “Cómo obtener datos bibliométricos/bibliográficos para el trazado de redes de citas (I)

  1. Pingback: Cómo obtener datos bibliométricos/bibliográficos para el trazado de redes de citas (II) | Undertakings, studies, and labours

  2. Pingback: Cómo obtener datos bibliométricos/bibliográficos para el trazado de redes de citas (III) | Undertakings, studies, and labours

  3. Pingback: Bellas durmientes y cadáveres excelentes | Undertakings, studies, and labours

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s