Академический Документы
Профессиональный Документы
Культура Документы
Google Scholar
como herramienta para la evaluacin cientfica
Por Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar
Resumen: Google Scholar es un
buscador especializado en recuperar documentos cientficos y en
identificar las citas que stos han
recibido, convirtindose de esta
forma en un competidor de otros
ndices de citas. Diversos estudios
han tratado de valorar su capacidad como herramienta bibliomtrica. Debido a este inters se
hace una introduccin a su uso
y a sus ventajas e inconvenientes
frente a Web of Science y Scopus.
Primero se analiza su modo de re- Daniel Torres-Salinas es
Rafael Ruiz-Prez es proEmilio Delgado-Lpez-Ccopilar informacin y las propie- doctor en documentacin
fesor de catalogacin en la
zar es profesor de metodoloFacultad de Comunicacin y
ga de la investigacin en la
dades de su interfaz. A continua- cientfica y trabaja como tcDocumentacin de la UniverFacultad de Comunicacin y
cin se describen los resultados a nico de gestin de la investigacin en la Universidad de
sidad de Granada y miembro
Documentacin de la Univerlos que da lugar el buscador. En Navarra, donde realiza audel grupo EC3. Sus lneas de
sidad de Granada y miembro
tercer lugar se analiza la cober- ditoras sobre la calidad y el
investigacin y publicacin
del grupo EC3. Sus lneas de
estn centradas en la evaluainvestigacin se centran en la
tura de fuentes de informacin y impacto de la investigacin.
cin de revistas cientficas y
evaluacin de revistas cientfilos diferentes tipos documentales Asimismo es miembro del
grupo EC3 (Evaluacin de la
en la mejora de sus aspectos
cas y de la ciencia, el estudio
que recoge. Se expone cmo esta Ciencia y de la Comunicacin
normativos. Es uno de los prode la investigacin en ByD, y
cobertura provoca un universo de Cientfica) de la Universidad
motores de In-Recs: ndice de
la evaluacin del rendimiento
Impacto de las Revistas Espacientfico. Es uno de los procitacin diferente al de otros pro- de Granada donde participa
olas de Ciencias Sociales.
motores del ndice In-Recs.
ductos. Finalmente se especifican en diferentes proyectos.
sus problemas de normalizacin y se expone una serie de precauciones a la hora de usarlo como herramienta de evaluacin.
Palabras clave: Google Scholar, Google Acadmico, Web of Science, Scopus, Bibliometra, Indicadores bibliomtricos,
Citas, Publicaciones cientficas.
Title: Google Scholar as a tool for research assessment
Abstract: Google Scholar is a search engine that specializes in scientific information and in the identification of the citations that academic papers receive, making it a strong competitor for other citations indexes. For this reason, several
studies have attempted to evaluate its capacity as a bibliometric tool. Due to this interest, we present an introduction to its
use and the advantages and disadvantages versus Scopus and Web of Science. First, its way of collecting information and
features of its interface are analyzed. The following section describes the results that Google Scholar generates. Thirdly,
we analyze the coverage of information sources and the different document types to be found, showing how this coverage
universe offers different citations versus other products. Finally, we specify the standardization problems of Google Scholar and offer a number of precautions that must be taken into account when using Google Scholar as an evaluation tool.
Keywords: Google Scholar, Google Acadmico, Web of Science, Scopus, Bibliometrics, Bibliometrics indicators, Citations, Scientific publications.
Torres-Salinas, Daniel; Ruiz-Prez, Rafael; Delgado-Lpez-Czar, Emilio. Google Scholar como herramienta para la
evaluacin cientfica. El profesional de la informacin, 2009, septiembre-octubre, v. 18, n. 5, pp. 501-510.
DOI: 10.3145/epi.2009.sep.03
1. Introduccin
En 1998 internet asisti al nacimiento de uno de sus
grandes hitos, el buscador Google, creado por Sergei
Brin y Larry Page.
501
de operadores que pueden ayudar a mejorar la pertinencia de la bsqueda: el operador + permite incluir palabras vacas, OR expandir las bsquedas, filetype:
especificar el formato del documento, - eliminar una
palabra, o el uso de comillas localizar una frase exacta.
Con la opcin de bsqueda avanzada, podemos realizar
bsquedas por tres campos: autor, ttulo de la revista y
ao de publicacin.
3. Presentacin e interpretacin
de los resultados de bsqueda
Una vez lanzada la bsqueda GS devuelve los resultados que considera ms pertinentes pero hay que
tener en cuenta que slo podrn ser consultados los
1.000 primeros. El algoritmo que ordena estos resultados se sostiene sobre la misma filosofa que el conocido
PageRank, basado en una premisa tomada del mundo
acadmico, donde los trabajos ms citados son tambin
los ms importantes, hacindola extensible al mundo
Web mediante los enlaces.
Sin embargo, se incluye una serie de modificaciones
sobre PageRank para adaptarlo a propiedades y convenciones propias del mundo cientfico y acadmico. As,
a la hora de ordenar los resultados en GS pesan otros
factores. Por ejemplo, se considera el nmero total de
citas recibidas, la disponibilidad del texto completo, el
autor y la publicacin (Maryr; Walter, 2007). Una vez
ordenados los resultados, se muestran en un modo similar al de Google, aunque tienen una lectura diferente.
Resumiendo, podemos encontrar al menos tres tipos de
resultados diferentes (tabla 1):
Enlaces al trabajo a texto completo. En este tipo
de resultado obtenemos un enlace directo a la publicacin original a texto completo al pinchar sobre el ttulo.
Se identifica por una flecha verde y el formato del documento entre corchetes.
503
4. Cobertura documental de GS
y su impacto sobre la citacin
Una de las propiedades que convierten a GS en un
producto nico e interesante es su amplia cobertura, que
se pone de manifiesto con la indizacin de diferentes
y variados tipos documentales (libros, informes cientfico-tcnicos, working papers informes de trabajo-,
comunicaciones y ponencias en congresos, seminarios
y jornadas, tesis y tesinas, etc.). Por tanto, no se limita
a los trabajos publicados en revistas cientficas, como
en la mayor parte de las bases de datos. Normalmente
el rastreador de GS toma sus registros de sitios donde
la informacin se encuentra en libre acceso o de sitios
comerciales que son procesados con el beneplcito de
los editores, con los que previamente se ha llegado a algn tipo de acuerdo. Para entender la naturaleza de este
producto mostramos algunos de los portales de informacin cientfica que cubre GS (Jacs, 2005a; Meho;
Yang, 2007):
Repositorios: arXiv.org, RePEc, E-Lis o CiteBase.
Portales de revistas: HighWire Press, MetaPress,
IngentaConnect, ACM Digital Library.
Bases de datos: PubMed.
Editores comerciales: Sage, Springer, Taylor &
Francis, Nature, Blackwell, Macmillan, Wiley, Cambrigde University Press.
Sociedades Cientficas: American Physical Society, American Chemical Society, Royal Society of
Chemistry.
Catlogos online de bibliotecas: Worldcat, Dialnet, Institut de lInformation Scientifique et Technique
(Inist).
difcilmente recuperable
(Robinson; Wusteman,
2007) al menos conjuntamente, y adems permite
hallar trabajos, sobre todo
preprints, mucho antes de
Figura 2. Bsqueda de un libro en GS remitindonos el enlace a Google Books
que aparezcan publica Institutos y centros de investigacin: National Ins- dos en las revistas cientficas comerciales (Schroeder,
titutes of Health, NASA, American Institute of Physics. 2007). Sin embargo, el rastreo automtico e indiscrimado conlleva tambin una importante limitacin: muPor supuesto a estas fuentes habra que sumar los
chos de los documentos indizados distan mucho del
propios productos de Google como Google Patents, y
concepto de acadmico (Noruzi, 2005). No est claro
sobre todo Google Book Project (figura 2), que ha escaqu entiende GS por scholar por lo que en ocasiones
neado ya ms de un milln de ejemplares procedentes
se incluyen entre sus resultados guas de bibliotecas,
de 20.000 editoriales y bibliotecas en ms de cien idiobibliografas de asignaturas o documentos adminismas. Hay que sealar que el 10% de los mismos estn
trativos. Esto se produce debido a que se suele indizar
escritos en espaol. Esto tiene mucha trascendencia ya
toda aquella informacin que cuelga de un dominio
que gran parte de los libros escaneados provienen de
acadmico y el motor es incapaz de distinguir los tipos
los fondos de bibliotecas acadmicas de las universidadocumentales propiamente cientficos o acadmicos
des del ms alto prestigio como Standford, Princeton,
(Friend, 2006). Esta cuestin es importante ya que no
Oxford, Harvard o Cornell o incluso de las colecciones
tiene el mismo significado ser citado por un documento
de los servicios de publicaciones de las universidades
cientfico (libro, artculo, tesis) que por otro que no
como ocurre en el caso de la Universidad de Salamanlo es (programa de una asignatura).
ca. Esta cobertura tan diversa de fuentes de informacin hace que podamos encontrar en GS una gran gama
Asimismo, y esto es muy trascendente desde el
de tipos documentales:
punto de vista cientfico, aparecen mezcladas las citas
provenientes de revistas arbitradas, es decir, las some Libros
tidas a peer review, con otras que no emplean ningn
Artculos en revistas
sistema de seleccin y evaluacin de los manuscritos
que publican. Para Jacs (2008b) esta situacin debera
Comunicaciones y ponencias a congresos
tenerse en cuenta a la hora de construir los indicadores
Informes cientfico-tcnicos
bibliomtricos ya que stos tratan de medir el impacto
Tesis y tesinas o memorias de grado
cientfico a partir de fuentes de acreditada solvencia.
Trabajos cientficos depositados en repositorios Es evidente que GS, al incluir indiscriminadamente todas las citas que es capaz de identificar en cualquier
o archivos de preprints
documento, no puede asegurar ningn control de cali Sitios web gubernamentales e institucionales
dad de la informacin cientfica que presenta. Esta es la
diferencia entre un entorno controlado (bases de datos
Cualquier publicacin con resumen
tradicionales) y uno incontrolado (GS).
Quedan excluidos documentos no cientficos como
Independientemente de los errores que pueda colas reseas de libros y editoriales, libros de texto, perimeter GS en el proceso de indizacin est claro que su
dicos y revistas comerciales.
cobertura documental genera un universo de citacin
diferente al de las otras bases de datos, con una serie de
citas que son exclusivamente suyas. Algunos estudios
Los datos de GS no tienen ninguna
han tratado de valorar el total de citas que puede apornormalizacin, consecuencia de la
tar; por ejemplo Kousha y Thelwall (2007) sobre una
muestra de 882 trabajos de diferentes reas muestran
amplia cobertura, la variedad de fuentes
como GS rescata 5.589 citas a los mismos, mientras
de informacin y el procesamiento
que WoS recuperaba 4.184, con un solapamiento enautomtico de la informacin
tre ambos de 2.387 referencias bibliogrficas (es decir,
el 24% del total de citas es comn a ambas bases de
datos el 57% de WoS y el 43% de GS). Significa por
Una de las ventajas del exhaustivo rastreo de la li- tanto que GS recupera 3.202 citas nicas, aunque tamteratura cientfica de GS es que alumbra un corpus do- bin pierde 1.797 respecto a WoS. Sin embargo, este
cumental antes casi invisible que de otro modo sera solapamiento con WoS vara entre las diferentes reas
El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009
505
cientficas: en biologa, fsica e informtica gira en torno al 60%, mientras que en qumica se reduce al 33%.
Tambin Meho y Yang (2006) sobre 1.093 artculos
de documentacin compararon GS, WoS y Scopus determinando que entre las tres el total de citas nicas
era de 5.288 (figura 3). GS localizaba un total de 4.184
mientras que las otras dos bases de datos conjuntamente slo recuperaban 2.733. El solapamiento fue tambin
del 24% (1.629/6.917).
Los datos por tanto parecen apuntar a que GS recupera un determinado nmero de citas nicas dependiendo de las disciplinas. Junto a esta situacin, hay
indicios adems de que diversos tipos documentales
podran verse favorecidos con mayor citacin como es
el caso de los libros. Harzing y Van-der-Wal (2008)
aportan algunas evidencias hacia una mejor cobertura
de las citas recibidas por libros. As, tomando las diez
monografas ganadoras del Terry Book Award, WoS
identificaba un total de 368 citas recibidas por estos
libros mientras que GS elevaba la cifra hasta 783, lo
cual supone un incremento del 128%. En definitiva,
sabemos que GS no slo es capaz de recuperar ms citas sino que ofrece ms citas nicas. Por ello es muy
relevante conocer con cierta precisin el origen de las
mismas desde una perspectiva documental.
Kousha y Thelwall (2008) en un estudio que recopila los trabajos publicados en 39 revistas de acceso
abierto intentan revelar precisamente a qu tipos documentales corresponden las citas rescatadas por GS y
que no son identificadas por otras bases de datos. Segn los datos de estos autores, de un total de 5.589 citas, el 35% provena de revistas cientficas, el 25% de
congresos/seminarios, un 22% de trabajos depositados
Esta situacin provoca que determinadas disciplinas puedan presentar sesgos de bulto. En el caso de la
qumica, que no est un editor tan determinante como
ACS provoca que de las citas recibidas por 373 art-
507
Figura 5. Diferentes versiones de un mismo trabajo agrupadas por GS bajo encabezamiento de ttulo nico
Google Scholar
PRECIO
Libre acceso
Pago de licencias
COBERTURA GENERAL
Cobertura de una amplia tipologa de fuentes de informacin: repositorios, bases de datos, sociedades cientficas, catlogos online de
bibliotecas, institutos de investigacin, productos de Google (Google Patents y Google Books)
Cobertura de documentos que podran no ser de carcter acadmico: guas de biblioteca, temarios, etc.
Posibilidad de exportar los resultados a software de anlisis de datos: Histcite, Refviz, NWB, BibExcel
Cada registro est clasificado en un tipo documental (artculo, revisin, carta, nota, recensin, etc.)
Incluyen diversas opciones de filtrado (disciplina, ao, tipo documental) que permiten refinar las bsquedas
CONTROL DE LA INFORMACIN
No existe normalizacin pero tienen herramientas para identificacin de autores (WoS=Author Finder)
Ausencia de cualquier de tipo vocabulario controlado. No existe control de las revistas cientficas; stas pueden aparecer indizadas de
diferente forma
Tabla 2. Comparacin de las principales caractersticas de GS con las bases de datos multidisciplinares WoS y Scopus
El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009
509
s. Mientras que hay un cierto consenso entre la comunidad cientfica en el uso de WoS como herramienta de
evaluacin, GS se muestra por el contrario como un
producto inmaduro. Por esta razn se desaconseja su
utilizacin como nica fuente de informacin para la
evaluacin de la ciencia, especialmente en trabajos de
media-gran escala (instituciones, pases).
Daniel Torres-Salinas
Grupo Evaluacin de la Ciencia y la Comunicacin
Cientfica (EC3), Centro de Investigacin Mdica Aplicada, Universidad de Navarra, Avda. Po XII, 31008
Pamplona (Espaa).
torressalinas@gmail.com
rruiz@ugr.es
edelgado@ugr.es