Вы находитесь на странице: 1из 10

Google Scholar como herramienta para la evaluacin cientfica

Google Scholar
como herramienta para la evaluacin cientfica
Por Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar
Resumen: Google Scholar es un
buscador especializado en recuperar documentos cientficos y en
identificar las citas que stos han
recibido, convirtindose de esta
forma en un competidor de otros
ndices de citas. Diversos estudios
han tratado de valorar su capacidad como herramienta bibliomtrica. Debido a este inters se
hace una introduccin a su uso
y a sus ventajas e inconvenientes
frente a Web of Science y Scopus.
Primero se analiza su modo de re- Daniel Torres-Salinas es
Rafael Ruiz-Prez es proEmilio Delgado-Lpez-Ccopilar informacin y las propie- doctor en documentacin
fesor de catalogacin en la
zar es profesor de metodoloFacultad de Comunicacin y
ga de la investigacin en la
dades de su interfaz. A continua- cientfica y trabaja como tcDocumentacin de la UniverFacultad de Comunicacin y
cin se describen los resultados a nico de gestin de la investigacin en la Universidad de
sidad de Granada y miembro
Documentacin de la Univerlos que da lugar el buscador. En Navarra, donde realiza audel grupo EC3. Sus lneas de
sidad de Granada y miembro
tercer lugar se analiza la cober- ditoras sobre la calidad y el
investigacin y publicacin
del grupo EC3. Sus lneas de
estn centradas en la evaluainvestigacin se centran en la
tura de fuentes de informacin y impacto de la investigacin.
cin de revistas cientficas y
evaluacin de revistas cientfilos diferentes tipos documentales Asimismo es miembro del
grupo EC3 (Evaluacin de la
en la mejora de sus aspectos
cas y de la ciencia, el estudio
que recoge. Se expone cmo esta Ciencia y de la Comunicacin
normativos. Es uno de los prode la investigacin en ByD, y
cobertura provoca un universo de Cientfica) de la Universidad
motores de In-Recs: ndice de
la evaluacin del rendimiento
Impacto de las Revistas Espacientfico. Es uno de los procitacin diferente al de otros pro- de Granada donde participa
olas de Ciencias Sociales.
motores del ndice In-Recs.
ductos. Finalmente se especifican en diferentes proyectos.
sus problemas de normalizacin y se expone una serie de precauciones a la hora de usarlo como herramienta de evaluacin.
Palabras clave: Google Scholar, Google Acadmico, Web of Science, Scopus, Bibliometra, Indicadores bibliomtricos,
Citas, Publicaciones cientficas.
Title: Google Scholar as a tool for research assessment
Abstract: Google Scholar is a search engine that specializes in scientific information and in the identification of the citations that academic papers receive, making it a strong competitor for other citations indexes. For this reason, several
studies have attempted to evaluate its capacity as a bibliometric tool. Due to this interest, we present an introduction to its
use and the advantages and disadvantages versus Scopus and Web of Science. First, its way of collecting information and
features of its interface are analyzed. The following section describes the results that Google Scholar generates. Thirdly,
we analyze the coverage of information sources and the different document types to be found, showing how this coverage
universe offers different citations versus other products. Finally, we specify the standardization problems of Google Scholar and offer a number of precautions that must be taken into account when using Google Scholar as an evaluation tool.
Keywords: Google Scholar, Google Acadmico, Web of Science, Scopus, Bibliometrics, Bibliometrics indicators, Citations, Scientific publications.
Torres-Salinas, Daniel; Ruiz-Prez, Rafael; Delgado-Lpez-Czar, Emilio. Google Scholar como herramienta para la
evaluacin cientfica. El profesional de la informacin, 2009, septiembre-octubre, v. 18, n. 5, pp. 501-510.
DOI: 10.3145/epi.2009.sep.03

1. Introduccin
En 1998 internet asisti al nacimiento de uno de sus
grandes hitos, el buscador Google, creado por Sergei
Brin y Larry Page.

Desde entonces la historia del buscador es conocida


ya que desbanc al resto de competidores convirtindose en el principal portal de acceso a la informacin y la
verdadera puerta de entrada a internet. Pese a su carcter generalista, se ha convertido en una herramienta in-

Artculo recibido el 11-03-09


Aceptacin definitiva: 24-08-09
El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

501

Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar

sustituible en el campo acadmico ya que gran parte de


la comunidad cientfica lo emplea casi de forma diaria
y sistemtica. Segn Friend (2006), cerca del 72% de
los profesores lo utiliza para la bsqueda de artculos,
lo que evidencia su enorme penetracin. Google Inc.
consciente de su presencia en este sector de usuarios y
del enorme volumen de negocio que supone la informacin cientfica, lanz a mediados de noviembre de 2004
Google Scholar (en adelante GS) o Google Acadmico,
con el fin de proporcionar acceso universal y gratuito a
las publicaciones cientficas.
Es un producto que, a diferencia de las bases de
datos bibliogrficas tradicionales, no vaca contenidos
de revistas sino que rastrea sistemticamente la Web
siguiendo la misma filosofa que Google pero haciendo
converger en una sola plataforma dos servicios. En primer lugar es un buscador de publicaciones cientficas
y, en segundo lugar, es un ndice de citas que ayuda a
conocer el impacto que las publicaciones tienen. Precisamente esta ltima propiedad es la que ms interesa y la que lo convierte en una competencia directa de
otros ndices de citacin como Web of Science (WoS),
de Thomson Reuters, o Scopus, de Elsevier. Por estas
funciones GS se presenta a priori como una aplicacin
ideal para realizar al menos tres tareas:
Buscar el texto completo de un trabajo.
Buscar la produccin bibliogrfica de un autor,
de una revista o sobre un tema.
Buscar las citas que recibe un trabajo (libro, artculo de revista, tesis, informe).

GS es un buscador de obras cientficas


pero tambin es un ndice de las citas que
reciben, convirtindose en un competidor
de WoS y Scopus

En esta ltima funcin radica el enorme inters que


tiene en general para los cientficos que desean conocer
la visibilidad de sus trabajos, y en particular para que
evaluadores de la ciencia y biblimetras puedan suplir
las carencias de WoS y Scopus.
Otra de las particularidades fundamentales es su
gratuidad, marcando una distancia enorme con el resto de proveedores, y ms si tenemos en cuenta el elevado precio de las licencias de las bases de datos. Un
ejemplo: la licencia nacional de WoS que proporciona
la Fundacin Espaola para la Ciencia y la Tecnologa
(Fecyt) para las universidades y organismos de investigacin nacionales tuvo un coste para el trienio 20052008 de 25 millones de euros. En cierta medida Google,

mediante GS, est fomentando un acceso universal a la


informacin cientfica y adems est viendo favorecida esta poltica por el incremento de la presencia de
publicaciones cientficas en acceso abierto, lo que ha
hecho que se haya convertido en el aliado perfecto del
movimiento Open Access.
Ante este panorama GS empieza a emerger como
una alternativa a las bases de datos que tradicionalmente se han empleado para los estudios cuantitativos de la
ciencia. La comunidad bibliomtrica le est prestando
gran atencin tratando de desvelar sus principales funciones. En la mayora de los anlisis realizados, bien
a favor (Harzing; Van-der-Wal, 2008) o en contra
(Jacs, 2005a; 2008b), se intenta calibrar su idoneidad
como herramienta de valoracin de la actividad cientfica y concretamente su impacto.
Por ello presentamos una sntesis de las principales
propiedades de GS, centrndonos en cmo usarlo, en
fijar su cobertura real y en analizar las ventajas y limitaciones que posee para su uso bibliomtrico.
2. Funcionamiento e interfaz
de bsqueda
GS se basa como Google en un robot, Googlebot,
que de forma sistemtica rastrea los contenidos de la
Web, en este caso la Web acadmica, recopilando la
informacin colgada de distintos dominios institucionales pertenecientes a universidades, repositorios, pginas de revistas, bases de datos e incluso catlogos de
bibliotecas.
Una vez identificadas las referencias o los documentos, stos son indizados registrando su descripcin
bibliogrfica e incluyendo adems las citas bibliogrficas cuando se ha localizado el texto completo.
Los formatos que indiza son los habituales en el
campo acadmico como doc o ppt, pero destaca especialmente el pdf seguido del html, aunque tambin
podemos encontrar documentos en postScript. Esta indizacin a texto completo puede no ser del todo cierta
ya que en determinadas ocasiones Google solo indiza
101 KB de los sitios web y lo mismo ocurre, aunque
con mayor tamao, con los documentos en pdf; podemos encontrar documentos en pdf de cierto tamao que
no estn indizados completamente (Price, 2004; Jacs,
2005b). Si efectivamente la informacin y el contenido
relevante, como pueden ser las citas bibliogrficas, se
sitan tras el lmite de indizacin, stas se pierden y no
pueden ser recuperadas.
La interfaz de GS est basada en la proverbial sencillez de Google de manera que no resulta compleja al
usuario: la pantalla principal slo presenta una caja de
bsqueda donde podemos introducir los trminos que
deseamos. Como en Google, disponemos de una serie

502 El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

Google Scholar como herramienta para la evaluacin cientfica

de operadores que pueden ayudar a mejorar la pertinencia de la bsqueda: el operador + permite incluir palabras vacas, OR expandir las bsquedas, filetype:
especificar el formato del documento, - eliminar una
palabra, o el uso de comillas localizar una frase exacta.
Con la opcin de bsqueda avanzada, podemos realizar
bsquedas por tres campos: autor, ttulo de la revista y
ao de publicacin.

GS indiza diferentes fuentes


de informacin y variados tipos
documentales

Junto a estos tres campos reseados, aunque slo


disponible en la versin inglesa, GS presenta un filtro
para limitar los resultados por 7 grandes reas cientficas. Podemos localizar otras prestaciones avanzadas en
el men Preferencias de Google Acadmico donde, por
ejemplo, desde la opcin idioma de bsqueda los textos pueden ser limitados a una lengua concreta. En lneas
generales, la interfaz apunta al minimalismo y huye de
la sofisticacin a la que nos tienen acostumbrados otros
productos; las opciones de bsqueda, a pesar de tratarse
de informacin cientfica, son bastante limitadas sobre
todo si las comparamos con otras bases de datos bibliogrficas. As, WoS cuenta con 12 campos de bsqueda
diferentes (tema, ttulo, autor, grupo, publicacin, ao,
direccin, congreso, lengua y tipo documental, ID proyecto y entidad financiadora) y Scopus incluye hasta 17
campos diferentes (ISSN, DOI, primer autor, etc.). Dichas bases de datos tienen opciones de filtrado de documentos muy completas que incluyen ao de publicacin,
tipos documentales o revistas pudindose adems
obtener informes bibliomtricos de los resultados
como ocurre en WoS con
los Citation Reports.
Convendra subrayar
como una de las limitaciones principales de la
interfaz de bsqueda de
GS la ausencia de una
opcin especfica de bsqueda para la localizacin
directa de las citas que ha
recibido un trabajo o un
autor en un modo similar al que, por ejemplo,
encontramos en WoS con
Cited Reference Search.

Gracias a su exhaustivo rastreo de la


literatura cientfica GS alumbra un corpus
documental que de otro modo sera
difcilmente recuperable

3. Presentacin e interpretacin
de los resultados de bsqueda
Una vez lanzada la bsqueda GS devuelve los resultados que considera ms pertinentes pero hay que
tener en cuenta que slo podrn ser consultados los
1.000 primeros. El algoritmo que ordena estos resultados se sostiene sobre la misma filosofa que el conocido
PageRank, basado en una premisa tomada del mundo
acadmico, donde los trabajos ms citados son tambin
los ms importantes, hacindola extensible al mundo
Web mediante los enlaces.
Sin embargo, se incluye una serie de modificaciones
sobre PageRank para adaptarlo a propiedades y convenciones propias del mundo cientfico y acadmico. As,
a la hora de ordenar los resultados en GS pesan otros
factores. Por ejemplo, se considera el nmero total de
citas recibidas, la disponibilidad del texto completo, el
autor y la publicacin (Maryr; Walter, 2007). Una vez
ordenados los resultados, se muestran en un modo similar al de Google, aunque tienen una lectura diferente.
Resumiendo, podemos encontrar al menos tres tipos de
resultados diferentes (tabla 1):
Enlaces al trabajo a texto completo. En este tipo
de resultado obtenemos un enlace directo a la publicacin original a texto completo al pinchar sobre el ttulo.
Se identifica por una flecha verde y el formato del documento entre corchetes.

Tabla 1. Tipos de resultados que se pueden obtener de GS


El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

503

Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar

ciones de inters son la


capacidad de exportar
el registro a un software
de gestin bibliogrfica
(figura 1, n. 6) o la posibilidad, si tenemos configurada esta funcin, de
localizar el documento
Figura 1. Elementos destacados de un resultado en GS
en una biblioteca gracias
a la tecnologa Link Re Citas extradas de documentos indizados. Los solver (figura 1, n. 7) (Hartman; Mullen, 2008).
resultados vienen marcados con la etiqueta [CITA] y
no presentan ningn tipo de enlace.
Enlaces al documento en su fuente original. El
resultado remite a alguna de las plataformas (repositorios y otras bases de datos) que GS rastrea. El acceso al
documento depende de la plataforma.

GS incluye indiscriminadamente todas


las citas que es capaz de identificar, sin
asegurar su calidad

Todos los resultados, independientemente de su


tipo, presentan una estructura similar (figura 1). En la
zona superior encontramos una breve descripcin bibliogrfica del documento (ttulo, autores, revista/fuente, ao). Entre corchetes se indica ante qu documento
nos encontramos, bien sealando el formato (pdf, html)
o el tipo documental (libro, cita) (figura 1, n. 1). Se indica claramente si GS proporciona un acceso directo al
documento con una flecha, situada en la zona derecha
si el enlace conduce al texto original, o en la izquierda
si redirige a otra fuente que proporciona el documento
(figura 1, n. 2). Tambin muestra cul es el sitio web
del que GS ha extrado la informacin (servidor, repositorio, etc.) (figura 1, n. 3); evidentemente esto no est
disponible para el caso de [CITA].
En la parte inferior proporciona una serie de enlaces. Destaca en primer lugar citado por, donde se
muestra el listado de documentos recopilados por GS
que citan el trabajo (figura 1, n. 4). Un segundo elemento interesante son las versiones (figura 1, n. 5) ya
que agrupa bajo un mismo encabezamiento todas las
versiones que ha localizado de un mismo trabajo, aunque no siempre realiza esta operacin con precisin.
Ejemplos de diferentes versiones de un mismo texto
son los preprints, documentos de conferencias u otras
adaptaciones, dndole a la versin del editor, si se indexa, el carcter de versin principal. La recopilacin
de las versiones facilita la agrupacin de las citas dadas
a un trabajo con independencia de su versin. Otras op-

GS parece indexar cualquier revista,


independientemente de su calidad

4. Cobertura documental de GS
y su impacto sobre la citacin
Una de las propiedades que convierten a GS en un
producto nico e interesante es su amplia cobertura, que
se pone de manifiesto con la indizacin de diferentes
y variados tipos documentales (libros, informes cientfico-tcnicos, working papers informes de trabajo-,
comunicaciones y ponencias en congresos, seminarios
y jornadas, tesis y tesinas, etc.). Por tanto, no se limita
a los trabajos publicados en revistas cientficas, como
en la mayor parte de las bases de datos. Normalmente
el rastreador de GS toma sus registros de sitios donde
la informacin se encuentra en libre acceso o de sitios
comerciales que son procesados con el beneplcito de
los editores, con los que previamente se ha llegado a algn tipo de acuerdo. Para entender la naturaleza de este
producto mostramos algunos de los portales de informacin cientfica que cubre GS (Jacs, 2005a; Meho;
Yang, 2007):
Repositorios: arXiv.org, RePEc, E-Lis o CiteBase.
Portales de revistas: HighWire Press, MetaPress,
IngentaConnect, ACM Digital Library.
Bases de datos: PubMed.
Editores comerciales: Sage, Springer, Taylor &
Francis, Nature, Blackwell, Macmillan, Wiley, Cambrigde University Press.
Sociedades Cientficas: American Physical Society, American Chemical Society, Royal Society of
Chemistry.
Catlogos online de bibliotecas: Worldcat, Dialnet, Institut de lInformation Scientifique et Technique
(Inist).

504 El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

Google Scholar como herramienta para la evaluacin cientfica

difcilmente recuperable
(Robinson; Wusteman,
2007) al menos conjuntamente, y adems permite
hallar trabajos, sobre todo
preprints, mucho antes de
Figura 2. Bsqueda de un libro en GS remitindonos el enlace a Google Books
que aparezcan publica Institutos y centros de investigacin: National Ins- dos en las revistas cientficas comerciales (Schroeder,
titutes of Health, NASA, American Institute of Physics. 2007). Sin embargo, el rastreo automtico e indiscrimado conlleva tambin una importante limitacin: muPor supuesto a estas fuentes habra que sumar los
chos de los documentos indizados distan mucho del
propios productos de Google como Google Patents, y
concepto de acadmico (Noruzi, 2005). No est claro
sobre todo Google Book Project (figura 2), que ha escaqu entiende GS por scholar por lo que en ocasiones
neado ya ms de un milln de ejemplares procedentes
se incluyen entre sus resultados guas de bibliotecas,
de 20.000 editoriales y bibliotecas en ms de cien idiobibliografas de asignaturas o documentos adminismas. Hay que sealar que el 10% de los mismos estn
trativos. Esto se produce debido a que se suele indizar
escritos en espaol. Esto tiene mucha trascendencia ya
toda aquella informacin que cuelga de un dominio
que gran parte de los libros escaneados provienen de
acadmico y el motor es incapaz de distinguir los tipos
los fondos de bibliotecas acadmicas de las universidadocumentales propiamente cientficos o acadmicos
des del ms alto prestigio como Standford, Princeton,
(Friend, 2006). Esta cuestin es importante ya que no
Oxford, Harvard o Cornell o incluso de las colecciones
tiene el mismo significado ser citado por un documento
de los servicios de publicaciones de las universidades
cientfico (libro, artculo, tesis) que por otro que no
como ocurre en el caso de la Universidad de Salamanlo es (programa de una asignatura).
ca. Esta cobertura tan diversa de fuentes de informacin hace que podamos encontrar en GS una gran gama
Asimismo, y esto es muy trascendente desde el
de tipos documentales:
punto de vista cientfico, aparecen mezcladas las citas
provenientes de revistas arbitradas, es decir, las some Libros
tidas a peer review, con otras que no emplean ningn
Artculos en revistas
sistema de seleccin y evaluacin de los manuscritos
que publican. Para Jacs (2008b) esta situacin debera
Comunicaciones y ponencias a congresos
tenerse en cuenta a la hora de construir los indicadores
Informes cientfico-tcnicos
bibliomtricos ya que stos tratan de medir el impacto
Tesis y tesinas o memorias de grado
cientfico a partir de fuentes de acreditada solvencia.
Trabajos cientficos depositados en repositorios Es evidente que GS, al incluir indiscriminadamente todas las citas que es capaz de identificar en cualquier
o archivos de preprints
documento, no puede asegurar ningn control de cali Sitios web gubernamentales e institucionales
dad de la informacin cientfica que presenta. Esta es la
diferencia entre un entorno controlado (bases de datos
Cualquier publicacin con resumen
tradicionales) y uno incontrolado (GS).
Quedan excluidos documentos no cientficos como
Independientemente de los errores que pueda colas reseas de libros y editoriales, libros de texto, perimeter GS en el proceso de indizacin est claro que su
dicos y revistas comerciales.
cobertura documental genera un universo de citacin
diferente al de las otras bases de datos, con una serie de
citas que son exclusivamente suyas. Algunos estudios
Los datos de GS no tienen ninguna
han tratado de valorar el total de citas que puede apornormalizacin, consecuencia de la
tar; por ejemplo Kousha y Thelwall (2007) sobre una
muestra de 882 trabajos de diferentes reas muestran
amplia cobertura, la variedad de fuentes
como GS rescata 5.589 citas a los mismos, mientras
de informacin y el procesamiento
que WoS recuperaba 4.184, con un solapamiento enautomtico de la informacin
tre ambos de 2.387 referencias bibliogrficas (es decir,
el 24% del total de citas es comn a ambas bases de
datos el 57% de WoS y el 43% de GS). Significa por
Una de las ventajas del exhaustivo rastreo de la li- tanto que GS recupera 3.202 citas nicas, aunque tamteratura cientfica de GS es que alumbra un corpus do- bin pierde 1.797 respecto a WoS. Sin embargo, este
cumental antes casi invisible que de otro modo sera solapamiento con WoS vara entre las diferentes reas
El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

505

Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar

cientficas: en biologa, fsica e informtica gira en torno al 60%, mientras que en qumica se reduce al 33%.
Tambin Meho y Yang (2006) sobre 1.093 artculos
de documentacin compararon GS, WoS y Scopus determinando que entre las tres el total de citas nicas
era de 5.288 (figura 3). GS localizaba un total de 4.184
mientras que las otras dos bases de datos conjuntamente slo recuperaban 2.733. El solapamiento fue tambin
del 24% (1.629/6.917).
Los datos por tanto parecen apuntar a que GS recupera un determinado nmero de citas nicas dependiendo de las disciplinas. Junto a esta situacin, hay
indicios adems de que diversos tipos documentales
podran verse favorecidos con mayor citacin como es
el caso de los libros. Harzing y Van-der-Wal (2008)
aportan algunas evidencias hacia una mejor cobertura
de las citas recibidas por libros. As, tomando las diez
monografas ganadoras del Terry Book Award, WoS
identificaba un total de 368 citas recibidas por estos
libros mientras que GS elevaba la cifra hasta 783, lo
cual supone un incremento del 128%. En definitiva,
sabemos que GS no slo es capaz de recuperar ms citas sino que ofrece ms citas nicas. Por ello es muy
relevante conocer con cierta precisin el origen de las
mismas desde una perspectiva documental.
Kousha y Thelwall (2008) en un estudio que recopila los trabajos publicados en 39 revistas de acceso
abierto intentan revelar precisamente a qu tipos documentales corresponden las citas rescatadas por GS y
que no son identificadas por otras bases de datos. Segn los datos de estos autores, de un total de 5.589 citas, el 35% provena de revistas cientficas, el 25% de
congresos/seminarios, un 22% de trabajos depositados

Para la elaboracin de un mismo


ranking bibliomtrico el procesamiento
de los datos con WoS lleva 10 horas, con
Scopus 20 y con GS 300

en repositorios y, por ltimo, un 8% de tesis doctorales.


Matizan adems que en funcin del rea cientfica estos
porcentajes varan. As por ejemplo en fsica las citas
recibidas de eprints/preprints llegan hasta el 48% y en
informtica las de congresos/seminarios se elevan al
43%. Estos datos son interesantes porque efectivamente reflejan que GS se adapta mejor a las prcticas de las
distintas disciplinas, sobre todo aquellas que no utilizan
como va preferente de publicacin las revistas cientficas (humanidades, ciencias sociales, ingenieras).
En el trabajo de Meho y Yang (2006), referido a
documentacin, mientras que el 82% de las citas recuperadas por WoS/Scopus correspondan a artculos de revistas y el 18% restante a congresos, en GS eran del 43%
y 34% respectivamente. Las tesis representaban el 10%,
los libros el 6%, los informes el 5%, y otros documentos
el 4%. Por tanto, las diferencias son claras: GS recupera
citas de muy diversas fuentes, siendo las citas de revistas
y libros, en porcentajes parecidos, las dominantes.
5. Cobertura de GS de revistas cientficas
Pese a la capacidad de incorporar otros tipos documentales las revistas cientficas siguen siendo el medio
fundamental de comunicacin por lo que conviene aclarar cul es la cobertura de GS al respecto. Para lograr
una perfecta cobertura de una revista, GS intenta llegar
a acuerdos con editoriales como ocurre con Science o
Nature Publishing Group, lo cual asegura una correcta
indizacin.
No obstante, no siempre es as: Elsevier, la principal multinacional de la edicin de revistas cientficas en
el mundo, se ha mostrado reticente ya que esta editorial es la que mantiene Scopus, que se puede considerar
competencia directa de GS (Meho; Yang, 2007). Pero a
pesar de ello, segn Bakkalbasi et al. (2006) la mayor
parte de los contenidos de Elsevier son indizados por
terceros como el servicio Ingenta. Que la indexacin de
un grupo de revistas asociadas a un determinado editor
dependa de un acuerdo es delicado ya que por ejemplo
GS tampoco incluye las revistas de la American Chemical Society (ACS).

Figura 3. Ejemplo de Meho y Yang (2006) del solapamiento de


las citas proporcionadas por GS, Scopus y WoS en el campo de la
documentacin

Esta situacin provoca que determinadas disciplinas puedan presentar sesgos de bulto. En el caso de la
qumica, que no est un editor tan determinante como
ACS provoca que de las citas recibidas por 373 art-

506 El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

Google Scholar como herramienta para la evaluacin cientfica

culos publicados en estas revistas GS slo sea capaz


de rescatar 2.804 de un conjunto total de 8.723 citas
recibidas (Bornmann et al., 2009). Un aspecto que
conviene aclarar es que cuando un editor deja que GS
incorpore sus datos no quiere decir que incorpore el
texto completo de sus trabajos y la citacin que generan
los mismos. En la mayor parte de las ocasiones la informacin se reduce a proporcionar una mera referencia
bibliogrfica de los contenidos de las revistas.
En cualquier caso es interesante conocer cul es la
cobertura de GS respecto a otras bases de datos. Hemos
de tener en cuenta que si stas son empleadas como herramienta de evaluacin es esencial conocer el universo
de revistas empleado. En este sentido la poltica de GS
es oscura ya que no proporciona ninguna informacin
de cules son las revistas y qu tipo de indizacin tiene de cada una de ellas; tampoco sabemos a ciencia
cierta cules son los editores que han firmado acuerdos
con GS, informacin fundamental para conocer la validez de cualquier tipo de material cientfico (Bauer;
Bakkalbasi, 2005).
Para solventar este problema las bases de datos bibliogrficas presentan los denominados Master List,
una informacin muy apreciada por bibliotecas y evaluadores. Ante la desinformacin de GS, diversos trabajos han tenido como finalidad la comparacin de su
cobertura con la de otras bases de datos. As por ejemplo Mayr y Walter (2007) estudiaron cuntas revistas
de WoS estn presentes en GS, determinando que del
Science Citation Index (SCI) tiene el 85% (3.244) y del
Social Science Citation Index (SSCI) el 88% (1.666).
Uno de los trabajos que mejor refleja la cobertura
de las revistas cientficas por parte de GS es el conducido por Neuhaus et al. (2006), que comprueba las revistas indizadas en 47 bases de datos de diversos campos.
Estos autores indican que la cobertura de GS de diferentes disciplinas no es homognea: cubre el 10% de
las revistas de humanidades, el 39% de ciencias sociales, el 41% de educacin, el 52% de economa y el 76%
en ciencia y medicina. Por otra parte, en estos anlisis
se revela como GS tiene casi una cobertura total de las
revistas en acceso abierto identificadas por diferentes
directorios y bases de datos como el Directory of Open
Access Journals (DOAJ) o ACM Digital Library. Asimismo GS incluye todas las revistas de Pubmed y Pubmed Central (Neuhaus et al., 2006).
Sin embargo, como hemos comentado con anterioridad, el hecho de que una revista est presente en GS
no significa que se permita el acceso al original ni que
estn indizadas las referencias y citas de dicha revista;
de ah que GS pierda el 40% de la citacin de revistas cientficas de WoS y Scopus (Meho; Yang, 2007).
Por ltimo conviene sealar que mientras en WoS la se-

leccin de revistas se basa en un riguroso proceso de


identificacin de las ms relevantes del mundo, GS no
parece seguir ninguna directriz, por lo que tiene cabida
cualquier revista, independientemente de su calidad.
6. El problema de la normalizacin
y las bsquedas en GS
Consecuencia de la amplia cobertura, la variedad de
fuentes de informacin empleadas y el procesamiento
automtico de la informacin es la ausencia de normalizacin en los datos de GS. Si en las bases de datos en
general ya hay enormes limitaciones en la normalizacin de campos tan bsicos como los autores o las instituciones, el problema cobra aqu mayores dimensiones.
Si comparamos la informacin altamente estructurada
de productos como WoS o Scopus podramos decir que
GS es un autntico banco de datos txico que le resta
credibilidad y le aleja de ser un producto consistente.
Con el fin de orientar ante su posible uso evaluativo
recopilamos algunos de sus errores ms comunes y que
aparecen bien documentados en la literatura cientfica
sobre el tema (Jacs, 2005a, 2005b, 2008a, 2008b).
El principal inconveniente de GS radica en que su
herramienta de indizacin intenta detectar los campos
que componen los documentos de forma automtica,
pero este proceso de identificacin de estructuras no
siempre funciona. En ocasiones se toman como autores de un trabajo elementos constitutivos del cuerpo del
texto: por ejemplo, si desde la bsqueda avanzada introducimos como autor el texto introduccin devuelve un total de 7.160 trabajos (figura 4). En este caso
se toma el inicio de un epgrafe como autor. Una bsqueda por autor con estado de la cuestin da 1.330
resultados; igualmente ocurre con ndice (4.320) o
contenido (6.180). Inexplicablemente el campo autor
presenta otros errores: el trmino i-netlibrary aparece
en 12.200 ocasiones como firmante cuando el trmino
ni siquiera aparece referenciado en los textos. El problema no slo radica en una indexacin automtica sino
en la absoluta ausencia de vocabularios controlados e
ndices (Schroeder, 2007). No hay siquiera un control
de los ttulos de las revistas (por ejemplo aparece tanto
BMJ como British Medical Journal, JAMA y Journal
of the American Library Association) ni de palabras ni
trminos clave como por ejemplo los Medical Subject
Headings (MeSH) de Medline (Shultz, 2007), herramientas fundamentales para la recuperacin pertinente
de informacin cientfica.
Tambin el campo del ao de publicacin provoca errores, y la bsqueda avanzada acotada por aos
genera resultados incomprensibles. En el momento de
la realizacin de este trabajo si buscamos simplemente
el perodo 2006-2008 GS devuelve un total de 93.900
documentos; sin embargo, al ampliar a 2005-2008 se

El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

507

Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar

horas con Scopus y 30 horas si decidimos emplear GS (Meho; Yang,


2007). Esta situacin pone en evidencia que, por el momento, su utilizacin a media y gran escala como
herramienta de evaluacin cientfica
supone un consumo de recursos tan
Figura 4. Problemas de indexacin del nombre de los autores en GS
grande que la inhabilita. Sin embargo, ya empieza a haber algunas solureduce a 89.800. Una bsqueda para el perodo 2004- ciones, como el software Publish or Perish, que facilita
2008 devuelve una cifra de 139.000 documentos, sin en alguna medida la recopilacin y la manipulacin de
embargo una bsqueda entre 2000-2008 reduce los do- datos extrados de GS. Este software ideado por Harcumentos a 109.000. Otro de los inconvenientes de las zing proporciona indicadores asociados a los resultados,
fechas es que a veces son identificadas errneamente y hace posible la elaboracin de rankings por diferentes
tomando como fecha de publicacin del documento la campos y exportarlos a otros formatos como xls. La lifecha de depsito del mismo en un repositorio o in- mitacin principal radica en el elevado coste de limpieza
cluso en otras ocasiones el nmero ISSN de las revis- de datos (normalizacin, eliminacin de duplicados) y
tas. En general, cualquier nmero con cuatro dgitos en que no permite descargar las citas.
es susceptible de ser confundido por GS con el ao de
publicacin.
7. Consideraciones finales
Otro de los inconvenientes encontrados es la enorme presencia de trabajos duplicados en los resultados,
lo que crea confusin. Los duplicados se producen bsicamente por las diferentes versiones que un artculo
puede tener y que GS no ha sabido reagrupar bajo un
mismo encabezamiento de ttulo, por lo que aparecen
como trabajos diferentes. Se pueden duplicar citaciones
al estar presente la versin en preprint de un trabajo indizado en un repositorio y/o en la pgina personal del
autor y la versin final publicada en una revista cientfica. Como consecuencia si comparamos la produccin
de una misma revista en WoS y en GS los resultados difieren bastante, situacin
que no se produce en
otras bases de datos (WoS
o Scopus). Si buscamos
la produccin en 2008 de
una revista como Lancet
GS devuelve 3.250 referencias, Scopus 1.653 y
WoS 1.688. Es decir GS
casi duplica los registros.
La consecuencia de
estas incoherencias es
un enorme aumento del
coste en el tratamiento de
datos derivados de GS.
Para realizar un ranking
bibliomtrico (trabajos,
citas, h-index) de 24 profesores del campo de la
documentacin, con WoS
el procesamiento de los
datos nos lleva 1 hora, 2

Finalmente en la tabla 2, a modo de gua, se recopilan algunas de las particularidades de GS presentadas


a lo largo de este trabajo frente a los ndices de citas
WoS y Scopus. En la misma se evidencia que GS es un
producto ambicioso desde el punto de vista de su cobertura pero mal resuelto en el plano del procesamiento
de la informacin y su presentacin. En cualquier caso
conviene sealar que ninguna base de datos tiene una
cobertura completa de las citas que se emiten y cada
una de ellas presenta un universo completamente diferente. Por esta situacin los ndices de citas disponibles
en la actualidad son productos complementarios entre

Figura 5. Diferentes versiones de un mismo trabajo agrupadas por GS bajo encabezamiento de ttulo nico

508 El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

Google Scholar como herramienta para la evaluacin cientfica


ndices de citas multidisciplinares
(Web of Science; Scopus)

Google Scholar
PRECIO

Libre acceso

Pago de licencias

COBERTURA GENERAL

Falta de transparencia en la cobertura. No se declaran acuerdos con


editoriales ni las fuentes que se indizan

Transparencia absoluta en las fuentes que componen las bases de


datos. Disponibilidad de Master Lists actualizadas

Cobertura de una amplia tipologa de fuentes de informacin: repositorios, bases de datos, sociedades cientficas, catlogos online de
bibliotecas, institutos de investigacin, productos de Google (Google Patents y Google Books)

Posibilidad de encontrar diversos tipos documentales: preprints,


artculos de revistas, libros, tesis, informes, comunicaciones a congresos

Slo cubren los contenidos de revistas cientficas y recientemente


libros de actas de congresos (WoS: Conference Proceedings Citation
Index)

Cobertura de documentos que podran no ser de carcter acadmico: guas de biblioteca, temarios, etc.

Contenidos exclusivamente cientficos y mayoritariamente sometidos a revisin

Buena cobertura de literatura en lenguas nacionales europeas

Dominio de la literatura de carcter anglosajn, especialmente en


WoS

Acceso directo a publicaciones cientficas a texto completo y gratuitas


Acceso directo al documento si la biblioteca lo tiene contratado
Localiza citas emitidas por documentos no cubiertos por otras bases
de datos, especialmente desde preprints, congresos o tesis doctorales. Esta caracterstica lo hace especialmente til para las siguientes
disciplinas: humanidades, ciencias sociales e ingenieras

Acceso slo a la referencia de los artculos


Acceso directo al documento si la biblioteca lo tiene contratado

Slo localiza citas de revistas y congresos

COBERTURA DE REVISTAS CIENTFICAS

No existe ningn tipo de control en la seleccin de las revistas que


indiza, por lo que todo tipo de revistas tiene cabida

Rigurosos proceso de seleccin de las revistas cientficas, especialmente en WoS

Mala cobertura de las revistas de humanidades y ciencias sociales


presentes en otras bases de datos (MLA Bibliography, Philosophers
Index, PsycInfo, Sociological Abstracts)

Tradicional mala cobertura de revistas de humanidades y ciencias


sociales, aunque en la actualidad tienen una poltica de expansin
en estos campos del conocimiento

INTERFAZ, BSQUEDAS y RESULTADOS

Slo ofrece tres campos de bsqueda (autor, revista y ao de publicacin)

Posibilidad de buscar en 12 campos diferentes en WoS y 17 en


Scopus

No tiene ninguna herramienta para analizar resultados

Herramientas de anlisis bibliomtrico on-line como Citation Report


en WoS

Los resultados se presentan directamente ordenados y no existen


otras opciones

Permiten ordenar los resultados segn diferentes opciones (ttulo,


n de citas, fecha de publicacin, primer autor)

Slo permite exportar los resultados, uno a uno, a un software bibliogrfico

Exportacin de los resultados en diferentes formatos (RIS, txt, tabulados, etc.)

Gran coste en el procesamiento de los datos, lo que hace difcil su


uso en estudios de gran escala

Procesamiento de la informacin con menores costes en horas

Posibilidad de exportar los resultados a software de anlisis de datos: Publish or Perish

Posibilidad de exportar los resultados a software de anlisis de datos: Histcite, Refviz, NWB, BibExcel

Slo se muestran los 1.000 primeros documentos recuperados en


cada consulta

Se pueden consultar todos los resultados que genera una bsqueda

Localiza las diferentes versiones de un documento y las agrupa bajo


un mismo encabezamiento de ttulo.

No identifica ante qu tipo documental nos encontramos. Tan slo


identifica los libros

Cada registro est clasificado en un tipo documental (artculo, revisin, carta, nota, recensin, etc.)

Slo incluye el filtrado por 7 disciplinas

Incluyen diversas opciones de filtrado (disciplina, ao, tipo documental) que permiten refinar las bsquedas

Presenta gran variedad de resultados duplicados

CONTROL DE LA INFORMACIN

No existe normalizacin de los autores.

No existe normalizacin pero tienen herramientas para identificacin de autores (WoS=Author Finder)

Ausencia de cualquier de tipo vocabulario controlado. No existe control de las revistas cientficas; stas pueden aparecer indizadas de
diferente forma

Control absoluto de las revistas cientficas

Tabla 2. Comparacin de las principales caractersticas de GS con las bases de datos multidisciplinares WoS y Scopus
El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

509

Daniel Torres-Salinas, Rafael Ruiz-Prez y Emilio Delgado-Lpez-Czar

s. Mientras que hay un cierto consenso entre la comunidad cientfica en el uso de WoS como herramienta de
evaluacin, GS se muestra por el contrario como un
producto inmaduro. Por esta razn se desaconseja su
utilizacin como nica fuente de informacin para la
evaluacin de la ciencia, especialmente en trabajos de
media-gran escala (instituciones, pases).

GS es un producto ambicioso desde el


punto de vista de su cobertura pero mal
resuelto en el plano del procesamiento
de la informacin y la presentacin de
resultados

Ahora bien, creemos que GS es til a nivel micro,


como ayuda a los autores e investigadores concretos
en la bsqueda rpida, fcil y directa de documentos
a texto completo, y en la identificacin de citas a sus
trabajos. Sobre todo es til para la literatura no anglosajona, que es la peor controlada por los sistemas de
informacin dominantes en el mundo de la ciencia,
para las disciplinas que no emplean preferentemente
las revistas como medio de comunicacin (ingenieras,
humanidades, ciencias sociales) y para localizar citas a libros, tesis, informes y a artculos publicados en
revistas secundarias no incorporadas a la llamada corriente principal de la ciencia.
8. Referencias
Bakkalbasi, Nisa; Bauer, Kathleen; Glover, Janis; Wang, Lei. Three
options for citation tracking: Google Scholar, Scopus and Web of Science.
Biomedical digital libraries, 2006, v. 3, n. 7.
http://www.bio-diglib.com/content/3/1/7
Bauer, Kathleen; Bakkalbasi, Nisa. An examination of citation counts
in a new scholarly communication environment. D-Lib magazine, 2005,
v. 11, n. 9.
http://www.dlib.org/dlib/september05/bauer/09bauer.html
Bornmann, Lutz; Marx, Werner; Schier, Hermann; Rahm, Erhard;
Thor, Andreas; Daniel, Hans-Dieter. Convergent validity of bibliometric
Google Scholar data in the field of chemistry. Citation counts for papers that
were accepted by Angewandte Chemie International Edition or rejected but
published elsewhere, using Google Scholar, Science Citation Index, Scopus,
and Chemical Abstracts. Journal of informetrics, 2009, v. 3, n. 1, pp. 27-35.
http://lips.informatik.uni-leipzig.de/files/2009-0.pdf
Friend, Frederick. Google Scholar: potentially good for users of academic
information. Journal of electronic publishing, 2006, v. 9, v. 1.
http://eprints.ucl.ac.uk/1771/1/JEP_OA_GS.pdf
Hartman, Karen; Mullen, Laura-Bowering. Google Scholar and academic libraries: an update. New library world, 2008, v. 109, n. 5-6, pp.
211-222.
http://eprints.rclis.org/13820/1/GSfinalupdate.pdf
Harzing, Anne-Wil K.; Van-der-Wal, Ron. Google Scholar as a new
source for citation analysis. Ethics in science and environmental politics,
2008, v. 8, n. 1, pp. 61-73.
http://www.int-res.com/articles/esep2008/8/e008p061.pdf
Jacs, Pter. As we may search - Comparison of major features of the Web

of Science, Scopus, and Google Scholar citation-based and citation-enhanced


databases. Current science, 2005a, v. 89, n. 9, pp. 1537-1547.
http://www.ias.ac.in/currsci/nov102005/1537.pdf
Jacs, Pter. Google Scholar: the pros and the cons. Online information
review, 2005b, v. 29, n. 2, pp. 208-214.
http://www.jacso.info/PDFs/jacso-google-scholar-pros-and-cons.pdf
Jacs, Pter. Google Scholar revisited. Online information review, 2008a,
v. 32, n. 1, pp. 102-114.
http://www.jacso.info/PDFs/jacso-GS-revisited-OIR-2008-32-1.pdf
Jacs, Pter. The pros and cons of computing the h-index using Google
Scholar. Online information review, 2008b, v. 32, n. 3, pp. 437-452.
http://www.jacso.info/PDFs/jacso-pros-and-cons-of-computing-the-h-index.pdf
Kousha, Kayvan; Thelwall, Mike. Google Scholar citations and Google
web/url citations: a multi-discipline exploratory analysis. Journal of the
American Society for Information Science and Technology, 2007, v. 58, n. 7,
pp. 1055-1065.
Kousha, Kayvan; Thelwall, Mike. Sources of Google Scholar citations
outside the Science Citation Index: a comparison between four science disciplines. Scientometrics, 2008, v. 74, n. 2, pp. 273-294.
Mayr, Philipp; Walter, Anne-Kathrin. An exploratory study of Google
Scholar. Online information review, 2007, v. 31, n. 6, pp. 814-830.
Meho, Lokman I.; Yang, Kiduk. Multi-faceted approach to citation-based
quality assessment for knowledge management. En: World library and information congress: 72nd IFLA General conference and council, 2006.
Meho, Lokman I.; Yang, Kiduk. Impact of data sources on citation
counts and rankings of LIS faculty: Web of Science versus Scopus and Google Scholar. Journal of the American Society for Information Science and
Technology, 2007, v. 58, n. 13, pp. 2105-2125.
Neuhaus, Chris; Neuhaus, Ellen; Asher, Alan; Wrede, Clint. The depth
and breadth of Google Scholar: an empirical study. Libraries and the Academy, 2006, v. 6, n. 2, pp. 127-141.
Noruzi, Alireza. Google Scholar: the new generation of citation indexes.
Libri, 2005, v. 55, n. 4, pp. 170-180.
http://www.librijournal.org/pdf/2005-4pp170-180.pdf
Price, Gary. Google Scholar documentation and large pdf files. 2004.
http://blog.searchenginewatch.com/041201-105511
Robinson, Mary L.; Wusteman, Judith. Putting Google Scholar to the
test: a preliminary study. Program, 2007, v. 41, n. 1, pp. 71-80.
http://www.ucd.ie/wusteman/articles/robinson-wusteman.pdf
Schroeder, Robert. Pointing users toward citation searching: using Google Scholar and Web of Science. Libraries and the academy, 2007, v. 7, n.
2, pp. 243248.
Shultz, Mary. Comparing test searches in PubMed and Google Scholar.
Journal of the Medical Library Association, 2007, v. 95, n. 4, pp. 442-445.
http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=2000776

Daniel Torres-Salinas
Grupo Evaluacin de la Ciencia y la Comunicacin
Cientfica (EC3), Centro de Investigacin Mdica Aplicada, Universidad de Navarra, Avda. Po XII, 31008
Pamplona (Espaa).

torressalinas@gmail.com

Rafael Ruiz-Prez; Emilio Delgado-Lpez-Czar


Grupo Evaluacin de la Ciencia y la Comunicacin
Cientfica (EC3), Departamento de Biblioteconoma
y Documentacin, Universidad de Granada, Campus
Cartuja, 18071 Granada (Espaa)

rruiz@ugr.es
edelgado@ugr.es

510 El profesional de la informacin, v. 18, n. 5, septiembre-octubre 2009

Вам также может понравиться