Вы находитесь на странице: 1из 19

Anlise Quantitativa da Cultura

atravs de milhes de livros digitalizados


Introduo
Cinco milhes de livros digitalizados (4% de todos os volumes j impressos) foram reunidos numa
base de dados. possver realizar anlises a partir desta base para investigar tend!ncias culturais" de
um ponto de vista #uantitativo. $ Cultur%mica estende as fronteiras da pes#uisa #uantitativa para
um amplo espectro de novos fen%menos sob a abrang!ncia das ci!ncias sociais e das humanidades.
& artigo apresenta os resultados de pes#uisas neste vasta rea" focando em fen%menos culturais e
lingusticos #ue se refletem na lngua inglesa em dois s'culos ( entre )*++ e ,+++.
-al abordagem permite insights sobre diversos campos. /e0icografia" evolu12o da gramtica"
mem3ria coletiva" ado12o de tecnologias" a busca pela fama" censura e epidemiologia hist3rica
Justificativa
4es#uisadores fazem poderosas infer!ncias sobre tend!ncias do pensamento humano a partir da
leitura de pe#uenas cole1es de trabalhos cuidadosamente selecionados. Contudo" raramente essa
abordagem permite medi1es precisas do fen%meno subjacente
-entativas de introduzir m'todos de anlise #uantitativa no estudo da cultura tem sido dificultados
por falta de dados ade#uados
A coleo
& documento reporta a cria12o de um corpus composto de mais de 5 milhes de livros digitalizados"
contendo 4% de todos os livros j publicados.
& Corpus emergiu do trabalho da 6oogle de digitaliza12o de livros. 7uitos livros foram tirados de
4+ bibliotecas universitrias ao redor do mundo. Cada pgina foi scaneada com e#uipamento
personalizado. $ digitaliza12o foi feita atrav's de &C8 (reconhecimento 3tico de caracteres) .
9ditoras contriburam com volumes adicionais (fsicos e digitais). 9ditoras e bibliotecas forneceram
metadados descritivos de data e local" suplementados com bancos de dados bibliogrficos. 7ais de
)5 milhes de livros foram digitalizados ( ),% de todos os livros j publicados.
:m subconjunto de mais de 5 milhes de volumes foram selecionados para anlise" com base na
#ualidade do &C8 e dos 7etadados. 4eri3dicos foram e0cludos. &s materiais e m'todos est2o
disponveis na ;cience &nline.
Dados
& corpus resultante cont'm 5++ bilhes de palavras. <=) bi em ingl!s" 45 bi em >ranc!s" 9spanhol
45 bi" $lem2o <? bi" Chin!s )< bi" 8usso <5 bi" @ebraico , bi. &s trabalhos mais antigos foram
publicados nos anos )5++" representados por apenas alguns poucos livros por ano" compreendendo
centenas de milhares de palavras. 9m )*++ o corpus cresceu para =+ milhes de palavras anuaisA
9m )B++ ( )"5 bilh2o e em ,+++ ( * bilhes
& corpus n2o pode ser lido por um humano. a uma velocidade de ,++ palavras por minuto" sem
interrup1es para comer ou dormir" seriam necessrios * anos para todas as entradas do ano ,+++
serem lidas. $ se#u!ncia de letras ' mil vezes mais longa #ue o genoma humano. ;e escritas numa
Cnica linha iriam D lua e voltavam mais de )+ vezes.
Escopo
4ara #ue a produ12o de dados fosse possvel D luz das restri1es de copEright o estudo foi restrito D
#uest2o da fre#u!ncia de uma dada unidade ao longo do tempo. 9ssa unidade ' o )(grama ou
n(grama" sendo #ue )(grama F um conjunto de caracteres consecutivo sem espa1osA e G(grama F
uma se#u!ncia de )(gramas. & estudo limitou(se D varivel G em at' 5 e Ds ocorr!ncias acima de
4+0 no corpus (base de dados)
$ frequncia de uso ' computada pela divis2o do nCmero de ocorr!ncias de um n(grama pelo total
do nCmero de palavras no corpus no mesmo ano.
e0emplo. em )*=) o )(grama Hescravid2oH apareceu ,)"4=+ vezes" em ))"=*? pginas )",+*
livros. & corpus continha <*="4<4"?5* palavras em )*=)A ent2o a fre#u!ncia foi de 5.50)+ .
& termo atingiu o pice durante a guerra civil ()*=+) e durante o movimento pelos direitos
civis ()B55()B=*).
9m contraste" comparou(se a fre#I!ncia de H6rande 6uerraH" com as de H6uerra 7undialH e
HJJ 6uerra 7undialH. & primeiro teve picos entre )B)5 e )B4). 7as" apesar de sua fre#I!ncia
cair depois disso" o interesse nos eventos subjacentes n2o desapareceu. passaram a ser
referidos como HJ 6uerra 7undialH
9stes e0emplos ilustram dois fatores centrais #ue influem nas tend!ncias cultur%micas. o cultural e
o lingustico. $ mudan1a cultural influi nos conceitos (como em Hescravid2oH). $ mudan1a
lingustica (#ue tem razes culturais) afeta as palavras utilizadas para e0pressar os conceitos.
& artigo e0amina ambas as mudan1as ( na lngua (mudan1as do l'0ico e na gramtica) e no cenrio
cultural ( tal como a maneira como lembramos de pessoas e eventos.
-odo o conjunto de dados" #ue compreende mais de , bilhes de trajet3rias cultur%micas" est
disponvel para doKnload e e0plora12o em KKK.culturomics.org
Estudos de caso
O tamanho do lxico da lngua inglesa.
$ #uantidade de palavras e0istentes em um dicionrio ' menor do #ue a #uantidade de palavras #ue
realmente s2o usadas na lngua" e nos livros. Lois importantes dicionrios M N< e $@L4
)
M listam
348,000 e 116,161 palavras" respectivamente. 9stas palavras ocorreram no corpus digitalizado com
uma fre#u!ncia maior do #ue ) por bilh2o. 4artindo deste parOmetro designou(se o 1-grama comum
e elaborou(se uma lista de todos os )(grama com esta ta0a de fre#u!ncia na d'cada precedente aos
anos de )B++" )B5+ e ,+++. 9sta lista continha 111!""! 1-gramas comuns em )B++" 110#"#0 em
)B5+ e 148"33! no ano ,+++.
9sta diferen1a acontece por#ue os dicionrios normalmente e0cluem nomes pr3prios e palavras
compostas" e por#ue precisam regularmente fazer um balan1o entre a abrang!ncia (para ser Ctil) e a
concis2o (para ser impresso). Leriva da a omiss2o de palavras pouco usadas ou ainda n2o
documentadas.
4ara estimar o nCmero de palavras e0istentes na lngua inglesa foram produzidas amostras
aleat3rias a partir da lista de 1-gramas comuns e e0cetuada a fra12o de palavras #ue n2o pertencem
D lngua inglesa ()(gramas #ue continham caracteres n2o alfab'ticos" erros ortogrficos e palavras
estrangeiras). >oram obtidos os seguintes resultados. $44,000 palavras em 1"00" $"!,000 em 1"$0"
e 1,0##,000 no ano #000. 8evelou(se" assim" #ue o l'0ico ingl!s vem e0perimentando forte
crescimento. *.5++ novas palavras por ano representaram um acr'scimo de ?+% nos Cltimos )5
anos
) NebsterPs -hird GeK Jnternational LictionarE (N<) e $merican @eritage LictionarE of the
9nglish /anguage" >ourth 9dition ($@L4). $crescente(se tamb'm o &9L ( &0ford 9nglish
LictionarE
Gove, Philip Babcock, ed !ebster"s #hird $e% &nternational 'ictionar( o) the
*nglish +anguage, ,nabridged -pring)ield, .A/ .erriam0!ebster, 1223
Pickett, 4oseph, P ed #he American 5eritage 'ictionar( o) the *nglish
+anguage, 6ourth *dition Boston 7 $e% 8ork, $8/ 5oughton .i))lin Pub, 9:::
-impson, 4 A, * - C !einer, and .ichael Pro))itt, eds ;<)ord *nglish
'ictionar( ;<)ord =*ngland>/ Clarendon, 1223

4ara medir #u2o bem os dicionrios refletem o l'0ico" foram ordenadas as entradas para o ano ,+++
pela fre#u!ncia" dividindo o conjunto em * decis (de )+ M )+ a )+ Q M )+ R) e retiradas
amostras de cada um. >ez(se ent2o uma checagem manual de #uantas destas palavras da amostra
eram listadas nos dicionrios. -ando o 7NL
,
#uando o &9L possuam uma e0celente cobertura
das palavras de alta fre#u!ncia" mas uma abrang!ncia menor para palavras com fre#u!ncia abai0o
de )+ M =?% das palavras do oitavo decil )+ M )+ n2o foram listadas em nenhum dicionrios

&u seja" a maior parte das palavras do l'0ico (=<%) s2o de bai0a fre#u!ncia de uso. 9stima(se"
portanto" #ue 5,% do l'0ico presente na maioria dos livros consiste de palavras n2o documentadas
nos dicionrios.
, 7erriam(Nebster :nabridged LictionarE
Licionrios precisam ser atualizados regularmente. ;empre haver um lapso entre o l'0ico e o #ue
os le0ic3grafos s2o capazes de detectar. 9studando as ,.+?? palavras adicionadas ao $@L4 em
,+++ foi possvel e0aminar #u2o bem essas mudan1as correspondem ao uso corrente da lngua.
( 7ais da metade das palvavras adicionadas ao $@L4 j eram parte do l'0ico um s'culo antes
(fre#u!ncia maior #ue )+ na Cltima d'cada do s'c. SJS).
( $lgumas novas palavras j haviam come1ado a declinar sua curva de fre#u!ncia de uso.
$l'm do trabalho de evitar adicionar palavras #ue est2o saindo de moda os le0ic3grafos precisam
limpar as palavras obsoletas de edi1es anteriores.
&s resultados da pes#uisa sugerem #ue os instrumentos da cultur%mica poder2o au0iliar os
le0ig3grafos em pelo menos duas formas. encontrando palavras de bai0a fre#u!ncia #ue eles n2o
est2o listando e oferecer estatsticas acuradas das curvas de fre#u!ncia de uso das palavras para
reduzir o lapso entre as mudan1as do l'0ico e do dicionrio.
A evoluo da gramtica
Go Ombito das tend!ncias gramaticais foram estudados os
verbos irregulares (um modelo clssico para o estudo das
mudan1as neste campo). Ga lngua inglesa os verbos
regulares s2o conjugados no passado pela adi12o do sufi0o
(ed" en#uanto os irregulares o s2o de forma idiossincrtica"
mas todos eles coe0istem e competem com formas
regulares. >ormas irregulares de alta fre#u!ncia perduram
por#ue s2o mais facilmente lembradas.
$ regularidade de um verbo foi definida pela porcentagem
de variantes do pret'rito (a soma de TdrivedU" TdroveU" and
TdrivenU) na #ual a forma regular ' usada. $ maioria dos
irregulares manteve(se estvel nos Cltimos ,++ anos" mas
)=% sofreu mudan1as em sua regularidade em torno de )+%
ou mais.
9ssas mudan1as acontecem lentamente ( o verbo #ue se
moveu mais rpido (chide) passou de )+% a B+% em ,++
anos. Cada trajet3ria ' Cnica ( n2o se observou #ual#uer
tend!ncia caracterstica. alguns verbos regularizam(se numa
velocidade constante en#uanto outros transitam em saltos e
ajustes 9m alguns casos a trajet3ria sugere uma raz2o
especfica para a tend!ncia.
9mbora geralmente as formas irregulares tornam(se
regulares" dois verbos fizeram o caminho oposto. lightVlit e
KaWeVKoWe. $ regulariza12o de algumas formas
originaram(se nos estados unidos" e de maneira geral este
pas lidera a e0porta12o tanto de formas regulares #uanto de
irregulares




Fora com o velho
$ssim como indivduos es#uecem o passado" assim tamb'm as sociedades. 4ara #uantificar esse
efeito estudou(se a fre#u!ncia de )(gramas como H)B5)H para medir o interesse em eventos
ocorridos nos respectivos anos" e definiram(se parcelas para cada ano entre )*?5 e )B?5
9ssas parcelas possuem formas comuns" caractersticas. raramente s2o mencionados at' os anos #ue
lhe s2o imediatamente precedentes. $ fre#u!ncia disparou no respectivo ano e mantem(se alta por
uns < anos. 9nt2o sofre uma #ueda brusca" diminuindo D metade nos )5 anos seguintes. 7as
algumas mudan1as tem acontecido. a amplitude das parcelas cresce a cada ano" datas precisas s2o
cada vez mais comuns.
@ tamb'm um grande foco no presente. T)**+U" por e0emplo" desceu de sua fre#u!ncia mais alta D
metade <, anos depois ()B),). 9m contraste" )B?< atingiu essa mesma marca apenas )+ anos
depois. 9s#uecemos nosso passado cada vez mais rpido.


& estudo aponta para a curiosidade de #ue esta crescente tend!ncia a es#uecer o velho '
acompanhada por uma ainda mais rpida assimila12o do novo. (,)). :ma lista de )54 inven1es
ordenadas pela 'poca em #ue apareceram foram divididas em intervalos de 4+ anos ()*++()*4+"
)*4+()**+" and )**+( )B,+) (?).
>oram observadas as fre#u!ncias de cada inven12o (at' a en'sima pot!ncia)" desde seu surgimento"
e estas trajet3rias forma comparadas com seus valores m0imos. 9nt2o se calculou a mediana destas
trajet3rias para cada intervalo de 4+ anos. $s inven1es dos intervalos mais antigos levaram == anos
para atingir o pico de difus2o (#ue correspondenderia D uma fre#u!ncia acima de ,5%). Gos
intervalos seguintes a ado12o cultural das tecnologias parece ter se tornado mais rpida. $s
inven1es ocorridas entre )*4+ e )**+ foram adotadas em massa em torno de 5+ anos" e nos 4+
anos seguintes essa m'dia encurtou para ,? anos (>ig. <X).

&utra anlise feita a partir deste m'todo aplicou(se D pessoas famosas. $ fama poderia ser medida
pela fre#u!ncia de nomes de figuras proeminentes em diferentes 'pocas.

>oi feito o levantamento das ?4+"+++ pessoas elencadas na NiWipedia M removidos os casos de
nomes coincidentes M organizadas por data de nascimento e fre#u!ncia (,<). 4ara cada ano entre
)*++( )B5+ foi estabelecido um intervalo contendo os 5+ nomes mais famosos. 9m seguida
tra1ou(se a fre#u!ncia mediana para esses nomes em cada intervalo ao longo do tempo (>ig. <L(9).



$s trajet3rias resultantes s2o todas similares. cada intervalo possui um perodo de Tpr'(celebridadeU
(fre#u!ncia mediana de )+ ) seguida por um rpido crescimento" um pico e um lento declnio.
>oram utilizados 4 parOmetros para caracterizar cada intervalo. a) a idade no incio da celebriza12o"
b) o tempo de duplica12o no crescimento inicial" c) a idade no momento do pico e d) a meia(vida do
perodo de declnio (>ig. <9).


$ idade na #ual as pessoas famosas atingem o pico de celebridade tem sido consistente ao longo de
todo o perodo analisado M em torno dos ?5 anos. &s demais < parOmetros" contudo" apresentaram
mudan1as. a fama chega cada vez mais cedo e cresce mais rapidamente. 9ntre o incio do s'culo
SJS e a metade do SS a idade inicial de celebriza12o caiu dos 4< para os ,B anos" en#uanto o
tempo de duplica12o caiu de *.) para <.< anos. $ssim" nos livros as pessoas mais famosas hoje s2o
mais famosas do #ue seus predecessores. 7as a fama tem tido vida cada vez mais curta M a
meia(vida p3s pico da fama caiu de ),+ para ?) anos ao longo do s'culo SJS.
8esultados semelhantes foram obtidos #uando o mesmo e0perimento foi aplicado aos 4,"<5*
nomes contidos no banco de dados da 9nciclop'dia XritOnica (,4) M resultado de uma curadoria
especializada iniciada em )?=*). 9sta pes#uisa tamb'm foi aplicada D correla12o entre o
crescimento da fama e as escolhas ocupacionais.

4or fim" o artigo apresenta outra pes#uisa acerca da detec12o de censura e supress2o M de um a
pessoa ou id'ia M a partir da anlise do material digitalizado. & grfico a seguir ilustra a fre#u!ncia
do nome do autor 7arc Chagall em livros ingleses e alem2es durante o perdodo do JJJ 8eich
(>ig.4$).


90emplos deste tipo s2o encontrveis em muitos pases" inclusive a 8Cssia (X)" China (C) e nos
9stados :nidos.





Ne probed the impact of censorship on a personPs cultural influence in Gazi 6ermanE.
/ed bE such figures as the librarian Nolfgang @ermann" the Gazis created lists of
authors and artists Khose TundesirableU" TdegenerateU KorW Kas banned from
libraries and museums and publiclE burned (,=(,*).
Ne plotted median usage in 6erman for five such lists. artists ()++ names)" as Kell as
Kriters of /iterature ()4?)" 4olitics ())?)" @istorE (5<)" and 4hilosophE (<5) (>ig 49).


Ne also included a collection of Gazi partE members Y54? names" ref (?)Z.
-he five suppressed groups e0hibited a decline.
-his decline Kas modest for Kriters of historE (B%) and literature (,?%)" but
pronounced in politics (=+%)" philosophE (?=%)" and art (5=%).
-he onlE group Khose signal increased during the -hird 8eich Kas the Gazi partE
members Ya 5++% increaseA ref (?)Z.
6iven such strong signals" Ke tested Khether one could identifE victims of Gazi repression
de novo.
Ne computed a Tsuppression inde0U s for each person bE dividing their fre#uencE
from )B<< M )B45 bE the mean fre#uencE in )B,5( )B<< and in )B55()B=5 (>ig.4>"
Jnset).


Jn 9nglish" the distribution of suppression indices is tightlE centered around unitE.
>eKer than )% of individuals lie at the e0tremes (s[)V5 or s\5).
Jn 6erman" the distribution in much Kider" and sWeKed leftKard. suppression in Gazi
6ermanE Kas not the e0ception" but the rule (>ig. 4>).
$t the far left" B.*% of individuals shoKed strong suppression (s[)V5).
-his population is highlE enriched for documented victims of repression" such as
4ablo 4icasso (sF+.),)" the Xauhaus architect Nalter 6ropius (sF+.)=)" and @ermann
7aas (s[.+))" an influential 4rotestant 7inister Kho helped manE ]eKs flee (?).
(7aas Kas later recognized bE JsraelPs ^ad _ashem as a T8ighteous $mong the
Gations.U)
$t the other e0treme" ).5% of the population e0hibited a dramatic rise (s\5).
-his subpopulation is highlE enriched for Gazis and Gazi(supporters" Kho benefited
immenselE from government propaganda (?).
4>


-hese results provide a strategE for rapidlE identifEing liWelE victims of censorship from a
large pool of possibilities" and highlights hoK culturomic methods might complement
e0isting historical approaches.
Culturomics is
the application of high(throughput data collection and analEsis to the studE of human culture.
XooWs are a beginning" but Ke must also incorporate neKspapers (,B)" manuscripts (<+)" maps (<))"
artKorW (<,)" and a mEriad of other human creations (<<" <4). &f course" manE voices M alreadE lost
to time M lie forever beEond our reach.
Culturomic results are a neK tEpe of evidence in the humanities. $s Kith fossils of ancient
creatures" the challenge of culturomics lies in the interpretation of this evidence. Considerations of
space restrict us to the briefest of surveEs. a handful of trajectories and our initial interpretations.
7anE more fossils" Kith shapes no less intriguing" becWon.
(i) 4eaWs in TinfluenzaU correspond Kith dates of WnoKn pandemics" suggesting the value of
culturomic methods for historical epidemiologE (<5) (>ig. 5$).



(ii) -rajectories for Tthe GorthU" Tthe ;outhU" and finallE" Tthe enemEU reflect hoK
polarization of the states preceded the descent into Kar (>ig. 5X).


(iii) Jn the battle of the se0es" the TKomenU are gaining ground on the TmenU (>ig. 5C).

(iv) Tf'minismeU made earlE inroads in >rance" but the :; proved to be a more fertile
environment in the long run (>ig. 5L).


(v) T6alileoU" TLarKinU" and T9insteinU maE be Kell(WnoKn scientists" but T>reudU is more
deeplE engrained in our collective subconscious (>ig. 59).

(vi) Jnterest in TevolutionU Kas Kaning Khen TLG$U came along (>ig. 5>).


(vii) -he historE of the $merican diet offers manE appetizing opportunities for future
researchA the menu includes TsteaWU" TsausageU" Tice creamU" ThamburgerU" TpizzaU" TpastaU"
and TsushiU (>ig. 56).


(viii) T6odU is not deadA but needs a neK publicist (>ig. 5@).


-hese" together Kith the billions of other trajectories that accompanE them" Kill furnish a great
cache of bones from Khich to reconstruct the sWeleton of a neK science.