fix bar
fix bar
fix bar
fix bar
fix bar
fix bar

What we learned from 5 million books

Erez Lieberman Aiden and Jean-Baptiste Michel

0.5x
0.75x
1x
1.25x
1.5x
2x
 


. . .



 


. . .



 

00:00...
...

[1] 00:15Erez Lieberman Aiden: Everyone knows
Erez Lieberman Aiden: Todos sabem

[2] 00:17that a picture is worth a thousand words.
que uma imagem vale mil palavras.

[3] 00:22But we at Harvard
Mas nós em Harvard

[4] 00:24were wondering if this was really true.
estávamos questionando se é mesmo verdade.

[5] 00:27(Laughter)
(Risos)

[6] 00:29So we assembled a team of experts,
Assim montamos uma equipe de peritos,

[7] 00:33spanning Harvard, MIT,
desde Harvard, MIT,

[8] 00:35The American Heritage Dictionary, The Encyclopedia Britannica
The American Heritage Dictionary, Enciclopédia Britânica

[9] 00:38and even our proud sponsors,
e mesmo nossos orgulhosos patrocinadores,

[10] 00:40the Google.
o Google.

[11] 00:43And we cogitated about this
E pensamos sobre isto

[12] 00:45for about four years.
por cerca de 4 anos.

[13] 00:47And we came to a startling conclusion.
Chegamos a uma surpreendente conclusão.

[14] 00:52Ladies and gentlemen, a picture is not worth a thousand words.
Senhoras e senhores, uma imagem não vale mil palavras.

[15] 00:55In fact, we found some pictures
De fato, encontramos algumas imagens

[16] 00:57that are worth 500 billion words.
que valem 500 bilhões de palavras.

[17] 01:02Jean-Baptiste Michel: So how did we get to this conclusion?
Jean-Baptiste Michel: Como chegamos a esta conclusão?

[18] 01:04So Erez and I were thinking about ways
Erez e eu pensávamos em maneiras

[19] 01:06to get a big picture of human culture
de obter uma grande imagem da cultura e

[20] 01:08and human history: change over time.
história humana: a mudança através dos tempos.

[21] 01:11So many books actually have been written over the years.
Muitos livros tem sido escritos ao longo dos anos.

[22] 01:13So we were thinking, well the best way to learn from them
Pensávamos, a melhor maneira de aprender com eles

[23] 01:15is to read all of these millions of books.
é ler todos estes milhões de livros.

[24] 01:17Now of course, if there's a scale for how awesome that is,
Naturalmente, se há uma medida do incrível que isso é,

[25] 01:20that has to rank extremely, extremely high.
teria que ser colocado lá em cima.

[26] 01:23Now the problem is there's an X-axis for that,
O problema é que existe um eixo-X para isso,

[27] 01:25which is the practical axis.
que é o eixo da praticidade.

[28] 01:27This is very, very low.
Que é muito, muito baixa.

[29] 01:29(Applause)
(Aplausos)

[30] 01:32Now people tend to use an alternative approach,
As pessoas costumam usar um método alternativo,

[31] 01:35which is to take a few sources and read them very carefully.
que seria pegar algumas fontes e lê-las cuidadosamente.

[32] 01:37This is extremely practical, but not so awesome.
É extremamente prático, mas nem um pouco incrível.

[33] 01:39What you really want to do
O que realmente se quer fazer

[34] 01:42is to get to the awesome yet practical part of this space.
é alcançar o incrível junto com a parte prática deste espaço.

[35] 01:45So it turns out there was a company across the river called Google
Aconteceu que havia uma empresa próxima chamada Google

[36] 01:48who had started a digitization project a few years back
que iniciou um projeto de digitalização alguns anos antes

[37] 01:50that might just enable this approach.
que poderia viabilizar este método.

[38] 01:52They have digitized millions of books.
Eles haviam digitalizado milhões de livros.

[39] 01:54So what that means is, one could use computational methods
O que significa, que alguém poderia usar métodos computacionais

[40] 01:57to read all of the books in a click of a button.
para ler todos os livros com um clique de botão.

[41] 01:59That's very practical and extremely awesome.
Isso é muito prático e extremamente incrível.

[42] 02:03ELA: Let me tell you a little bit about where books come from.
ELA: Permitam-me contar um pouco de onde os livros vêm.

[43] 02:05Since time immemorial, there have been authors.
Desde tempos imemoriais, existem os autores.

[44] 02:08These authors have been striving to write books.
Estes autores tem se esforçado para escrever livros.

[45] 02:11And this became considerably easier
O que se tornou consideravelmente mais fácil

[46] 02:13with the development of the printing press some centuries ago.
com o desenvolvimento da imprensa alguns séculos atrás.

[47] 02:15Since then, the authors have won
Desde então, os autores venceram

[48] 02:18on 129 million distinct occasions,
em 129 milhões de ocasiões distintas,

[49] 02:20publishing books.
publicando livros.

[50] 02:22Now if those books are not lost to history,
Agora se esses livros não se perderam na história,

[51] 02:24then they are somewhere in a library,
então eles estão em algum lugar em uma biblioteca,

[52] 02:26and many of those books have been getting retrieved from the libraries
e muitos deles estão sendo recuperados das bibliotecas

[53] 02:29and digitized by Google,
e digitalizados pelo Google,

[54] 02:31which has scanned 15 million books to date.
que escaneou 15 milhões de livros até agora.

[55] 02:33Now when Google digitizes a book, they put it into a really nice format.
Quando o Google digitaliza, eles o colocam em um formato muito legal.

[56] 02:36Now we've got the data, plus we have metadata.
Agora temos a informação, e temos os metadados.

[57] 02:38We have information about things like where was it published,
Temos informações sobre coisas como onde foi publicado,

[58] 02:41who was the author, when was it published.
quem era o autor, quando foi publicado.

[59] 02:43And what we do is go through all of those records
E o que fazemos é percorrer todos estes registros

[60] 02:46and exclude everything that's not the highest quality data.
e excluir tudo que não seja informação de alta qualidade.

[61] 02:50What we're left with
O que permanece

[62] 02:52is a collection of five million books,
é uma coleção de 5 milhões de livros,

[63] 02:55500 billion words,
500 bilhões de palavras,

[64] 02:58a string of characters a thousand times longer
uma sequência de caracteres mil vezes maior

[65] 03:00than the human genome --
que o genoma humano --

[66] 03:03a text which, when written out,
um texto que, quando escrito,

[67] 03:05would stretch from here to the Moon and back
se estenderia daqui até a Lua e de volta

[68] 03:0710 times over --
mais de 10 vezes --

[69] 03:09a veritable shard of our cultural genome.
um verdadeiro fragmento de nosso genoma cultural.

[70] 03:13Of course what we did
Claro que fizemos

[71] 03:15when faced with such outrageous hyperbole ...
quando encaramos tal ultrajante hipérbole...

[72] 03:18(Laughter)
(Risos)

[73] 03:20was what any self-respecting researchers
foi o que qualquer pesquisador com respeito próprio

[74] 03:23would have done.
teria feito.

[75] 03:26We took a page out of XKCD,
Pegamos uma webcomic do XKCD,

[76] 03:28and we said, "Stand back.
e dissemos, "Afastem-se.

[77] 03:30We're going to try science."
Vamos tentar a ciência."

[78] 03:32(Laughter)
(Risos)

[79] 03:34JM: Now of course, we were thinking,
JM: Naturalmente, nós pensamos,

[80] 03:36well let's just first put the data out there
primeiro vamos mostrar os dados

[81] 03:38for people to do science to it.
para que as pessoas façam ciência com eles.

[82] 03:40Now we're thinking, what data can we release?
Depois pensamos, que informação podemos liberar?

[83] 03:42Well of course, you want to take the books
Naturalmente, você quer pegar os livros

[84] 03:44and release the full text of these five million books.
e liberar o texto completo destes 5 milhões de livros.

[85] 03:46Now Google, and Jon Orwant in particular,
Aí o Google, e Jon Orwant em especial,

[86] 03:48told us a little equation that we should learn.
falaram sobre uma equação que devíamos aprender.

[87] 03:50So you have five million, that is, five million authors
Você tem 5 milhões, que são, 5 milhões de autores

[88] 03:53and five million plaintiffs is a massive lawsuit.
e 5 milhões de queixosos é um processo e tanto.

[89] 03:56So, although that would be really, really awesome,
Ainda que fosse muito, mas muito incrível,

[90] 03:58again, that's extremely, extremely impractical.
de novo, é extremamente, extremamente impraticável.

[91] 04:01(Laughter)
(Risos)

[92] 04:03Now again, we kind of caved in,
Então, nós meio que nos aprofundamos,

[93] 04:05and we did the very practical approach, which was a bit less awesome.
e fizemos uma alternativa prática, que foi só um pouco menos incrível.

[94] 04:08We said, well instead of releasing the full text,
Falamos, ao invés de liberar o texto completo,

[95] 04:10we're going to release statistics about the books.
vamos liberar estatísticas sobre os livros.

[96] 04:12So take for instance "A gleam of happiness."
Peguem por exemplo "Um brilho de felicidade."

[97] 04:14It's four words; we call that a four-gram.
São 4 palavras: nós chamamos de 4-grama.

[98] 04:16We're going to tell you how many times a particular four-gram
Vamos dizer a vocês quantas vezes um 4-grama em especial

[99] 04:18appeared in books in 1801, 1802, 1803,
apareceu nos livros em 1801, 1802, 1803,

[100] 04:20all the way up to 2008.
até chegar em 2008.

[101] 04:22That gives us a time series
Isso nos dá uma linha de tempo

[102] 04:24of how frequently this particular sentence was used over time.
da frequência com que esta frase foi utilizada através dos tempos.

[103] 04:26We do that for all the words and phrases that appear in those books,
Fizemos isso para todas as palavras e frases que aparecem nos livros,

[104] 04:29and that gives us a big table of two billion lines
o que nos dá uma grande tabela de 2 bilhões de linhas

[105] 04:32that tell us about the way culture has been changing.
que nos conta como a cultura tem se modificado.

[106] 04:34ELA: So those two billion lines,
ELA: Essas 2 bilhões de linhas,

[107] 04:36we call them two billion n-grams.
nós chamamos de 2 bilhões de n-gramas.

[108] 04:38What do they tell us?
O que eles nos dizem?

[109] 04:40Well the individual n-grams measure cultural trends.
Os n-gramas individuais medem as tendências culturais.

[110] 04:42Let me give you an example.
Permitam-me dar um exemplo.

[111] 04:44Let's suppose that I am thriving,
Suponhamos que eu esteja prosperando.

[112] 04:46then tomorrow I want to tell you about how well I did.
e amanhã eu queira contar como eu me dei bem.

[113] 04:48And so I might say, "Yesterday, I throve."
Em inglês eu diria, "Ontem, eu 'throve'."

[114] 04:51Alternatively, I could say, "Yesterday, I thrived."
Ou eu poderia dizer, "Ontem, eu 'thrived'."

[115] 04:54Well which one should I use?
Qual deles eu deveria usar?

[116] 04:57How to know?
Como saber?

[117] 04:59As of about six months ago,
Como cerca de 6 meses atras,

[118] 05:01the state of the art in this field
o estado de arte nesta matéria

[119] 05:03is that you would, for instance,
seria, por exemplo,

[120] 05:05go up to the following psychologist with fabulous hair,
ir até este psicólogo com um cabelo fabuloso,

[121] 05:07and you'd say,
e dizer,

[122] 05:09"Steve, you're an expert on the irregular verbs.
"Steve, você é um expert em verbos irregulares.

[123] 05:12What should I do?"
O que eu devo fazer?"

[124] 05:14And he'd tell you, "Well most people say thrived,
E ele diria, "Bem a maioria diria 'thrived',

[125] 05:16but some people say throve."
mas algumas diriam 'throve'."

[126] 05:19And you also knew, more or less,
E vocês também sabem, talvez,

[127] 05:21that if you were to go back in time 200 years
que se voltassem no tempo 200 anos

[128] 05:24and ask the following statesman with equally fabulous hair,
e perguntassem a esse estadista também de cabelo fabuloso,

[129] 05:27(Laughter)
(Risos)

[130] 05:30"Tom, what should I say?"
"Tom, o que devo falar?"

[131] 05:32He'd say, "Well, in my day, most people throve,
Ele diria, "No meu tempo a maioria dizia 'throve',

[132] 05:34but some thrived."
mas alguns 'thrive'."

[133] 05:37So now what I'm just going to show you is raw data.
Agora o que vou lhes mostrar são dados crus.

[134] 05:39Two rows from this table of two billion entries.
Duas linhas desta tabela de 2 bilhões de lançamentos.

[135] 05:43What you're seeing is year by year frequency
O que estão vendo é a frequencia ano a ano

[136] 05:45of "thrived" and "throve" over time.
de "thrived" e "throve" através dos tempos.

[137] 05:49Now this is just two
Isso são apenas duas

[138] 05:51out of two billion rows.
de 2 bilhões de linhas.

[139] 05:54So the entire data set
Assim o conjunto completo de dados

[140] 05:56is a billion times more awesome than this slide.
é 2 bilhões de vezes mais incrível que esse slide.

[141] 05:59(Laughter)
(Risos)

[142] 06:01(Applause)
(Aplausos)

[143] 06:05JM: Now there are many other pictures that are worth 500 billion words.
JM: Existem muitas outras imagens que valem 500 bilhões de palavras.

[144] 06:07For instance, this one.
Por exemplo, esta aqui.

[145] 06:09If you just take influenza,
Se você escolher influenza,

[146] 06:11you will see peaks at the time where you knew
verá picos nas épocas onde se sabe

[147] 06:13big flu epidemics were killing people around the globe.
de grandes epidemias de gripe que mataram pessoas pelo mundo.

[148] 06:16ELA: If you were not yet convinced,
ELA: Se vocês ainda não se convenceram,

[149] 06:19sea levels are rising,
o nível dos mares está subindo,

[150] 06:21so is atmospheric CO2 and global temperature.
junto com o CO2 na atmosfera e a temperatura global.

[151] 06:24JM: You might also want to have a look at this particular n-gram,
JM: Vocês também podem querer dar uma olhada neste n-grama,

[152] 06:27and that's to tell Nietzsche that God is not dead,
que diz ao Nietzsche que Deus não morreu,

[153] 06:30although you might agree that he might need a better publicist.
apesar que ele podia ter um publicitário melhor.

[154] 06:33(Laughter)
(Risos)

[155] 06:35ELA: You can get at some pretty abstract concepts with this sort of thing.
ELA: Se pode entender alguns conceitos bem abstratos com essa coisa.

[156] 06:38For instance, let me tell you the history
Por exemplo, permitam-me contar a história

[157] 06:40of the year 1950.
do ano de 1950.

[158] 06:42Pretty much for the vast majority of history,
Durante todo o transcurso da história,

[159] 06:44no one gave a damn about 1950.
ninguém dava a mínima para 1950.

[160] 06:46In 1700, in 1800, in 1900,
Em 1700, em 1800, em 1900,

[161] 06:48no one cared.
ninguém ligava.

[162] 06:52Through the 30s and 40s,
Nos anos 30 e 40,

[163] 06:54no one cared.
ninguém ligava.

[164] 06:56Suddenly, in the mid-40s,
De repente, no meio dos anos 40,

[165] 06:58there started to be a buzz.
começou um rumor.

[166] 07:00People realized that 1950 was going to happen,
As pessoas perceberam que 1950 viria,

[167] 07:02and it could be big.
e que seria algo grande.

[168] 07:04(Laughter)
(Risos)

[169] 07:07But nothing got people interested in 1950
Nada interessou tanto às pessoas em 1950

[170] 07:10like the year 1950.
como o ano 1950.

[171] 07:13(Laughter)
(Risos)

[172] 07:16People were walking around obsessed.
As pessoas caminhavam obcecadas.

[173] 07:18They couldn't stop talking
Não podiam parar de falar

[174] 07:20about all the things they did in 1950,
sobre as coisas que fizeram em 1950,

[175] 07:23all the things they were planning to do in 1950,
tudo o que estavam planejando para 1950,

[176] 07:26all the dreams of what they wanted to accomplish in 1950.
todos os sonhos que queriam alcançar em 1950.

[177] 07:31In fact, 1950 was so fascinating
De fato, 1950 foi tão fascinante

[178] 07:33that for years thereafter,
que nos anos seguintes,

[179] 07:35people just kept talking about all the amazing things that happened,
as pessoas continuavam falando sobre as coisas incríveis que aconteceram,

[180] 07:38in '51, '52, '53.
em 51, 52, 53.

[181] 07:40Finally in 1954,
Finalmente em 1954,

[182] 07:42someone woke up and realized
alguém acordou e percebeu

[183] 07:44that 1950 had gotten somewhat passé.
que 1950 tinha ficado algo 'passé'.

[184] 07:48(Laughter)
(Risos)

[185] 07:50And just like that, the bubble burst.
E de repente, a bolha estourou.

[186] 07:52(Laughter)
(Risos)

[187] 07:54And the story of 1950
A história de 1950

[188] 07:56is the story of every year that we have on record,
é a história de todo ano que temos registro,

[189] 07:58with a little twist, because now we've got these nice charts.
com um toque a mais, porque agora temos estes gráficos.

[190] 08:01And because we have these nice charts, we can measure things.
E porque temos estes gráficos bacanas, podemos medir coisas.

[191] 08:04We can say, "Well how fast does the bubble burst?"
Podemos dizer, "Quão rápido a bolha estourou?"

[192] 08:06And it turns out that we can measure that very precisely.
E acontece que podemos medir muito precisamente.

[193] 08:09Equations were derived, graphs were produced,
Equações foram derivadas, gráficos foram produzidos,

[194] 08:12and the net result
e o resultado líquido

[195] 08:14is that we find that the bubble bursts faster and faster
é que descobrimos que a bolha estoura cada vez mais rápido

[196] 08:17with each passing year.
a cada ano que passa.

[197] 08:19We are losing interest in the past more rapidly.
Perdemos interesse no passado cada vez mais rápido.

[198] 08:24JM: Now a little piece of career advice.
JM: Agora uma dica para a carreira.

[199] 08:26So for those of you who seek to be famous,
Aqueles de vocês que procuram ser famosos,

[200] 08:28we can learn from the 25 most famous political figures,
podemos aprender com as 25 personalidades mais famosas,

[201] 08:30authors, actors and so on.
políticos, autores, atores e demais.

[202] 08:32So if you want to become famous early on, you should be an actor,
Se você quer se tornar famoso cedo, deveria ser um ator,

[203] 08:35because then fame starts rising by the end of your 20s --
porque sua fama começa ao final dos vinte anos --

[204] 08:37you're still young, it's really great.
você ainda é jovem, é muito bom.

[205] 08:39Now if you can wait a little bit, you should be an author,
Agora se quiser esperar um pouco, deveria ser autor,

[206] 08:41because then you rise to very great heights,
porque assim você alcançará grandes alturas,

[207] 08:43like Mark Twain, for instance: extremely famous.
como Mark Twain, por exemplo, extremamente famoso.

[208] 08:45But if you want to reach the very top,
Mas se você quiser alcançar mesmo o topo,

[209] 08:47you should delay gratification
deveria postergar o reconhecimento

[210] 08:49and, of course, become a politician.
e, claro, tornar-se um político.

[211] 08:51So here you will become famous by the end of your 50s,
Assim você se torna famoso no final dos seus 50,

[212] 08:53and become very, very famous afterward.
e se torna muito, muito famoso depois.

[213] 08:55So scientists also tend to get famous when they're much older.
Cientistas também tendem a ficar famosos quando são mais velhos.

[214] 08:58Like for instance, biologists and physics
Por exemplo, biólogos e físicos

[215] 09:00tend to be almost as famous as actors.
tendem a ser tão famosos quanto atores.

[216] 09:02One mistake you should not do is become a mathematician.
Um erro que vocês devem evitar é serem matemáticos.

[217] 09:05(Laughter)
(Risos)

[218] 09:07If you do that,
Se fizerem isso,

[219] 09:09you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos."

[220] 09:12But guess what, nobody will really care.
Mas olha só, ninguém quer saber.

[221] 09:14(Laughter)
(Risos)

[222] 09:17ELA: There are more sobering notes
ELA: Existem notas mais sérias

[223] 09:19among the n-grams.
entre os n-gramas.

[224] 09:21For instance, here's the trajectory of Marc Chagall,
Por exemplo, eis a trajetória de Marc Chagall,

[225] 09:23an artist born in 1887.
artista nascido em 1887.

[226] 09:25And this looks like the normal trajectory of a famous person.
Parece a trajetória normal de uma pessoa famosa.

[227] 09:28He gets more and more and more famous,
Ele fica mais e mais e mais famoso,

[228] 09:32except if you look in German.
exceto se pesquisar em alemão.

[229] 09:34If you look in German, you see something completely bizarre,
Se pesquisar em alemão, verá algo totalmente bizarro,

[230] 09:36something you pretty much never see,
algo que nunca se vê,

[231] 09:38which is he becomes extremely famous
que é ele se tornar extremamente famoso

[232] 09:40and then all of a sudden plummets,
e de repente despenca,

[233] 09:42going through a nadir between 1933 and 1945,
chegando ao fundo do poço entre 1933 e 1945,

[234] 09:45before rebounding afterward.
antes de retornar com tudo.

[235] 09:48And of course, what we're seeing
Naturalmente, o que vemos

[236] 09:50is the fact Marc Chagall was a Jewish artist
é o fato de que Chagall era um artista judeu

[237] 09:53in Nazi Germany.
na Alemanha nazista.

[238] 09:55Now these signals
Estes sinais

[239] 09:57are actually so strong
são na verdade tão fortes

[240] 09:59that we don't need to know that someone was censored.
que não precisamos saber que alguém foi censurado.

[241] 10:02We can actually figure it out
Podemos ter uma ideia

[242] 10:04using really basic signal processing.
usando até um básico processamento de sinais.

[243] 10:06Here's a simple way to do it.
Eis um modo simples de fazer.

[244] 10:08Well, a reasonable expectation
Uma expectativa razoável

[245] 10:10is that somebody's fame in a given period of time
é que a fama de alguém em um período de tempo

[246] 10:12should be roughly the average of their fame before
deveria ser mais ou menos a média de sua fama antes

[247] 10:14and their fame after.
e da fama depois.

[248] 10:16So that's sort of what we expect.
É algo assim o que esperamos.

[249] 10:18And we compare that to the fame that we observe.
E comparamos isso com a fama que observamos.

[250] 10:21And we just divide one by the other
E dividimos uma pela outra

[251] 10:23to produce something we call a suppression index.
para produzir algo que chamamos de índice de supressão.

[252] 10:25If the suppression index is very, very, very small,
Se o índice é muito, mas muito pequeno,

[253] 10:28then you very well might be being suppressed.
você pode muito bem estar sendo suprimido.

[254] 10:30If it's very large, maybe you're benefiting from propaganda.
Se for muito grande, você pode estar se benificiando com a propaganda.

[255] 10:34JM: Now you can actually look at
JM: Agora vocês podem até mesmo ver

[256] 10:36the distribution of suppression indexes over whole populations.
a distribuição dos índices de supressão de populações inteiras.

[257] 10:39So for instance, here --
Por exemplo, aqui --

[258] 10:41this suppression index is for 5,000 people
este índice é para 5.000 pessoas

[259] 10:43picked in English books where there's no known suppression --
escolhidas em livros ingleses onde não existe supressão conhecida --

[260] 10:45it would be like this, basically tightly centered on one.
seria assim, basicamente centrada no 1.

[261] 10:47What you expect is basically what you observe.
O que se esperava é basicamente o que observamos.

[262] 10:49This is distribution as seen in Germany --
Esta é a distribuição vista na Alemanha --

[263] 10:51very different, it's shifted to the left.
bem diferente, é desviada para a esquerda.

[264] 10:53People talked about it twice less as it should have been.
As pessoas falaram menos que o dobro do costumeiro.

[265] 10:56But much more importantly, the distribution is much wider.
Mais importante, a distribuição é mais extensa.

[266] 10:58There are many people who end up on the far left on this distribution
Existem muitas pessoas que acabaram no lado esquerdo desta distribuição

[267] 11:01who are talked about 10 times fewer than they should have been.
que são faladas cerca de 10 vezes menos do que deveriam ter sido.

[268] 11:04But then also many people on the far right
E também muitas pessoas bem à direita

[269] 11:06who seem to benefit from propaganda.
que parecem ter se beneficiado da propaganda.

[270] 11:08This picture is the hallmark of censorship in the book record.
Esta imagem é a marca da censura no registro de livros.

[271] 11:11ELA: So culturomics
ELA: Cultorômica

[272] 11:13is what we call this method.
é como chamamos este método.

[273] 11:15It's kind of like genomics.
É como se fosse a genômica.

[274] 11:17Except genomics is a lens on biology
Só que a genômica é uma lente para que a biologia

[275] 11:19through the window of the sequence of bases in the human genome.
veja através da janela de sequencias das bases no genoma humano.

[276] 11:22Culturomics is similar.
Cultorômica é parecido.

[277] 11:24It's the application of massive-scale data collection analysis
É aplicação da análise da enorme quantidade de informações coletadas

[278] 11:27to the study of human culture.
para estudo da cultura humana.

[279] 11:29Here, instead of through the lens of a genome,
Ao invés de olharmos através das lentes de um genoma,

[280] 11:31through the lens of digitized pieces of the historical record.
olhamos através de pedaços digitalizados do registro histórico.

[281] 11:34The great thing about culturomics
O bom da culturômica

[282] 11:36is that everyone can do it.
é que todos podem participar.

[283] 11:38Why can everyone do it?
Por que todos podem?

[284] 11:40Everyone can do it because three guys,
Todos podem porque três caras,

[285] 11:42Jon Orwant, Matt Gray and Will Brockman over at Google,
Jon Orwant, Matt Gray e Will Brockman no Google,

[286] 11:45saw the prototype of the Ngram Viewer,
viram o protótipo do Visualizador de N-Gramas,

[287] 11:47and they said, "This is so fun.
e disseram, "Isso é bem divertido.

[288] 11:49We have to make this available for people."
Temos que disponibilizar para as pessoas."

[289] 11:52So in two weeks flat -- the two weeks before our paper came out --
Em exatamente 2 semanas - antes de nosso artigo ser publicado --

[290] 11:54they coded up a version of the Ngram Viewer for the general public.
eles programaram uma versão do Visualizador para o público em geral.

[291] 11:57And so you too can type in any word or phrase that you're interested in
Assim vocês podem digitar qualquer palavra ou frase que se interessarem

[292] 12:00and see its n-gram immediately --
e imediatamente podem ver o n-grama --

[293] 12:02also browse examples of all the various books
e também listar exemplos de todos os muitos livros

[294] 12:04in which your n-gram appears.
nos quais o seu n-grama aparece.

[295] 12:06JM: Now this was used over a million times on the first day,
JM: Já foi utilizado mais de um milhão de vezes no primeiro dia,

[296] 12:08and this is really the best of all the queries.
e é de fato a melhor de todas as procuras.

[297] 12:10So people want to be their best, put their best foot forward.
As pessoas querem ser as melhores, se destacar.

[298] 12:13But it turns out in the 18th century, people didn't really care about that at all.
Mas acontece que no século 18, as pessoas não ligavam pra isso.

[299] 12:16They didn't want to be their best, they wanted to be their beft.
Elas não queriam ser as 'the best', elas queriam ser 'beft'.

[300] 12:19So what happened is, of course, this is just a mistake.
O que aconteceu, é claro, foi apenas um equívoco.

[301] 12:22It's not that strove for mediocrity,
Não é um esforço pela mediocridade,

[302] 12:24it's just that the S used to be written differently, kind of like an F.
apenas o 'S' costumava ser escrito diferente, quase um 'F'.

[303] 12:27Now of course, Google didn't pick this up at the time,
Lógico, o Google não pegou isso na ocasião,

[304] 12:30so we reported this in the science article that we wrote.
assim nós relatamos no artigo científico que escrevemos.

[305] 12:33But it turns out this is just a reminder
Mas se tornou um lembrete

[306] 12:35that, although this is a lot of fun,
de que, mesmo sendo muito divertido,

[307] 12:37when you interpret these graphs, you have to be very careful,
quando se interpreta estes gráficos, temos que ter cuidado,

[308] 12:39and you have to adopt the base standards in the sciences.
e vocês tem que adotar os métodos básicos da ciência.

[309] 12:42ELA: People have been using this for all kinds of fun purposes.
ELA: Pessoas o tem utilizado para todo tipo de propósito.

[310] 12:45(Laughter)
(Risos)

[311] 12:52Actually, we're not going to have to talk,
Na verdade, não precisaremos falar,

[312] 12:54we're just going to show you all the slides and remain silent.
vamos apenas mostrar todos os slides e ficar em silêncio.

[313] 12:57This person was interested in the history of frustration.
Esta pessoa estava interessada na história da frustração.

[314] 13:00There's various types of frustration.
Existem vários tipos de frustração.

[315] 13:03If you stub your toe, that's a one A "argh."
Se você esfolar o dedo do pé, É um "ai" com um 'A'.

[316] 13:06If the planet Earth is annihilated by the Vogons
Se a Terra é aniquilada pelos Vogons

[317] 13:08to make room for an interstellar bypass,
pra dar lugar à um atalho interestelar,

[318] 13:10that's an eight A "aaaaaaaargh."
é um "aaaaaaaai" com 8 'A's.

[319] 13:12This person studies all the "arghs,"
Esta pessoa estudou todos os "ais",

[320] 13:14from one through eight A's.
de 1 até 8 'A's.

[321] 13:16And it turns out
E acontece

[322] 13:18that the less-frequent "arghs"
que os "ais" menos frequentes

[323] 13:20are, of course, the ones that correspond to things that are more frustrating --
são os que correspondem às coisas mais frustrantes --

[324] 13:23except, oddly, in the early 80s.
exceto, curiosamente, no começo dos anos 80.

[325] 13:26We think that might have something to do with Reagan.
Achamos que deve ter algo a ver com o Reagan.

[326] 13:28(Laughter)
(Risos)

[327] 13:30JM: There are many usages of this data,
JM: Existem muitos usos para estas informações,

[328] 13:33but the bottom line is that the historical record is being digitized.
mas o principal é que o registro histórico está sendo digitalizado.

[329] 13:36Google has started to digitize 15 million books.
Google começou a digitalizar 15 milhões de livros.

[330] 13:38That's 12 percent of all the books that have ever been published.
É 12% de todos os livros já publicados.

[331] 13:40It's a sizable chunk of human culture.
É um pedaço considerável da cultura humana.

[332] 13:43There's much more in culture: there's manuscripts, there newspapers,
Há muito mais na cultura: existem manuscritos, jornais,

[333] 13:46there's things that are not text, like art and paintings.
coisas que não são texto, como arte e pinturas.

[334] 13:48These all happen to be on our computers,
Acontece que estes estão em nossos computadores,

[335] 13:50on computers across the world.
em computadores ao redor do mundo.

[336] 13:52And when that happens, that will transform the way we have
E quando isso acontece, vai transformar a maneira

[337] 13:55to understand our past, our present and human culture.
de compreender nosso passado, o presente e a cultura humana.

[338] 13:57Thank you very much.
Muito obrigado.

[339] 13:59(Applause)
(Aplausos)