fix bar
fix bar
fix bar
fix bar
fix bar
fix bar

What we learned from 5 million books

TED

Alterar formato do vídeo:

Ocultar legendas incorporadas

Tela 21:9 (Cinema)

Alterar modo de reprodução

Modo atual: Tocar e Pausar

Tocar normalmente

Lento Devagar Normal
Rápido
Acelerado
Frenético
 


. . .



 


. . .



 

00:00...
...

[1] 00:15Erez Lieberman Aiden: Everyone knows
Tradutor: Marta Gama Revisora: Rafael Eufrasio

[2] 00:17that a picture is worth a thousand words.
Erez Lieberman Aiden:

[3] 00:22But we at Harvard
Todos sabemos que uma imagem vale mais que mil palavras

[4] 00:24were wondering if this was really true.
Mas nós em Harvard

[5] 00:27(Laughter)
questionámos se isso seria mesmo verdade.

[6] 00:29So we assembled a team of experts,
(Risos)

[7] 00:33spanning Harvard, MIT,
Então, juntámos uma equipa de peritos,

[8] 00:35The American Heritage Dictionary, The Encyclopedia Britannica
que vieram de Harvard, do MIT,

[9] 00:38and even our proud sponsors,
do The American Heritage Dictionary, da The Encyclopedia Britannica

[10] 00:40the Google.
e até dos nossos orgulhosos patrocinadores, a Google.

[11] 00:43And we cogitated about this
(Risos)

[12] 00:45for about four years.
Debruçámo-nos sobre esta questão

[13] 00:47And we came to a startling conclusion.
durante cerca de quatro anos.

[14] 00:52Ladies and gentlemen, a picture is not worth a thousand words.
E chegámos a uma conclusão surpreendente.

[15] 00:55In fact, we found some pictures
Meus senhores, uma imagem não vale mais que mil palavras.

[16] 00:57that are worth 500 billion words.
Na verdade, encontrámos imagens

[17] 01:02Jean-Baptiste Michel: So how did we get to this conclusion?
que valem 500 mil milhões de palavras.

[18] 01:04So Erez and I were thinking about ways
Jean-Baptiste Michel: Como chegámos a esta conclusão?

[19] 01:06to get a big picture of human culture
O Erez e eu pensámos em como obter

[20] 01:08and human history: change over time.
um panorama geral da cultura humana e da história humana:

[21] 01:11So many books actually have been written over the years.
as mudanças através dos tempos.

[22] 01:13So we were thinking, well the best way to learn from them
Ao longo dos anos, escreveram-se muitos livros.

[23] 01:15is to read all of these millions of books.
Pensámos que a melhor maneira de aprender com eles

[24] 01:17Now of course, if there's a scale for how awesome that is,
seria ler todos esses milhões de livros.

[25] 01:20that has to rank extremely, extremely high.
Se houvesse uma escala de como isso seria fantástico,

[26] 01:23Now the problem is there's an X-axis for that,
isso seria classificado a um nível muito elevado.

[27] 01:25which is the practical axis.
O problema é que há um eixo X para isso,

[28] 01:27This is very, very low.
que é o eixo da prática,

[29] 01:29(Applause)
o que o colocaria num patamar muito baixo

[30] 01:32Now people tend to use an alternative approach,
(Aplausos)

[31] 01:35which is to take a few sources and read them very carefully.
As pessoas têm tendência a usar uma abordagem alternativa,

[32] 01:37This is extremely practical, but not so awesome.
que é pegar nalgumas fontes e lê-las cuidadosamente.

[33] 01:39What you really want to do
É extremamente prático, mas não muito fantástico.

[34] 01:42is to get to the awesome yet practical part of this space.
O que realmente se pretende

[35] 01:45So it turns out there was a company across the river called Google
é chegar à parte fantástica mas prática deste espaço.

[36] 01:48who had started a digitization project a few years back
Acontece que havia uma empresa do outro lado do rio chamada Google

[37] 01:50that might just enable this approach.
que iniciara um projeto de digitalização há uns anos

[38] 01:52They have digitized millions of books.
que talvez permitisse essa abordagem.

[39] 01:54So what that means is, one could use computational methods
Tinham digitalizado milhões de livros.

[40] 01:57to read all of the books in a click of a button.
Isso significava que se podiam usar métodos informáticos

[41] 01:59That's very practical and extremely awesome.
para ler todos os livros com o clique de um botão.

[42] 02:03ELA: Let me tell you a little bit about where books come from.
Isto é muito prático e extremamente fantástico.

[43] 02:05Since time immemorial, there have been authors.
ELA: Vou falar-vos de onde vêm os livros.

[44] 02:08These authors have been striving to write books.
Desde tempos imemoriais que existem autores.

[45] 02:11And this became considerably easier
Esses autores têm-se esforçado por escrever livros.

[46] 02:13with the development of the printing press some centuries ago.
Isso tornou-se muito mais fácil

[47] 02:15Since then, the authors have won
com o desenvolvimento da imprensa há uns séculos.

[48] 02:18on 129 million distinct occasions,
Desde então, os autores tiveram

[49] 02:20publishing books.
129 milhões de ocasiões diferentes

[50] 02:22Now if those books are not lost to history,
para publicar livros,

[51] 02:24then they are somewhere in a library,
Se esses livros não se perderam na história

[52] 02:26and many of those books have been getting retrieved from the libraries
estão algures numa biblioteca,

[53] 02:29and digitized by Google,
e muitos desses livros têm sido recuperados das bibliotecas

[54] 02:31which has scanned 15 million books to date.
e digitalizados pela Google,

[55] 02:33Now when Google digitizes a book, they put it into a really nice format.
que já digitalizou 15 milhões de livros até agora.

[56] 02:36Now we've got the data, plus we have metadata.
Quando a Google digitaliza um livro, põe-no num formato catita.

[57] 02:38We have information about things like where was it published,
Agora, temos os dados e temos ainda metadados.

[58] 02:41who was the author, when was it published.
Temos informação sobre onde foi publicado,

[59] 02:43And what we do is go through all of those records
quem foi o autor, quando foi publicado, etc.

[60] 02:46and exclude everything that's not the highest quality data.
Verificamos todos esses arquivos

[61] 02:50What we're left with
e excluímos tudo o que não seja da mais alta qualidade.

[62] 02:52is a collection of five million books,
Aquilo que nos resta

[63] 02:55500 billion words,
é uma coleção de cinco milhões de livros,

[64] 02:58a string of characters a thousand times longer
500 mil milhões de palavras,

[65] 03:00than the human genome --
uma cadeia de caracteres mil vezes mais longa

[66] 03:03a text which, when written out,
que o genoma humano,

[67] 03:05would stretch from here to the Moon and back
um texto que, se fosse escrito por extenso,

[68] 03:0710 times over --
iria daqui até à Lua e voltava

[69] 03:09a veritable shard of our cultural genome.
mais de dez vezes,

[70] 03:13Of course what we did
um autêntico fragmento do nosso genoma cultural.

[71] 03:15when faced with such outrageous hyperbole ...
Claro que aquilo que fizemos

[72] 03:18(Laughter)
perante tamanha hipérbole...

[73] 03:20was what any self-respecting researchers
(Risos)

[74] 03:23would have done.
... foi aquilo que teria feito

[75] 03:26We took a page out of XKCD,
qualquer pesquisador que se preze.

[76] 03:28and we said, "Stand back.
Inspirámo-nos no XKDC, e dissemos:

[77] 03:30We're going to try science."
"Afastem-se. Vamos tentar fazer ciência."

[78] 03:32(Laughter)
(Risos)

[79] 03:34JM: Now of course, we were thinking,
JM: Claro que estávamos a pensar

[80] 03:36well let's just first put the data out there
em publicar primeiro os dados

[81] 03:38for people to do science to it.
para que as pessoas pudessem fazer ciência.

[82] 03:40Now we're thinking, what data can we release?
Mas depois pensámos: ""Que dados podemos publicar?"

[83] 03:42Well of course, you want to take the books
Claro que queríamos pegar nos livros

[84] 03:44and release the full text of these five million books.
e publicar o texto completo de todos os livros.

[85] 03:46Now Google, and Jon Orwant in particular,
Mas a Google, e o Jon Orwant em particular,

[86] 03:48told us a little equation that we should learn.
ensinou-nos uma pequena equação.

[87] 03:50So you have five million, that is, five million authors
Temos cinco milhões de autores, ou seja,

[88] 03:53and five million plaintiffs is a massive lawsuit.
cinco milhões de processos judiciais, uma coisa monstruosa.

[89] 03:56So, although that would be really, really awesome,
Assim, embora isso fosse fantástico

[90] 03:58again, that's extremely, extremely impractical.
mais uma vez, era impraticável.

[91] 04:01(Laughter)
(Risos)

[92] 04:03Now again, we kind of caved in,
Mais uma vez, tivemos de ceder

[93] 04:05and we did the very practical approach, which was a bit less awesome.
e seguimos a abordagem prática, que era menos fantástica.

[94] 04:08We said, well instead of releasing the full text,
Em vez de publicarmos o texto completo,

[95] 04:10we're going to release statistics about the books.
íamos publicar estatísticas sobre os livros.

[96] 04:12So take for instance "A gleam of happiness."
Por exemplo, "Um brilho de felicidade".

[97] 04:14It's four words; we call that a four-gram.
São quatro palavras, a que chamamos um quatro-grama.

[98] 04:16We're going to tell you how many times a particular four-gram
Íamos dizer quantas vezes um determinado quatro-grama

[99] 04:18appeared in books in 1801, 1802, 1803,
aparecia em livros em 1801, 1802, 1803... até 2008.

[100] 04:20all the way up to 2008.
Isso dá-nos uma série temporal

[101] 04:22That gives us a time series
de quantas vezes foi utilizada essa frase.

[102] 04:24of how frequently this particular sentence was used over time.
Fazemos isso para todas as palavras e frases que surgem nesses livros.

[103] 04:26We do that for all the words and phrases that appear in those books,
Isso dá-nos uma enorme tabela de dois mil milhões de linhas

[104] 04:29and that gives us a big table of two billion lines
que nos dizem como a cultura tem vindo a mudar.

[105] 04:32that tell us about the way culture has been changing.
ELA: Chamamos a esses dois mil milhões de linhas,

[106] 04:34ELA: So those two billion lines,
dois mil milhões de n-gramas.

[107] 04:36we call them two billion n-grams.
O que é que eles nos dizem?

[108] 04:38What do they tell us?
Os n-gramas individuais medem tendências culturais.

[109] 04:40Well the individual n-grams measure cultural trends.
Vou dar-vos um exemplo.

[110] 04:42Let me give you an example.
Vamos supor que estou a prosperar,

[111] 04:44Let's suppose that I am thriving,
e que amanhã quero contar como me saí bem.

[112] 04:46then tomorrow I want to tell you about how well I did.
Posso dizer: "Ontem, eu vicejei."

[113] 04:48And so I might say, "Yesterday, I throve."
Em alternativa, podia dizer: "Ontem, eu prosperei.

[114] 04:51Alternatively, I could say, "Yesterday, I thrived."
"Então qual é que devo utilizar?

[115] 04:54Well which one should I use?
"Como é que hei de saber?"

[116] 04:57How to know?
Há cerca de seis meses,

[117] 04:59As of about six months ago,
o topo de gama neste campo

[118] 05:01the state of the art in this field
seria dirigir-se, por exemplo,

[119] 05:03is that you would, for instance,
a um psicólogo com um cabelo fabuloso

[120] 05:05go up to the following psychologist with fabulous hair,
e dizer:

[121] 05:07and you'd say,
"Steve, és perito em verbos.

[122] 05:09"Steve, you're an expert on the irregular verbs.
"O que é que devo fazer?"

[123] 05:12What should I do?"
E ele responderia: "Muitos dizem 'prosperei',

[124] 05:14And he'd tell you, "Well most people say thrived,
"mas alguns dizem 'vicejei'."

[125] 05:16but some people say throve."
Também ficariam a saber, mais ou menos,

[126] 05:19And you also knew, more or less,
que, se recuassem 200 anos,

[127] 05:21that if you were to go back in time 200 years
e perguntassem a este estadista com um cabelo igualmente fabuloso:

[128] 05:24and ask the following statesman with equally fabulous hair,
(Risos)

[129] 05:27(Laughter)
"Tom, o que é que eu devo dizer?"

[130] 05:30"Tom, what should I say?"
Ele diria: "No meu tempo, a maior parte das pessoas vicejava,

[131] 05:32He'd say, "Well, in my day, most people throve,
"mas alguns prosperavam."

[132] 05:34but some thrived."
Agora vou mostrar-vos dados brutos.

[133] 05:37So now what I'm just going to show you is raw data.
Duas linhas desta tabela com dois mil milhões de entradas.

[134] 05:39Two rows from this table of two billion entries.
Estão a ver a frequência, ano a ano,

[135] 05:43What you're seeing is year by year frequency
de "prosperei" e "vicejei" ao longo do tempo.

[136] 05:45of "thrived" and "throve" over time.
Estas são apenas duas

[137] 05:49Now this is just two
entre dois mil milhões de linhas.

[138] 05:51out of two billion rows.
O conjunto total dos dados

[139] 05:54So the entire data set
é mil milhões de vezes mais fantástico do que este slide.

[140] 05:56is a billion times more awesome than this slide.
(Risos)

[141] 05:59(Laughter)
(Aplausos)

[142] 06:01(Applause)
JM: Há muitas imagens que valem mais que 500 mil milhões de palavras.

[143] 06:05JM: Now there are many other pictures that are worth 500 billion words.
Por exemplo, esta.

[144] 06:07For instance, this one.
Se pegarmos em "gripe",

[145] 06:09If you just take influenza,
verão picos na época em que se sabia

[146] 06:11you will see peaks at the time where you knew
que grandes epidemias de gripe matavam pessoas em todo o globo.

[147] 06:13big flu epidemics were killing people around the globe.
ELA: Se ainda não estão convencidos,

[148] 06:16ELA: If you were not yet convinced,
os níveis do mar estão a subir,

[149] 06:19sea levels are rising,
assim como o CO2 na atmosfera e a temperatura da Terra.

[150] 06:21so is atmospheric CO2 and global temperature.
JM: Talvez queiram prestar atenção a este n-grama em particular,

[151] 06:24JM: You might also want to have a look at this particular n-gram,
e dizer a Nietzsche que Deus não está morto,

[152] 06:27and that's to tell Nietzsche that God is not dead,
embora concordem que Ele precisa de um relações públicas melhor.

[153] 06:30although you might agree that he might need a better publicist.
(Risos)

[154] 06:33(Laughter)
ELA: Podemos obter conceitos bastante abstratos com este tipo de análise.

[155] 06:35ELA: You can get at some pretty abstract concepts with this sort of thing.
Por exemplo, vou contar-vos a história do ano de 1950.

[156] 06:38For instance, let me tell you the history
Durante grande parte da história,

[157] 06:40of the year 1950.
ninguém ligou nenhuma a 1950.

[158] 06:42Pretty much for the vast majority of history,
Em 1700, em 1800, em 1900,

[159] 06:44no one gave a damn about 1950.
ninguém se preocupou.

[160] 06:46In 1700, in 1800, in 1900,
Durante os anos 30 e 40, ninguém se preocupou.

[161] 06:48no one cared.
De repente, a meio dos anos 40,

[162] 06:52Through the 30s and 40s,
começa a haver um burburinho.

[163] 06:54no one cared.
As pessoas percebem que 1950 vai acontecer,

[164] 06:56Suddenly, in the mid-40s,
e pode ser uma coisa em grande.

[165] 06:58there started to be a buzz.
(Risos)

[166] 07:00People realized that 1950 was going to happen,
Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950

[167] 07:02and it could be big.
do que o ano de 1950.

[168] 07:04(Laughter)
(Risos)

[169] 07:07But nothing got people interested in 1950
As pessoas andavam obcecadas.

[170] 07:10like the year 1950.
Não conseguiam deixar de falar

[171] 07:13(Laughter)
sobre tudo o que tinham feito em 1950,

[172] 07:16People were walking around obsessed.
tudo o que planeavam fazer em 1950,

[173] 07:18They couldn't stop talking
todos os sonhos que queriam alcançar em 1950.

[174] 07:20about all the things they did in 1950,
Na verdade, 1950 foi tão fascinante

[175] 07:23all the things they were planning to do in 1950,
que, anos depois,

[176] 07:26all the dreams of what they wanted to accomplish in 1950.
as pessoas continuavam a falar das coisas maravilhosas

[177] 07:31In fact, 1950 was so fascinating
que tinham acontecido em 1951, 1952, 1953.

[178] 07:33that for years thereafter,
Finalmente, em 1954,

[179] 07:35people just kept talking about all the amazing things that happened,
houve alguém que acordou e percebeu

[180] 07:38in '51, '52, '53.
que 1950 se tinha tornado numa coisa do passado.

[181] 07:40Finally in 1954,
(Risos)

[182] 07:42someone woke up and realized
E de repente, rebentou a bolha.

[183] 07:44that 1950 had gotten somewhat passé.
(Risos)

[184] 07:48(Laughter)
A história de 1950

[185] 07:50And just like that, the bubble burst.
é a história de cada ano que temos registado,

[186] 07:52(Laughter)
com uma ligeira diferença, porque agora temos estes gráficos catitas.

[187] 07:54And the story of 1950
Como temos estes gráficos catitas, podemos comparar coisas.

[188] 07:56is the story of every year that we have on record,
Podemos dizer: "Quão depressa rebenta a bolha?"

[189] 07:58with a little twist, because now we've got these nice charts.
Acontece que conseguimos medir isso com muita precisão.

[190] 08:01And because we have these nice charts, we can measure things.
Derivaram-se equações, produziram-se gráficos,

[191] 08:04We can say, "Well how fast does the bubble burst?"
e como resultado final

[192] 08:06And it turns out that we can measure that very precisely.
descobrimos que a bolha rebenta cada vez mais depressa,

[193] 08:09Equations were derived, graphs were produced,
de ano para ano.

[194] 08:12and the net result
Estamos a perder interesse no passado cada vez mais rapidamente.

[195] 08:14is that we find that the bubble bursts faster and faster
JM: Agora, um pouco de orientação profissional.

[196] 08:17with each passing year.
Os que querem ser famosos,

[197] 08:19We are losing interest in the past more rapidly.
podem aprender com os 25 políticos mais famosos,

[198] 08:24JM: Now a little piece of career advice.
autores, atores, etc..

[199] 08:26So for those of you who seek to be famous,
Se quiserem ser famosos cedo, devem tornar-se atores,

[200] 08:28we can learn from the 25 most famous political figures,
porque a fama começa a aumentar no final dos vinte anos,

[201] 08:30authors, actors and so on.
ainda são jovens, isso é ótimo.

[202] 08:32So if you want to become famous early on, you should be an actor,
Se podem esperar um pouco, devem ser autores,

[203] 08:35because then fame starts rising by the end of your 20s --
porque então podem chegar longe,

[204] 08:37you're still young, it's really great.
como Mark Twain, por exemplo, extremamente famoso.

[205] 08:39Now if you can wait a little bit, you should be an author,
Mas se quiserem alcançar mesmo o topo,

[206] 08:41because then you rise to very great heights,
não devem esperar resultados imediatos

[207] 08:43like Mark Twain, for instance: extremely famous.
e, claro, devem tornarem-se políticos.

[208] 08:45But if you want to reach the very top,
Começarão a ser famosos no final dos 50 anos

[209] 08:47you should delay gratification
e tornar-se-ão muito famosos depois disso.

[210] 08:49and, of course, become a politician.
Os cientistas também ficam famosos quando são muito mais velhos.

[211] 08:51So here you will become famous by the end of your 50s,
Por exemplo, os biólogos e os físicos podem ser tão famosos como os atores.

[212] 08:53and become very, very famous afterward.
Um erro que não devem fazer é tornarem-se matemáticos.

[213] 08:55So scientists also tend to get famous when they're much older.
(Risos)

[214] 08:58Like for instance, biologists and physics
Se o fizerem, podem pensar:

[215] 09:00tend to be almost as famous as actors.
"Ótimo. Vou fazer o meu melhor trabalho aos 20 anos."

[216] 09:02One mistake you should not do is become a mathematician.
Mas, calculem, ninguém vai querer saber.

[217] 09:05(Laughter)
(Risos)

[218] 09:07If you do that,
ELA: Há notas mais sóbrias entre os n-gramas.

[219] 09:09you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
Por exemplo, esta é a trajetória de Marc Chagall,

[220] 09:12But guess what, nobody will really care.
um artista nascido em 1887.

[221] 09:14(Laughter)
Parece-se com a trajetória normal de uma pessoa famosa.

[222] 09:17ELA: There are more sobering notes
Torna-se cada vez mais famoso,

[223] 09:19among the n-grams.
exceto se procurarem em alemão.

[224] 09:21For instance, here's the trajectory of Marc Chagall,
Se procurarem em alemão, verão uma coisa bizarra,

[225] 09:23an artist born in 1887.
uma coisa que habitualmente não se observa.

[226] 09:25And this looks like the normal trajectory of a famous person.
Ele torna-se extremamente famoso

[227] 09:28He gets more and more and more famous,
e, de repente, cai vertiginosamente,

[228] 09:32except if you look in German.
atravessando o ponto mais baixo entre 1933 e 1945,

[229] 09:34If you look in German, you see something completely bizarre,
antes de recuperar nos anos seguintes.

[230] 09:36something you pretty much never see,
O que aqui observamos

[231] 09:38which is he becomes extremely famous
é o facto de Marc Chagall ser um artista judeu

[232] 09:40and then all of a sudden plummets,
na Alemanha nazi.

[233] 09:42going through a nadir between 1933 and 1945,
Na realidade, estes sinais são tão fortes

[234] 09:45before rebounding afterward.
que não precisamos de saber que alguém foi censurado.

[235] 09:48And of course, what we're seeing
Podemos chegar a essa conclusão

[236] 09:50is the fact Marc Chagall was a Jewish artist
através do tratamento básico de sinais.

[237] 09:53in Nazi Germany.
Esta é uma forma simples de o fazer.

[238] 09:55Now these signals
Uma expetativa razoável

[239] 09:57are actually so strong
é a de que a fama de alguém num dado período de tempo

[240] 09:59that we don't need to know that someone was censored.
deverá ser sensivelmente a média da sua fama antes

[241] 10:02We can actually figure it out
e da sua fama posterior.

[242] 10:04using really basic signal processing.
Isso é aquilo que se espera.

[243] 10:06Here's a simple way to do it.
Comparamos isso com a fama que observamos.

[244] 10:08Well, a reasonable expectation
Depois é só dividir uma pela outra

[245] 10:10is that somebody's fame in a given period of time
para obter uma coisa a que chamamos "índice de supressão".

[246] 10:12should be roughly the average of their fame before
Se o índice de supressão for muito, muito baixo,

[247] 10:14and their fame after.
quase de certeza estão a ser censurados.

[248] 10:16So that's sort of what we expect.
Se for muito alto, então talvez estejam a beneficiar com a propaganda.

[249] 10:18And we compare that to the fame that we observe.
JM: Podemos mesmo ver

[250] 10:21And we just divide one by the other
a distribuição de índices de supressão em populações inteiras.

[251] 10:23to produce something we call a suppression index.
Por exemplo, aqui...

[252] 10:25If the suppression index is very, very, very small,
este índice de supressão é de cinco mil pessoas

[253] 10:28then you very well might be being suppressed.
escolhidas em livros em inglês onde não há supressão explícita...

[254] 10:30If it's very large, maybe you're benefiting from propaganda.
seria como este, centrado numa pessoa.

[255] 10:34JM: Now you can actually look at
O que se espera é aquilo que se observa.

[256] 10:36the distribution of suppression indexes over whole populations.
Esta é a distribuição observada na Alemanha

[257] 10:39So for instance, here --
- desvia-se para a esquerda.

[258] 10:41this suppression index is for 5,000 people
As pessoas falaram disso duas vezes menos do que o esperado.

[259] 10:43picked in English books where there's no known suppression --
Mais importante, a distribuição é mais alargada.

[260] 10:45it would be like this, basically tightly centered on one.
Há muitas pessoas que acabam na ponta esquerda na distribuição

[261] 10:47What you expect is basically what you observe.
de quem se falou menos dez vezes do que seria de esperar.

[262] 10:49This is distribution as seen in Germany --
Mas também muita gente na ponta direita

[263] 10:51very different, it's shifted to the left.
parece beneficiar com a propaganda.

[264] 10:53People talked about it twice less as it should have been.
Esta imagem é a marca distintiva da censura no registo dos livros.

[265] 10:56But much more importantly, the distribution is much wider.
ELA: "Culturómica"

[266] 10:58There are many people who end up on the far left on this distribution
é o que chamamos a este método.

[267] 11:01who are talked about 10 times fewer than they should have been.
É como genómica.

[268] 11:04But then also many people on the far right
Exceto que a genómica é uma lente sobre a biologia

[269] 11:06who seem to benefit from propaganda.
através da janela da sequência de bases no genoma humano.

[270] 11:08This picture is the hallmark of censorship in the book record.
A culturómica é parecida.

[271] 11:11ELA: So culturomics
É a aplicação da análise da recolha de dados em larga escala

[272] 11:13is what we call this method.
ao estudo da cultura humana.

[273] 11:15It's kind of like genomics.
Aqui, em vez de ser através da lente de um genoma,

[274] 11:17Except genomics is a lens on biology
é através da lente de peças digitalizadas do registo histórico.

[275] 11:19through the window of the sequence of bases in the human genome.
O que é genial na culturómica

[276] 11:22Culturomics is similar.
é que todos a podem fazer.

[277] 11:24It's the application of massive-scale data collection analysis
Porque é que todos a podem fazer?

[278] 11:27to the study of human culture.
Todos a podem fazer porque três indivíduos,

[279] 11:29Here, instead of through the lens of a genome,
Jon Orwant, Matt Gray e Will Brockman na Google,

[280] 11:31through the lens of digitized pieces of the historical record.
viram o protótipo do NGram Viewer,

[281] 11:34The great thing about culturomics
e disseram: "Isto é muito divertido.

[282] 11:36is that everyone can do it.
"Temos de tornar isto acessível às pessoas."

[283] 11:38Why can everyone do it?
Nas duas semanas antes da publicação do nosso artigo

[284] 11:40Everyone can do it because three guys,
fizeram o código para a versão pública do NGram Viewer.

[285] 11:42Jon Orwant, Matt Gray and Will Brockman over at Google,
Podemos escrever qualquer palavra ou frase em que estamos interessados

[286] 11:45saw the prototype of the Ngram Viewer,
e vemos imediatamente o seu n-grama,

[287] 11:47and they said, "This is so fun.
assim como vemos exemplos de todos os diversos livros

[288] 11:49We have to make this available for people."
onde surge esse n-grama.

[289] 11:52So in two weeks flat -- the two weeks before our paper came out --
JBM: Isto foi usado mais de um milhão de vezes no primeiro dia,

[290] 11:54they coded up a version of the Ngram Viewer for the general public.
o que é a melhor de todas as pesquisas.

[291] 11:57And so you too can type in any word or phrase that you're interested in
Todos querem o seu melhor, mostrar o seu melhor.

[292] 12:00and see its n-gram immediately --
Acontece que, no século XVIII, isso não acontecia.

[293] 12:02also browse examples of all the various books
Não queriam ser o seu melhor, queriam ser o seu "milhor".

[294] 12:04in which your n-gram appears.
Claro que o que aconteceu foi apenas um erro.

[295] 12:06JM: Now this was used over a million times on the first day,
Não que é que se esforçassem pela mediocridade,

[296] 12:08and this is really the best of all the queries.
é só porque o "e" escrevia-se de forma diferente, como um "i".

[297] 12:10So people want to be their best, put their best foot forward.
A Google não se apercebeu disso na altura,

[298] 12:13But it turns out in the 18th century, people didn't really care about that at all.
e nós referimos isso no artigo científico que escrevemos.

[299] 12:16They didn't want to be their best, they wanted to be their beft.
Acontece que isto é apenas um lembrete

[300] 12:19So what happened is, of course, this is just a mistake.
de que, embora seja tudo muito divertido,

[301] 12:22It's not that strove for mediocrity,
quando interpretamos gráficos, temos de ser cuidadosos.

[302] 12:24it's just that the S used to be written differently, kind of like an F.
Há que adotar os procedimentos científicos de base.

[303] 12:27Now of course, Google didn't pick this up at the time,
ELA: As pessoas têm usado isto para todo o tipo de diversão.

[304] 12:30so we reported this in the science article that we wrote.
(Risos)

[305] 12:33But it turns out this is just a reminder
Na verdade, nem é preciso falar,

[306] 12:35that, although this is a lot of fun,
vamos apenas mostrar-vos todos os slides e ficar calados.

[307] 12:37when you interpret these graphs, you have to be very careful,
Esta pessoa estava interessada na história da frustração.

[308] 12:39and you have to adopt the base standards in the sciences.
Há vários tipos de frustração.

[309] 12:42ELA: People have been using this for all kinds of fun purposes.
Se baterem com um dedo do pé, isso é um "ai" com um A.

[310] 12:45(Laughter)
Se o planeta Terra for aniquilado pelos Vogons

[311] 12:52Actually, we're not going to have to talk,
para criar um desvio interestelar,

[312] 12:54we're just going to show you all the slides and remain silent.
isso é um "aaaaaaaai" com oito A's.

[313] 12:57This person was interested in the history of frustration.
Esta pessoa estuda todos os "ais",

[314] 13:00There's various types of frustration.
entre um a oito A's.

[315] 13:03If you stub your toe, that's a one A "argh."
Acontece que os "ais" menos frequentes

[316] 13:06If the planet Earth is annihilated by the Vogons
são os que correspondem a coisas mais frustrantes,

[317] 13:08to make room for an interstellar bypass,
exceto, por incrível que pareça, nos princípios dos anos 80.

[318] 13:10that's an eight A "aaaaaaaargh."
Talvez tenha alguma coisa a ver com Reagan.

[319] 13:12This person studies all the "arghs,"
(Risos)

[320] 13:14from one through eight A's.
JM: Há muitas utilizações para estes dados,

[321] 13:16And it turns out
mas o mais importante é que está a ser digitalizado o registo histórico.

[322] 13:18that the less-frequent "arghs"
A Google começou a digitalizar 15 milhões de livros.

[323] 13:20are, of course, the ones that correspond to things that are more frustrating --
São 12% de todos os livros já publicados.

[324] 13:23except, oddly, in the early 80s.
É um pedaço considerável da cultura humana.

[325] 13:26We think that might have something to do with Reagan.
Há muito mais na cultura, há manuscritos, há jornais,

[326] 13:28(Laughter)
há coisas que não são textos, como arte e quadros.

[327] 13:30JM: There are many usages of this data,
Tudo isto está nos nossos computadores,

[328] 13:33but the bottom line is that the historical record is being digitized.
nos computadores de todo o mundo.

[329] 13:36Google has started to digitize 15 million books.
Quando isso acontece, irá transformar a forma

[330] 13:38That's 12 percent of all the books that have ever been published.
como entendemos o passado, o presente e a cultura humana.

[331] 13:40It's a sizable chunk of human culture.
Muito obrigado.

[332] 13:43There's much more in culture: there's manuscripts, there newspapers,
(Aplausos)

[333] 13:46there's things that are not text, like art and paintings.
--333--

[334] 13:48These all happen to be on our computers,
--334--

[335] 13:50on computers across the world.
--335--

[336] 13:52And when that happens, that will transform the way we have
--336--

[337] 13:55to understand our past, our present and human culture.
--337--

[338] 13:57Thank you very much.
--338--

[339] 13:59(Applause)
--339--