El Google Ngram Viewer o Google Books Ngram Viewer és un motor de cerca en línia que representa les freqüències de qualsevol conjunt de cadenes de cerca utilitzant un recompte anual de n -grams que es troben en fonts impreses publicades entre 1500 i 2019 als corpus de text de Google en anglès, xinès (simplificat), alemany, hebreu, italià, rus o espanyol. També hi ha alguns corpus especialitzats en anglès, com l'anglès americà, l'anglès britànic i la ficció anglesa.[1]
El programa pot cercar una paraula o una frase, incloses les faltes d'ortografia o un galimaties. Els n -grams coincideixen amb el text dins del corpus seleccionat, opcionalment utilitzant l'ortografia sensible a majúscules (que compara l'ús exacte de les lletres majúscules), i, si es troben en 40 llibres o més, es mostren com a gràfic. . El Google Ngram Viewer admet cerques de parts de parla i comodins.[1] S'utilitza habitualment en recerca.[2][3]
Història
El programa va ser desenvolupat per Jon Orwant i Will Brockman i va ser llançat a mitjans de desembre de 2010. Es va inspirar en un prototip anomenat Bookworm creat per Jean-Baptiste Michel i Erez Aiden de l'Observatori Cultural de Harvard, Yuan Shen del MIT i Steven Pinker.[4]
L'Ngram Viewer es va basar inicialment en l'edició de 2009 del Google Books Ngram Corpus. A Juliol 2020[update] , el programa admet corpus de 2009, 2012 i 2019.
Funcionament i restriccions
Les comes delimiten els termes de cerca introduïts per l'usuari, indicant cada paraula o frase separada a trobar. L'Ngram Viewer retorna un gràfic de línies gràfics.
Com a ajustament per haver publicat més llibres durant alguns anys, les dades es normalitzen, a nivell relatiu, pel nombre de llibres publicats en cada any.
A causa de les limitacions de la mida de la base de dades Ngram, només les coincidències que es troben en almenys 40 llibres s'indexen a la base de dades.
Corpora
Els corpora utilitzats pel cercador estan compostos per total_counts, 1-grams, 2-grams, 3-grams, 4-grams, i 5-grams arxius per a cada idioma. El format de cada fitxer té el format tab-separated data. Cada línia té el següent format [5]
total_counts file
year TAB match_count TAB page_count TAB volume_count NEWLINE
Versió 1 ngram file (generated in July 2009)
ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
Versió 2 ngram file (generated in July 2012)
ngram TAB year TAB match_count TAB volume_count NEWLINE
El Google Ngram Viewer utilitza match_count per produir el gràfic.
Per exemple, la paraula "Wikipedia" del fitxer versió 2 de N-gram en anglès està arxivada com: [6]
ngram
any
match_count
volume_count
Wikipedia
1904
1
1
Wikipedia
1912
11
1
Wikipedia
1924
1
1
Wikipedia
1925
11
1
Wikipedia
1929
11
1
Wikipedia
1943
11
1
Wikipedia
1946
11
1
Wikipedia
1947
11
1
Wikipedia
1949
11
1
Wikipedia
1951
11
1
Wikipedia
1953
22
2
Wikipedia
1955
11
1
Wikipedia
1958
1
1
Wikipedia
1961
22
2
Wikipedia
1964
22
2
Wikipedia
1965
11
1
Wikipedia
1966
15
2
Wikipedia
1969
33
3
Wikipedia
1970
129
4
Wikipedia
1971
44
4
Wikipedia
1972
22
2
Wikipedia
1973
1
1
Wikipedia
1974
2
1
Wikipedia
1975
33
3
Wikipedia
1976
11
1
Wikipedia
1977
13
3
Wikipedia
1978
11
1
Wikipedia
1979
112
12
Wikipedia
1980
13
4
Wikipedia
1982
11
1
Wikipedia
1983
3
2
Wikipedia
1984
48
3
Wikipedia
1985
37
3
Wikipedia
1986
6
4
Wikipedia
1987
13
2
Wikipedia
1988
14
3
Wikipedia
1990
12
2
Wikipedia
1991
8
5
Wikipedia
1992
1
1
Wikipedia
1993
1
1
Wikipedia
1994
23
3
Wikipedia
1995
4
1
Wikipedia
1996
23
3
Wikipedia
1997
6
1
Wikipedia
1998
32
10
Wikipedia
1999
39
11
Wikipedia
2000
43
12
Wikipedia
2001
59
14
Wikipedia
2002
105
19
Wikipedia
2003
149
53
Wikipedia
2004
803
285
Wikipedia
2005
2964
911
Wikipedia
2006
9818
2655
Wikipedia
2007
20017
5400
Wikipedia
2008
33722
6825
El gràfic de Google Ngram Viewer basat en les dades presentades a dalt es troba aquí .
Limitacions
El conjunt de dades ha estat criticat per la seva confiança en l'OCR inexacte, una sobreabundància de literatura científica i per incloure un gran nombre de textos amb data i categorització incorrecta.[7][8] A causa d'aquests errors, i perquè no es controla el biaix [9] (com ara la creixent quantitat de literatura científica, que fa que altres termes apareguin disminuir en popularitat), és arriscat utilitzar aquest corpus per estudiar el llenguatge o provar teories. . Com que el conjunt de dades no inclou metadades, pot ser que no reflecteixi un canvi lingüístic o cultural general [10] i només pot indicar aquest efecte.
S'han proposat directrius per fer recerca amb dades de Google Ngram que aborden molts dels problemes comentats anteriorment.[11]
Problemes d'OCR
El reconeixement òptic de caràcters, o OCR, no sempre és fiable i és possible que alguns caràcters no s'escanegin correctament. En particular, errors sistèmics com la confusió de s i f en textos anteriors al segle XIX (a causa de l'ús de la s llarga, que era semblant en aparença a f ) poden causar biaix sistèmic. Tot i que Google Ngram Viewer afirma que els resultats són fiables a partir de 1800, un OCR deficient i les dades insuficients fan que les freqüències donades per a idiomes com el xinès només siguin precises a partir de 1970, i les parts anteriors del corpus no mostren cap resultat per a termes comuns., i dades d'alguns anys que contenen més del 50% de soroll.[12][13]