Resumo: Os repositórios de documentos históricos digitalizados ampliaram as possibilidades de pesquisa acerca de fontes históricas. Dentre estes repositórios, destaca- se a iniciativa do The New York Times de digitalizar todos os artigos que foram produzidos desde sua fundação em 1851. Partindo deste material, o objetivo deste estudo é caracterizar o vocabulário das manchetes que citam o Brasil no The New York Times. Para tanto, o método utilizado foi a linguística quantitativa, que analisou um corpus de 80.565 manchetes de notícias que contiveram a palavra brazil, desde 1851 até 2021. Os resultados sugerem que o The New York Times privilegia temáticas que reforçam o estereótipo negativo que o Brasil já possui, como a concepção de uma “nação do futebol” e de que a contribuição econômica mais relevante do país é a exportação de commodities.

Introdução

Repositórios históricos são sistemas informáticos que objetivam armazenar, organizar e difundir o acesso à documentos históricos digitalizados, como jornais antigos, conteúdo literário, obras artísticas, artigos científicos, material jurídico, dentre outros. Exemplos de iniciativas deste gênero são a Biblioteca Digital Nacional do Brasil [1] e o Portal Domínio Público [2] , que disponibilizam diversos documentos históricos sob domínio público, sem qualquer tipo de restrição ou condição de acesso. Estes serviços públicos, além de ampliarem o acesso universal à informação, podem contribuir para o desenvolvimento da pesquisa em diversos campos do conhecimento, desde estudos históricos e literários, até pesquisas sobre a linguagem e o desenvolvimento da inteligência articial.

Devido a digitalização destes materiais, livros importantes da literatura brasileira, como Dom Casmurro e Memórias Póstumas de Brás Cubas se tornaram datasets [3] para o estudo da linguagem natural através de instrumentos computacionais. Na área de Processamento de Linguagem Natural (PLN), documentos digitalizados são utilizados para o desenvolvimento de OCRs, corretores ortográficos, analisadores morfológicos, dentre outros tipos de programas que estão associados a análise e interpretação da linguagem.

Neste sentido, destaca-se a iniciativa do jornal estadunidense The New York Times (NYTimes), que digitalizou [4] todos os artigos que produziu desde sua fundação em 1851. Embora este conteúdo esteja disponível sob algumas restrições de acesso, de forma que seja necessária uma assinatura para obter acesso irrestrito, esta digitalização possibilitou que pesquisadores estudassem este material de forma muito mais acessível. Não obstante, este estudo se apropria desta [não tão] nova possibilidade para investigar este conteúdo histórico sob o viés da linguística quantitativa.

Desta forma, o tema desta pesquisa é a análise do vocabulário das manchetes que citam o Brasil no The New York Times. O objetivo deste estudo é caracterizar o vocabulário das manchetes que citam o Brasil no The New York Times. A questão de pesquisa é a seguinte: de que forma se manifesta o vocabulário das manchetes que citam o Brasil no The New York Times? Para tanto, o método utilizado foi a linguística quantitativa segundo Rasinger (2014), que foi sistematizada através de instrumentos de PLN. O corpus analisado correspondeu a série histórica de 80.565 manchetes de notícias que citam o Brasil, desde 1851 até 2021, as quais foram coletados através da API de notícias [5] do NYTimes.

Delineamento metodológico

De acordo com Cardoso e Vainfas (2012), as pesquisas das ciências humanas e sociais se estabelecem em uma relação sujeito-objeto, a qual incide nas relações entre o pesquisador e seu objeto de pesquisa. Os autores defendem que, enquanto sujeito, a objetividade do pesquisador está afetada pelas suas individualidades, assim como discurso, enquanto objeto de pesquisa, também não é capaz de refletir, sem distorções, os acontecimentos e a sociedade que se propõe a falar sobre, pois estes são inalcançáveis, de forma que através da linguagem seja possível apenas representá-los. Conforme perceberam os construcionistas (CARDOSO; VAINFAS, 2012), quanto ao texto escrito, a linguagem natural está carregada pela carga individual dos que escrevem, de forma que a neutralidade do texto seja inviável tanto para os relatos do pesquisador quanto para as fontes que este sujeito se propõe a analisar. Desta forma, de acordo com Peterson e Lovato (2013), o “giro linguístico” deslocou o discurso histórico da posição de discurso verdadeiro para colocá-lo às fronteiras da ficção.

Cardoso e Vainfas (2012) postulam que a época na qual o pesquisador está inserido também é determinante para a construção do conhecimento, pois além das suas individualidades, este sujeito é afetado pela sociedade e pelas limitações do seu tempo presente. O próprio labor empírico é afetado por estas questões, pois a construção da ciência é limitada pelo seu estado-da-arte e pelos instrumentos que estão disponíveis em sua época. Desta forma, os marxistas, nesta perspectiva construcionista, postulam que a produção de conhecimento é uma equação entre as individualidades e coletividades do pesquisador em vista dos viéses que as fontes carregam. O conhecimento é então uma projeção subjetiva da realidade objetiva, que se constroí pelas consciências humanas e transforma-se através das práxis (CARDOSO; VAINFAS, 2011).

No entanto, embora seja importante considerar este caráter relativista, conforme tensiona Jenkins (2009), mesmo que existam estes vieses e as questões ideológicas do pesquisador, o que separa o conhecimento científico do senso comum é o método científico, pois independente das diversas escolhas metodológicas que estão disponíveis, a maior parte vai concordar nos aspectos fundamentais. Conforme situa Barros (2017), para além das questões ideológicas, as partes mais “técnicas” do fazer científico, como coleta de dados e tratamento das fontes, geralmente é concordante com qualquer que sejam as teorias de escolha do pesquisador. Portanto, em consonância com os tensionamentos do podcast “O que é história?” [6] , diferente do que fazem crer alguns revisionistas, independente das escolhas teórico-metodológicas, é impossível que questões factuais (como o holocausto, por exemplo) sejam completamente rejeitadas a não ser em função das crenças e desejos do pesquisador.

Desta forma, em perspectiva destas questões teórico-metodológicas, o procedimento técnico adotado nesta pesquisa se alinha com a linguística quantitativa segundo Rasinger (2014), que orienta acerca de diversos instrumentos metodológicos para analisar o texto escrito de forma quantitativa.

Para cumprir o objetivo desde estudo, de caracterizar o vocabulário das manchetes que citam o Brasil no The New York Times, primeiramente, um corpus de manchetes de notícias que foram produzidas por este veículo foram coletados. Para tanto, a API de busca de artigos do NYTimes foi utilizada, a qual possibilizou a coleta de todas as manchetes de notícias com a palavra brazil, desde 1851 até 2021. Destaca-se que este critério de seleção está estabelecido para além das manchetes, de forma que notícias que não agreguem a palavra brazil na manchete, mas contenham-na no corpo do artigo também foram mapeadas para o corpus. Portanto, não necessariamente foram selecionadas notícias sobre o Brasil, pois simplesmente foram coletadas notícias partindo desta palavra-chave. Com isso, foi obtido um corpus de 80.565 manchetes de notícias, as quais foram sistematicamente armazenadas e organizadas.

Por fim, quanto aos procedimentos de análise, os instrumentos utilizados foram a quantificação da frequência absoluta dos vocábulos e as técnicas básicas da estatística descritiva, com enfoque na apresentação e sumarização do corpus (RASINGER, 2014).

As analises foram programadas através da linguagem JavaScript, sob o framework NodeJS. Quanto ao pré-processamento do corpus, todos os caracteres foram transformados em minúsculos, acentos gráficos e pontuações foram removidas e todo o conteúdo textual foi tokenizado e posteriormente filtrado através de um dicionário de stopwords. Para este estudo, considera-se que uma correlação é forte quando r ≥|0,6| e muito forte quando r ≥|0,8|.

Resultados e discussão

Como é típico em pesquisas com corpus qualitativo, as primeiras análises foram de viés exploratório, que objetivaram adquirir mais detalhes acerca da distribuição e vocabulário das notícias. Desta forma, para esta aproximação inicial, foi calculada a quantidade de notícias por ano (QNA), que segue ilustrada conforme a Figura 1.

Figura 1 – Quantidade de notícias por ano

Fonte: elaborada pela pesquisadora.

Fica evidente que em alguns anos houve aumento substancial na publicação de notícias que citam o Brasil, especialmente em 1964, 2006 e 2014, que contiveram, respectivamente, 1463, 3234 e 2351 notícias, consideravelmente acima da média anual de 471,140 notícias. Por outro lado, embora existam esses aumentos esporádicos que fogem da curva de crescimento, os dados sugerem que a quantidade de notícias que citam o Brasil está aumentando (r =0,785).

Após esta analise, foram buscadas questões mais pontuais acerca do vocabulário das notícias. Nesta perspectiva, foram obtidos os valores para o tamanho do vocabulário por ano (TVA), quantidade de palavras por ano (QPA) e tamanho médio da manchete por ano (TMMA).

Figura 2 – Análise do conteúdo textual

Fonte: elaborada pela pesquisadora.

Em relação a Figura 2, foi verificado forte correlação entre QNA e QPA (r =0,939), QNA e TVA (r =0,906) e QPA e TVA (r =0,951). No entanto, não foram observadas correlações entre QNA e TMMA (r =-0,466), QPA e TMMA (r =-0,309) e TVA e TMMA (r =-0,347).

Estes resultados demonstram que nos anos em que a quantidade de notícias foi maior, também houve maior quantidade de palavras e, por consequência, o tamanho do vocabulário também aumentou. Por outro lado, não foram verificadas relações entre a quantidade de caracteres da manchete (TMMA) e tamanho do vocabulário (TVA), demonstrando que manchetes mais extensas não necessariamente apontam para um maior repertório de palavras no NYTimes.

Por seguinte, foi desenvolvida uma núvem de palavras para demonstrar quais vocábulos eram mais importantes. A Figura 3 ilustra os resultados dessa análise, de forma que palavras com a fonte maior, significam maior frequência absoluta do vocábulo em questão.

Figura 3 – Núvem de palavras do corpus

Fonte: elaborada pela pesquisadora.

Aqui ficam evidentes as palavras mais utilizadas no vocabulário deste dataset, as quais remetem à questões políticas e econômicas e também à temática futebol. Quanto as questões econômicas, este aspecto pode ser observado na manifestação dos vocábulos business, trade, coffee, markets e prices. Para as questões políticas, destacam-se os vocábulos president, government e minister. Já em relação a temática futebol, está representada através dos vocábulos cup e soccer. Outras manifestações relevantes são os vocábulos rio, oil e amazon.

A Tabela 1 sintetiza alguns detalhes acerca destes vocábulos para os anos em que houve maior frequência de sua manifestação. Desta forma, as ocorrências registram a frequência do vocábulo para o ano, mas a média e o total se referem a todo o dataset, de forma que seja a frequência média de manifestação ao ano e o total de ocorrências do vocábulo para todo o corpus. Como critério de comparação, destaca-se que a frequência média da manifestação de um vocábulo foi de 12,815 ocorrências.

Tabela 1 – Descrição dos vocábulos selecionados

Fonte: elaborada pela pesquisadora.

Partindo destes resultados, é possível perceber que quando existem vocábulos que se referem à questões econômicas e de mercado, o Brasil é citado principalmente pela sua atuação na produção e exportação de commodities. Isso fica evidente através das muitas notícias acerca da oscilação nos preços do café brasileiro em 1964, ano em que ocorreu o Golpe Militar, o qual pareceu subnoticiado frente as muitas notícias acerca desta questão do café.

Por outro lado, quanto a temática futebol, o Brasil é constamente referenciado, sendo tratado com protagonismo através de diversas notícias específicas acerca da atuação de brasileiros nesta prática esportiva. Os dados também sugerem que embora existam picos na manifestação das palavras cup e soccer, existe por ano, em média, respectivamente, 22 e 17 notícias que contém estas palavras, evidenciado que esta é uma temática que se mantém associada ao Brasil independente da época.

Conforme Paganotti (2007) tensiona, estes correspondentes internacionais, como o NYTimes, conseguem reforçar alguns estereótipos da identidade do Brasil, pois podem reproduzir características falsas ou exageradas acerca do país, como a ideia de “nação do futebol”, por exemplo. Destaca-se que o NYTimes possui grande relevância internacional, de forma que quando um país ganha destaque em suas notícias, outras nações podem construir suas percepções tendo como critério estas informações (LIMA; SANTOS FILHO, 2015).

Além desses vieses discursivos, destaca-se que as materialidades da comunicação também podem incidir no teor das notícias. Em perspectiva mais recente, destaca-se o aspecto da plataformização e dos processos de bundling e unbundling apresentados por Van Dijck, Poell e De Waal (2018) como materialidades que podem incidir na produção deste tipo de texto. Isso ocorre porque estes veículos, com o objetivo de ampliar o acesso ao conteúdo jornalístico, podem privilegiar a produção de notícias acerca de temáticas que sejam beneficiadas pelo ranqueamento dos motores de busca e pelos algoritmos de filtragem e ordenação dos agregadores de notícias.

Não obstante, para além das recentes reformas na prática jornalística (DEUZE; WITSCHGE, 2015), que também foram motivadas pela ascenção das plataformas digitais, a comunicação está em constante mudança, de forma que os fatores linguagem, cultura e tecnologia estejam fortemente relacionados em sua construção (PERLES, 2007).

Conforme argumenta Tellaroli e Albino (2007), já no século XIX começaram a aparecer notícias menos opinativas e mais voltadas para questões factuais, posicionamento este que ganhou maior tração à partir da segunda metade do século XX, quando as notícias passaram a ser descritivas, sem qualquer análise ou interpretação dos fatos.

Posteriormente, nos anos 70 e 80, o jornalismo foi impactado pelas TICs, vide a convergência das telecomunicações com a informática. Desta forma, vide estes exemplos, todas essas questões podem ser fatores de impacto nesta construção da identidade brasileira segundo o NYTimes.

Considerações finais

Esta foi uma pesquisa acerca da temática análise do vocabulário das manchetes que citam o Brasil no The New York Times, que através da linguística quantitativa, investigou o conteúdo textual das manchetes de notícias entre 1851 e 2021 que contiveram a palavra brazil.

Para próximos estudos, é importante analisar recortes mais específicos do NYTimes, de forma que tanto pesquisas quantitativas quanto qualitativas seriam possibilidades metodológicas. Como limitação deste estudo, destaca-se que as analises privilegiaram o aspecto longitudinal em detrimento de um aprofundamento maior do corpus. Além disso, somente as manchetes foram considerados para a analise, de forma que investigar o conteúdo textual dos artigos, assim como outros metadados, poderia relevar mais detalhes acerca dessas textualidades.

Referências

BARROS, José D. Teoria e formação do historiador. Petrópolis, RJ: Vozes, 2017.

CARDOSO, Ciro F.; VAINFAS, Ronaldo. Domínios da História : Ensaios de Teoria e Metodologia. 2ª ed. Rio de Janeiro: Elsevier, 2011.

CARDOSO, Ciro F.; VAINFAS, Ronaldo. Novos Domínios da História : Ensaios de Teoria e Metodologia. 2ª ed. Rio de Janeiro: Elsevier, 2012.

DEUZE, Mark; WITSCHGE, Tamara. Além do Jornalismo. Leituras do Jornalismo , v. 2, n. 4, p. 1-31, 2015.

JENKINS, Keith. A História repensada. 3ª Ed., São Paulo: Contexto, 2009.

LIMA, José R. de; SANTOS FILHO, Ivanaldo O. dos. O Brasil na ótica do jornal norte- americano The New York Times. Revista de Estudos da Comunicação , v. 16, n. 40, 2015.

PAGANOTTI, Ivan. Imagens e estereótipos do Brasil em reportagens de correspondentes internacionais. Rumores , v. 1, n. 1, 2007.

PETERSEN, Silvia R. F.; LOVATO, Bárbara H. Introdução ao Estudo da História : Temas e Textos. Porto Alegre: Edição do Autor, 2013.

RASINGER, Sebastian M. Quantitative research in linguistics : An introduction. 2 ed. Nova Iorque: Bloomsbury Academic. 2014.

TELLAROLI, Taís M.; ALBINO, João P. Da sociedade da informação às novas tic’s: questões sobre internet, jornalismo e comunicação de massa. Diversidade e igualdade na comunicação coletânea de textos do Fórum da Diversidade e Igualdade: cultura, educação e mídia. Bauru: FAAC/Unesp, SESC , 2007.

VAN DIJCK, José; POELL, Thomas; DE WAAL, Martijn. The platform society : Public values in a connective world. Oxônia: Oxford University Press, 2018.

[1] Disponível em: bndigital.bn.gov.br. Acesso em: 11 jul. 2021.

[2] Disponível em: dominiopublico.gov.br. Acesso em: 11 jul. 2021.

[3] A ferramenta NLTK possui datasets para diversos idiomas, dentre eles para o português do Brasil. Disponível em: nltk.org. Acesso em: 11 jul. 2021.

[4] Através da página Archive do NYTimes é possível rastrear artigos para desde a fundação do jornal. Disponível em: archive.nytimes.com. Acesso em: 11 jul. 2021.

[5] Documentação da API de busca de artigos do NYTimes. Disponível em: developer.nytimes.com. Acesso em: 11 jul. 2021.

[6] Episódio do podcast “História em Meia Hora”. Disponível em: googleusercontent.com. Acesso em: 11 jul. 2021.

O que o The New York Times diz sobre o Brasil? Análise do vocabulário através da linguística quantitativa

Trabalho apresentado no Seminário de Pós-Graduação da Inovamundi 2021.

Introdução

Delineamento metodológico

Resultados e discussão

Considerações finais

Referências

A manifestação da masculinidade tóxica em um fórum de internet anônimo brasileiro

"Queremos impeachment": analisando os comentários de leitores do G1 sobre Jair Bolsonaro através de uma rede de palavras

Impacto das materialidades digitais nos comentários do G1

Comentários históricos de leitores sobre notícias do G1