Apresentação
O CE-DOHS (Corpus Eletrônico de Documentos Históricos do Sertão) apresenta textos escritos em língua portuguesa, por autores de diferentes etnias, nascidos no Brasil, entre 1586 e 1986. Adicionamente, um pequeno acervo de nascidos em Portugal, entre 1450 e 1850. Atualmente, há quase 50 acervos, que somam mais de 1 milhão de palavras (a meta é atingir 5 milhões de palavras), disponíveis na rede mundial de computadores, com diferentes formas acesso.Toda a base de textos resulta de pesquisas de prospecção e edição de fontes documentais – encontradas em dezenas de arquivos públicos e privados, nacionais e internacionais – e também de gravações de fala em diversas regiões da Bahia, realizadas, desde 1993, por pesquisadores e por estudantes bolsistas de Pós-Graduação e de Iniciação Científica do Departamento de Letras e Artes (DLA) da Universidade Estadual de Feira de Santana(UEFS), e também cedidas por outros projetos, por meio de parceria com outras instituições de Ensino Superior, em alguns casos mediante acordo de cooperação formal.
Logotipo
O logotipo CE-DOHS é a forma gráfica única, exclusiva e padronizada para veicular o sinal básico de identificação da plataforma do Corpus Eletrônico para a história do Português Brasileiro. Deve desempenhar as seguintes funções: identificar as mensagens visuais CE-DOHS, de forma imediata, unívoca e marcante; unificar e integrar as mensagens visuais CE-DOHS, consolidando sua identidade visual.
O Logotipo foi criado, a pedido da Coordenação, pelo artista Juraci Dória, em 2010, tendo, como inspiração, os sertões baianos, área de abrangência do projeto.
Histórico
O projeto CE-DOHS faz parte do Núcleo de Estudos de Língua Portuguesa (NELP), desde 2012, do Departamento de Letras e Artes (DLA) da Universidade Estadual de Feira de Santana (UEFS).
O NELP trabalha com duas agendas: formação de banco de textos de língua portuguesa e estudo sócio-histórico e linguístico do português. O CE-DOHS destaca-se, oferecendo, por meio de parceria tecnológica com o projeto Corpus Histórico do Português Tycho Brahe, da Universidade Estadual de Campinas e que está sob a coordenação da professora doutora Charlotte Galves, um banco eletrônico de mais de um milhão de palavras, para estudo da história do português brasileiro, numa parceria com o Projeto Nacional para a História do Português Brasileiro (PHPB). Essa constituição de banco de dados, segundo Bacelar do Nascimento (2004, p. 1),
- [...] favorece essencialmente uma Linguística descritiva, fortemente apoiada pelas novas tecnologias, e permite tomar como ponto de partida da descrição a análise de quantidade significativa de dados autênticos, à semelhança do que se faz noutros domínios científicos. O uso de corpora permite a realização de descrições lingüísticas de base empírica e promove, com isso, a discussão de questões teóricas solidamente fundamentadas.
Criado em 2012, com financiamento da Fundação de Amparo à Pesquisa do Estado da Bahia (FAPESB), o projeto CE-DOHS – organizado em duas fases: fase 1, que abrange documentos do século XVIII ao século XX, e fase 2, que abrange documentos dos séculos XVI e XVII – aproxima o campo filológico e o campo computacional, promovendo a edição, em linguagem XML, dos textos editados tradicionalmente, segundo critérios de edição semidiplomática, pelos pesquisadores do projeto Vozes do Sertão em Dados, criado em 2009, e por pesquisadores do CE-DOHS, que vêm sempre buscando diversificar o banco, com textos representativos das vertentes popular, sobretudo, e culta do português brasileiro.
Primeira fase
A primeira fase do projeto teve por objetivo compor um banco de textos de 1750 a 2000, representativos do período histórico do português brasileiro caracterizado pelo multilinguismo localizado; permite estudar a história do português brasileiro culto, semi-culto e popular nesse contexto. Há, como resultado dessa fase, vários trabalhos publicados pela equipe (cf. Lattes dos participantes da equipe).
São esses os subprojetos da fase 1:
- Elaboração de ferramentas computacionais para construção e uso do CE-DOHS.
- Aplicação de técnicas de anotação linguística e web-semântica no CE-DOHS (parceria com a USP).
- Acervos de cartas de português brasileiro culto, semiculto e popular (séculos XIX e XX).
- Cartas escritas por mãos “cândidas”: o caso dos inábeis (século XX).
- Corpora orais de português brasileiro culto e popular (século XX).
Segunda fase
A segunda fase, que começa agora a ser executada, em 2019, recua ainda mais no tempo, a uma época em que o multilinguismo no Brasil era generalizado (1500-1750)[1] . Tem por objetivo estudar a gestação do português brasileiro. Enfrenta essa fase a raridade das fontes: são raros os textos escritos por grupos nascidos no Brasil, sobretudo de índios e negros, etnias que não tiveram acesso à escola (as fontes para o estudo da história linguística das classes dominantes são mais generosas); o projeto, todavia, tem pequenos acervos desse período e bastante significativos, em breve disponibilizados na Plataforma.
Metodologia
A metodologia utilizada no controle de aspectos sócio-históricos é a Teoria da Variação Linguística[2], com aplicação para textos escritos, na chamada Linguística Histórica Sócio-Histórica [3]. Consideram-se as causas que apresentam impacto no processo de mudança do ponto de vista da Linguística Diacrônica, na visão da Gramática Gerativa Chomskiana [4], como o contato entre línguas, tanto línguas tipologicamente semelhantes quanto distintas, contato com línguas indígenas próximas e também diversas geneticamente[5] e com línguas da África subsaarina, sobretudo (7.000 línguas, entre 1676-1700, sobretudo da família Niger Congo [6]); o Brasil recebeu, até 1780, mais de um milhão e duzentos mil escravos, em processo de aquisição do português como L2, e sua transmissão para os descendentes como L1[7] .
Usa-se, para a edição em linguagem xml ou eletrônica, o eDictor, desenvolvido por Paixão de Sousa, Kepler e Faria (2010); trata-se de um editor de textos especialmente voltado ao trabalho filológico e à análise linguística automática.
Segundo Shepherd et al. (2012, p. 11),
- A ideia de coligir coleções de textos naturais com o objetivo de os submeter à análise linguística remonta ao trabalho dos estruturalistas norte-americanos da década de 1950, tais como Harris (1951) e Fries (1952). Com o Brown Corpus (Francis e Kucera, 1954), surgiria o primeiro corpus eletrônico compilado para este fim. Embora até hoje este corpus seja largamente utilizado, na altura praticamente não existiam textos escritos em formato digital, os computadores eram máquinas enormes e caras, que ocupavam salas inteiras, e os programas informáticos demoravam horas e até dias a correr.
O banco CE-DOHS veio somar-se aos corpora eletrônicos constituídos fundamentalmente para análises linguísticas. Trata-se de um trabalho valioso essa formação de banco de dados nas plataformas digitais, para os estudos linguísticos de maneira geral, especialmente, no que diz respeito ao CE-DOHS – considerando as perguntas sócio-históricas que embasaram sua constituição –, para os estudos da formação do português brasileiro, na área da Linguística histórica.
Áreas de atuação
As principais áreas de atuação do CE-DOHS são:
Edições Digitais/xml e geração automática de distintas edições facsimiladas
As edições que compõem os corpora eletrônicos apresentam rigor filológico, capturadas integralmente na edição em linguagem XML, por meio do uso da ferramenta eDictor [8] . A ferramenta oferece versões fac-similadas, semidiplomáticas, modernizadas e técnicas (para entrada em parser), além de produtos derivados, tais como: o léxico de edições.
Corpus Anotado (parsed)
O CE-DOHS, em sua versão anotada, permite buscas linguísticas automáticas e confiáveis, com uso de tecnologias de projetos de ponta, como o Brahe Parsed Corpus of Historical Portuguese e o Penn-Helsinki Parsed Corpora. O acesso pode ser feito por meio de buscas automáticas, como o corpus search.
Edições semidiplomáticas
Edições filológicas de documentos datados a partir de 1500, escritos por pessoas nascidas em diferentes cidades brasileiras; são controlados quanto a sua origem, fidedignidade, contexto de produção, local e data de escrita, para quem foram escritos e o por quê.
Dos seus escreventes são apresentadas fichas biográficas com informações sobre naturalidade/nacionalidade, escolarização, tipo de aquisição da língua, local e data de nascimento, filiação e profissão. Controla-se também a etnia: portugueses de diferentes procedências sociais, indígenas, mamelucos, africanos, mestiços e pardos.
Essas informações podem ser capturadas em fichas e quadros-sínteses, bem como de forma automática, acessando os metadados, por meio da ferramenta E-corp. O banco possibilita a montagem de corpora temáticos, tendo em vista os interesses do pesquisador.
A agenda de edições filológicas tradicionais se desenvolve no âmbito do Projeto Para a História do Português Brasileiro (PHPB), em um trabalho conjunto, que engloba diversas universidades brasileiras. Corpus PHPB Nacional. O CE-DOHS atua, especificamente, na plataforma de Corpora Bahia (PHPB-BA), coordenada pelas professoras Zenaide de Oliveira Novais Carneiro e Mariana Fagundes de Oliveira Lacerda.
Desenvolvimento de ferramentas computacionais para corpora
A Plataforma investe em ferramentas computacionais. Cria ferramentas, como o E-corp, e colabora na implementação de ferramentas, como o eDictor. Por meio de parceria, utilizam-se ferramentas de projetos como o Tycho Brahe.
- ↑ (MATTOS E SILVA, 2004; LUCCHESI, 2017)
- ↑ WLH,2006 [1968]; LABOV, 2008 [1972]; 1982; 1994; 2001a; 2001b; WLH, 1986)
- ↑ (MATTOS E SILVA, 2008)
- ↑ (CHOMSKY, 1986)
- ↑ (ARYON, 1986; 1993)
- ↑ (CASTRO, 2002)
- ↑ (BAXTER, 1985; LUCCHESI & BAXTER,2009;LUCCHESI,2009)
- ↑ (PAIXÃO DE SOUSA, 2004; TRIPPEL E PAIXÃO DE SOUSA, 2006; PAIXÃO DE SOUSA, 2007; PAIXÃO DE SOUSA E KEPLER, 2007; PAIXÃO DE SOUSA, KLEPER E FARIA, 2010)