Você sabe quantas línguas indígenas há no Brasil? E você sabe o que fazer se quiser saber sobre estas línguas e suas artes verbais? O mundo tem 7000 línguas, e no Brasil estão mais de 150 delas, pertencentes a mais de um tronco linguístico, como pode ser observado nas duas primeiras figuras abaixo. E há muitas famílias linguísticas sem classificação em troncos ainda, apresentadas na terceira imagem.

Tronco Tupi

Figura 1: Famílias linguísticas do tronco Tupi (Fonte: ISA)

Tronco Macro-jê

Figura 2: Famílias linguísticas do tronco Macro-Jê (Fonte ISA)

Figura 3: Outras famílias (Fonte ISA)

Como se pode constatar, o Brasil tem uma enorme diversidade linguística. E, embora se possam encontrar estudos sobre estas línguas em trabalhos científicos, não é tão fácil encontrar materiais de narrativas indígenas na língua original com traduções e análise gramatical de modo online. Além disso, embora as comunidades contem com escolas indígenas, elas carecem de materiais para trabalhar gramática.

Por isso fizemos um corpus digital de uma dessas línguas, com narrativas, traduções e anotações sobre a sua gramática. O corpus está depositado em uma plataforma digital elaborada no IEL/UNICAMP que acomoda corpora linguísticos, a Plataforma Tycho Brahe (https://www.tycho.iel.unicamp.br/home).

Esta plataforma computacional foi elaborada sob a coordenação da docente do IEL Charlotte Galves, em cooperação com docentes de ciências da computação do IME/USP em sua primeira versão, e, a partir de 2012, em colaboração com o aluno de doutorado em linguística e cientista da computação, Luiz Veronesi, e poderá, no futuro, acomodar corpora de mais línguas e suas artes verbais. Este é um exemplo muito produtivo de cooperação em linguística e ciências da computação.

A língua cuja gramática e narrativas trabalhamos dentro do Tycho Brahe é o kadiwéu, língua da família Guaikurú. O kadiwéu tem bem menos de mil falantes, que moram no estado do Mato Grosso do Sul. Esta é a única língua da família Guaikurú no Brasil, e não se sabe ainda a qual tronco pertence dentro da América do Sul.

Dentro deste contexto, é importante ressaltar que a primeira mulher Kadiwéu na pós-graduação, Vanda Pires, está no IEL, onde faz mestrado em linguística. A mestranda pretende colaborar com o desenvolvimento deste corpus, mas até o momento as narrativas que estão armazenadas no corpus foram todas coletadas e analisadas gramaticalmente por mim, ao longo de 30 anos de pesquisa com esta língua.

As traduções foram feitas com o auxílio de Hilário Silva e Reinaldo Silva, falantes nativos do kadiwéu. Hilário Silva tem se dedicado ao trabalho comigo por trinta anos, colaborando imensamente para a documentação de sua língua e cultura. Além de ser um material rico para a análise linguística, é um material rico para a antropologia o estudo da mitologia Kadiwéu, uma vez que conta com as narrativas na língua original com traduções bilíngues (para o português e o inglês).

As línguas nativas do Brasil, já severamente ameaçadas antes da pandemia de COVID-19, enfrentam uma ameaça crescente com a morte de falantes nativos por esta doença. Por isso nosso trabalho é muito urgente, por promover uma inovação digital inclusiva, desenvolvendo uma plataforma computacional para dados que sejam cultural e gramaticalmente significativos.

Esses materiais linguísticos fornecerão uma base digital para uma educação bilíngue aprimorada, conexões inter-geracionais e a transmissão de conhecimento ancestral nas comunidades, além de preservar material que proporcionará futuras pesquisas nessas línguas ameaçadas de extinção. Os corpora orais servem como uma base empírica de dados essencial para a pesquisa linguística, e podem fornecer treinamento e recursos digitais para pesquisadores de língua e cultura usando métodos da antropologia e da linguística.

Segue abaixo uma foto de uma sentença do corpus kadiwéu online, com suas camadas de anotações gramaticais e traduções bilíngues. Nela, tanto as palavras como as unidades que formam palavras (morfemas) são anotadas. No futuro, anotações de análise sintática também estarão disponíveis. Neste momento, o corpus conta com 13 narrativas mitológicas anotadas. Esta sentença pertence ao mito da mulher onça (negedioli), uma narrativa épica sobre uma mulher que vira onça, tema recorrente da mitologia do pantanal brasileiro e da região do Chaco argentino e paraguaio.

Figura 4: Anotações de palavras e morfemas do kadiwéu na Plataforma Tycho Brahe

Gostaríamos também de compartilhar mais algumas informações sobre a Plataforma Tycho Brahe. Trata-se de uma estrutura computacional que facilita a coleta, anotação e comparação de dados textuais. A equipe de desenvolvimento desta plataforma, liderada pela professora Charlotte Galves, está trabalhando desde 1998 neste recurso computacional, e, desde 2012, em sua implementação de forma online. A ferramenta, baseada em navegador online, fornece funções de pesquisa, visualização e edição para anotações linguísticas com ferramentas integradas de tagger (etiquetador de palavras e morfemas) e parser (anotador sintático de sentenças).

A Plataforma Tycho Brahe complementa esforços paralelos em corpora computacionais online, como o ANNIS (corpus-tools.org/annis), desenvolvido na Humboldt University, Berlim, e está sendo aplicada a uma variedade de línguas, como o alemão, o árabe e muitas outras. Semelhante ao Tycho, o ANNIS é baseado em navegador de web e tem uma arquitetura de visualização para corpora linguísticos com multicamadas complexas e com diversos tipos de anotações.
Uma vantagem do Tycho é seu identificador e analisador multinível integrando ferramentas que analisam palavras e os blocos de construção de palavras (morfemas), tornando o Tycho particularmente adequado para a estrutura de palavras altamente complexa de muitas línguas da América do Sul, como o kadiwéu. A estrutura do Tycho é pioneira em sua aplicação a línguas indígenas da América do Sul.

O nome Tycho Brahe é uma homenagem ao astrólogo dinamarquês Tycho Brahe conhecido por suas anotações acuradas e detalhadas sobre constelações, no século 16. Consideramos a nossa tarefa como equivalente à de Tycho Brahe: fazemos anotações acuradas e detalhadas sobre as línguas do mundo ao longo de nossas vidas.

O primeiro corpus elaborado nesta plataforma foi o corpus de português clássico elaborado pela professora Charlotte Galves. O kadiwéu é a primeira língua indígena contemplada. Esperamos que outros pesquisadores de outras línguas possam se juntar a esta equipe, contribuindo assim para o conhecimento e preservação das línguas indígenas no Brasil.

Se você quiser saber mais sobre a língua kadiwéu e outras línguas indígenas do Brasil, mesmo sem ser linguista, leia o livro Índio Não Fala Só Tupi: uma viagem pelas línguas dos povos originários do Brasil, de Bruna Franchetto e Kristina Balykova (organizadoras), Editora 7Letras (Rio de Janeiro), onde há também um capítulo sobre o kadiwéu. E para visitar o corpus kadiwéu visite https://www.tycho.iel.unicamp.br/browser/catalog/C12. Basta clicar em cada imagem ou sentença e as camadas de anotações e traduções vão se abrir.
Esta pesquisa tem sido financiada, desde 1998, pela Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), através de vários projetos temáticos e uma escola São Paulo de ciências avançadas, e, neste ano de 2021, recebemos um prêmio da Associação Brasileira de Linguística (ABRALIN) na modalidade Tecnologia e Inovação em Pesquisa Linguística.

Em suma, resta lembrar que os anciãos são os mais vulneráveis em relação à pandemia de COVID 19 e há várias artes verbais em processo de desparecimento. Por exemplo, os Kadiwéu têm um ritual cantado chamado choro. Somente algumas anciãs sabem “chorar” atualmente. É bastante difícil traduzir um choro em kadiwéu, pois é cantado em uma variedade antiga desta língua, e, portanto, esta arte verbal ainda não está no corpus.

O choro é um ritual bastante visual e esperamos que a Plataforma Tycho Brahe possa contar em breve com uma camada de vídeo. Há muito ainda a fazer. A documentação é um trabalho árduo e lento, mas que abre possibilidades de mais pesquisas sobre língua e cultura, mesmo depois que seus idealizadores e a língua documentada não estiverem mais vivos.