A inteligência artificial pode decifrar idiomas perdidos?

Cultuadas na sabedoria popular e nas lendas, antigas civilizações e seus idiomas esquecidos há muito tempo fascinam historiadores, arqueólogos e linguistas. Hoje em dia, esses pesquisadores têm um novo instrumento em suas caixas de ferramentas profissionais: A Inteligência Artificial, uma tecnologia que pode ajudar a desvendar os segredos de sociedades que desapareceram milênios atrás.

Hieróglifos e a Pedra de Roseta

Da escrita cuneiforme dos Sumérios às inscrições pré-Romanas dos Etruscos, tanto os acadêmicos quanto os amadores vêm se debruçando sobre essas relíquias há séculos. Dentre eles estava Jean-Francois Champollion (1790-1832), um jovem francês que decodificou um dos sistemas de escrita antiga mais conhecidos: os hieróglifos egípcios. Para conseguir isso, ele usou a famosa Pedra de Roseta. Esta estela de granodiorito apresentava inscrições com fragmentos do mesmo texto em 3 escritas—32 linhas de demótico, 14 linhas de hieróglifos e 54 linhas de grego.

Cuneiforme e outros enigmas antigos

Outro exemplo intrigante é o ugarítico. Descoberto por arqueólogos franceses em 1929 em uma série de placas de argila encontradas nos anos 1920 na Colina de Ugarit, em Ras Shamra, ele era escrito em um alfabeto cuneiforme consonantal. Este extinto idioma semítico do noroeste era usado por estudiosos hebreus que analisavam textos bíblicos em hebraico, revelando similaridades entre os antigos Israel e Judá, com suas culturas próximas.

Em outros lugares no mundo todo, há inúmeros textos misteriosos ainda a serem decifrados, como o Manuscrito Voynich (Europa), o Bloco de Cascajal (América Central), e o Rongorongo (Rapa Nui/Ilha de Páscoa).

Mistérios da Idade do Bronze

Talvez o exemplo mais conhecido da era moderna é o Linear B, inicialmente encontrado entre as ruínas de Creta remontando à Idade do Bronze. Embora o arquiteto britânico Michael Ventris normalmente receba os créditos por ter decifrado o Linear B—agora reconhecido como a forma mais antiga da ortografia grega e desenvolvido cerca de 1400 AC—seus esforços foram fortalecidos pela classicista Alice Kober. Ela compilou um ‘banco de dados’ analógico e primitivo em seu lar em Nova York, armazenando cerca de 180.000 tiras de papel em caixas de cigarros. Tragicamente, ela faleceu dois anos antes desse misterioso código ser decifrado por Ventris em 1952.

Entre eles, levou mais de seis décadas de grandes esforços para compreender o Linear B, que é uma ramificação do silabário Linear A, usado pela misteriosa civilização Minoica e possivelmente sem relação com os idiomas Indo-Europeus. Contudo, a tecnologia está acelerando a decodificação desses idiomas antigos, apenas um século após as escavações de Knossos pelo arqueólogo britânico Sir Arthur Evans (1851–1941).

O mistério do Vale do Indo

Durante os anos 1870, tijolos recolhidos de uma cidade em ruínas em Punjab eras usados como o lastro que suportava quase cem milhas de linhas férreas entre as cidades de Multan e Lahore. No entanto, o engenheiro do exército e pesquisador arqueológico Alexander Cunningham encontrou alguns fragmentos de cerâmica antiga, bem como uma minúscula placa de pedra com cerca de 1,5 polegada quadrada, onde estavam inscritos seis caracteres desconhecidos e um touro ou rinoceronte de um chifre (ou até mesmo um unicórnio).

Desde então, perto de 4.000 outras relíquias foram descobertas, a maior parte delas ao longo do Rio Indo, no Paquistão, com outras na Índia e até mesmo no Iraque. Contendo até 700 símbolos únicos, é bem provável que tivessem sido usados como certificados tributários e de comércio, possivelmente sendo lidos da direita para a esquerda. Porém, ninguém sabe o que significam esses sinais pré-Védicos, apesar das mais de uma centena de tentativas publicadas no século passado, mas há um ímpeto renovado sendo alimentado pela avançada tecnologia de IA.

Limites da aprendizagem profunda

Especialistas, como a pesquisadora dos códigos do Vale do Indo, Bahata Ansumali Mukhopadhyay, possuem ciência dos limites até mesmo dos computadores mais potentes. Ela acredita que muitos aspectos cognitivos não podem ser codificados em estruturas convenientes, pois as atuais iterações de IA são incapazes de processar informações que não possam ser quantificadas das formas conhecidas pelos computadores.

Até mesmo a aprendizagem profunda—a técnica de IA dominante hoje em dia—é apenas uma questão de reconhecimento de padrões, com os resultados melhorando paralelamente à quantidade de informações inseridas no sistema. Contudo, esta quantidade gigantesca de dados possui falhas em assuntos com poucos recursos, como idiomas antigos, que normalmente são incompletos, fragmentados e corroídos pelo tempo. Os estudiosos (e os computadores) não têm como saber se um arranhão significa um símbolo com um novo significado ou se é apenas um dano aleatório.

O que nos espera?

Até mesmo entusiastas da aprendizagem automática —como o cientista do MIT, Jiaming Luo—não esperam que as traduções instantâneas de idiomas perdidos sejam automaticamente produzidas em série por algum aplicativo “arqueo-trans”. No melhor cenário, ele prevê a análise desses fragmentos linguísticos em comparação com idiomas contemporâneos em seus arredores, buscando fragmentos de ligações linguísticas.

Ele sente que uma abordagem híbrida tem maior probabilidade de produzir resultados positivos. Inicialmente, a força bruta de imensos computadores pode ser usada para examinar artefatos e pré-selecionar possíveis relações com idiomas conhecidos. Isso pode salvar décadas de esforço dos antigos ortógrafos, permitindo que os especialistas de hoje assumam aspectos mais sutis, com a inspiração impulsionando cegos votos de confiança.

Conclusão: Os alfabetos e símbolos são reflexões únicas das civilizações que os usaram no passado. Milhares de anos depois, fica bem claro que até mesmo as máquinas mais sofisticadas não são páreo para o cérebro humano, particularmente na tradução de pensamentos e conceitos que individualizam cada sociedade.

Imagem de Peace,love,happiness do Pixabay