L’intelligence artificielle peut-elle déchiffrer les langues perdues ?

Célébrées dans la tradition et dans la légende, les civilisations anciennes et leurs langues oubliés ont fasciné les historiens, les archéologues et les linguistes depuis longtemps. Aujourd’hui, ces chercheurs ont un nouvel instrument dans leurs boîtes à outils professionnelles : l’intelligence artificielle, une technologie qui pourrait révéler les secrets des sociétés disparues depuis des millénaires.

Hiéroglyphes et la pierre de Rosette

Des inscriptions cunéiformes sumériennes aux inscriptions étrusques préromaines, les universitaires et les amateurs se sont penchés sur ces reliques pendant des siècles. Parmi eux était Jean-François Champollion (1790-1832), un jeune Français qui a déchiffré l’un des systèmes d’écriture anciens les plus célèbres : les hiéroglyphes égyptiens. Pour faire cela il a utilisé la fameuse pierre de Rosette. Cette stèle de granodiorite portait des inscriptions du même texte en trois systèmes d’écriture : 32 lignes de démotique, 14 de hiéroglyphes, et 54 de grec.

Écriture cunéiforme et autres énigmes anciennes

Un autre exemple intrigant est l’ougaritique. L’ougaritique, un alphabet cunéiforme consonantique, fut découvert par des archéologues français en 1929 grâce à des tablettes d’argile trouvés dans le tell d’Ougarit. Cette langue morte sémitique du Nord-Ouest fut utilisée par des académiques hébraïques pour analyser textes de la Bible, ce qui a révélé des similarités entre l’Israël ancien, Juda, et leurs cultures voisines.

Ailleurs dans le monde, il reste de nombreux textes mystérieux à déchiffrer, comme le manuscrit de Voynich (Europe), la stèle de Cascajal (Amérique centrale) et des textes en rongorongo (Rapa Nui/île de Pâques).

Mystères de l’âge du bronze

L’exemple le plus connu dans l’actualité est peut-être le linéaire B, initialement trouvé parmi des ruines crétoises qui datent de l’âge du bronze. Bien que l’architecte britannique Michael Ventris soit généralement crédité d’avoir déchiffré le linéaire B, reconnu comme la première forme d’écriture grecque (développé vers 1400 avant JC), ses efforts avaient été soutenus par la classiciste Alice Kober. Elle avait compilé une base de données analogique primitive dans sa maison de New York, stockant environ 180 000 bouts de papier dans des boîtes à cigarettes. Malheureusement, elle est décédée deux ans avant que ce mystérieux code ne soit déchiffré par Ventris en 1952.

Entre eux, ils ont dédié plus de six décennies d’efforts rigoureux pour comprendre le linéaire B, une ramification du syllabaire linéaire A, qui fut utilisé par la mystérieuse civilisation minoenne et n’a peut-être pas de rapport avec les langues indo-européennes. Cependant, juste un siècle après les fouilles de Knossos menées par l’archéologue britannique Sir Arthur Evans (1851-1941), la technologie est en train d’accélérer le déchiffrement de ces langues anciennes.

Le mystère de la vallée de l’Indus

Au cours des années 1870, des briques récupérées d’une ville en ruine du Pendjab furent utilisées comme du ballast au long de près de cent milles de voie ferrée entre les villes de Multan et Lahore. Cependant, l’ingénieur de l’armée et archéologue Alexander Cunningham a trouvé quelques fragments de poterie ancienne, ainsi qu’une minuscule tablette de pierre d’environ 1,5 pouce carré, portant l’inscription de six symboles inconnus et un taureau ou rhinocéros à une corne (ou peut-être même une licorne).

Depuis lors, quelque 4 000 autres reliques ont été découvertes, la plupart le long du fleuve Indus au Pakistan, d’autres en Inde et même en Irak. Contenant jusqu’à 700 symboles uniques, il semble probable qu’ils aient été utilisés comme sceaux de contrôle fiscal et commercial, et possiblement lus de droite à gauche. Personne ne sait ce que signifient ces signes pré-védiques, malgré plus d’une centaine de tentatives publiées au cours du siècle dernier, mais grâce àla technologie de pointe de l’intelligence artificielle il y a un nouvel élan dans le processus de déchiffrement.

Les limites de l’apprentissage profond

Des experts comme la chercheuse Bahata Ansumali Mukhopadhyay, qui étudient les systèmes d’écriture de l’Indus, sont bien conscients des limites des ordinateurs, même les plus puissants. Elle croit que de nombreux aspects cognitifs ne peuvent pas être encodés dans des cadres pratiques, car les itérations actuelles de l’IA sont incapables de gérer des informations qui ne sont pas quantifiables d’une manière comprise par les ordinateurs.

Même l’apprentissage profond, actuellement la technique d’IA dominante, n’est qu’une question de reconnaissance de motifs : les résultats s’améliorent parallèlement à la quantité d’informations introduites dans le système. Cependant, cette approche (utiliser des grandes quantités de données pour améliorer les résultats) échoue avec des sujets à faibles ressources comme les langues anciennes, qui sont souvent incomplètes. Les chercheurs (et les ordinateurs) n’ont aucun moyen de distinguer entre une égratignure et un signe diacritique, par exemple.

Qu’est-ce qui nous attend ?

Même les défenseurs de l’apprentissage automatique, comme le scientifique du MIT Jiaming Luo, ne s’attendent pas à ce qu’une application puisse produire des traductions instantanées des langues mortes. Au mieux, il envisage d’analyser ces fragments linguistiques par rapport aux langues contemporaines de leurs régions environnantes, à la recherche de liens linguistiques.

Il estime qu’une approche hybride est la plus susceptible de produire des résultats positifs. Initialement, la force brute des ordinateurs massifs pourrait être utilisée pour examiner les artefacts et établir une liste restreinte des relations possibles avec des langues connues. Cela peut économiser du temps par rapport aux efforts des experts en orthographe du passé et permet aux experts de l’actualité de se concentrer sur des aspects plus subtils et de donner lieu à l’inspiration et à la spéculation.

Conclusion : Les alphabets et les symboles sont des reflets uniques des civilisations qui les utilisaient autrefois. Des milliers d’années plus tard, il est clair que même les machines les plus sophistiquées ne sont toujours pas à la hauteur du cerveau humain, notamment pour traduire les pensées et les concepts qui rendent chaque société unique.

Image de Peace,love,happiness sur Pixabay