“Challenges and opportunities for the Portuguese/Galician-speaking language industry in the age of LLMs”. Senén Barro Ameneiro (CiTIUS, Galiza), Diego Vázquez (imaxin|software, Galiza), Livy Real (Quinto Andar, Brazil), Carlos Amaral (Priberam, Portugal), Paulo Cavalin (IBM Research, Brazil) e José Ramom Pichel (Nós Project, Galiza)
É uma aproximação duradoura e não há volta a dar”: Três galegos no comité organizativo da maior conferência de Processamento Computacional do Português.
Encontro privilegiado para académicos, investigadores e especialistas da indústria empenhados no avanço das tecnologias da língua e da fala, realizou-se em Santiago de Compostela entre 13 e 15 de março.
A 16ª Conferência Internacional sobre Processamento Computacional do Português (PROPOR 2024) acontecido na Galiza é um evento extraordinário, mas que passou despercebido por grande parte das pessoas.
Ao longo das suas edições, o evento tem sido uma reunião científica na sua área, historicamente rotativo entre o Brasil e Portugal e organizado e planeado desde 2006 como um encontro bienal: Lisboa (1993), Curitiba (1996), Porto Alegre (1998), Évora (1999), Atibaia (2000), Faro (2003), Itatiaia (2006), Aveiro (2008), Porto Alegre (2010), Coimbra (2012), São Carlos (2014), Tomar (2016), Canela (2018), Évora (2020) e Fortaleza (2022).
Sendo assim, a Galiza serviu, pela primeira vez e de maneira pioneira, como um espaço fora do eixo Brasil-Portugal para o evento, proporcionando tanto um centro de convergência de conhecimentos técnicos como também um local de reencontro entre as nações e os povos que participaram.
Ao aprofundar a análise do evento e o papel do comité de direção do PROPOR, pretendemos contextualizar os debates e os avanços que se esperam que ocorram no futuro. Nas secções seguintes, aprofundamos os contornos temáticos do PROPOR 2024, destacando as principais áreas de enfoque e, em especial, os depoimentos de pessoas que participaram tanto nos congressos como nos bastidores para que tudo fosse possível.
Assim, entrevistamos José Ramóm Pichel (JP), Engenheiro Informático pela Universidade da Corunha, Doutor em Engenharia Informática pela EHU/UPV (Universidade do País Vasco) e um dos fundadores da Imaxin|Software, empresa especializada nas tecnologias da linguagem (PLN); Marcos Garcia (MG), licenciado em Filologia pela Universidade de Santiago de Compostela (USC), com Máster de Linguística pela Universidade de Lisboa e especializado em Linguística Computacional; e Paulo Gamalho (PG), licenciado em Filologia Hispânica pela USC, na qual é docente, Doutor em Linguística pela Université Blaise Pascal e também investigador especializado em Linguística Computacional.
❧
Durante os dias 13 ao 15 de março, a décima sexta edição do PROPOR ocorreu na Galiza, conduzindo diversas conferências. O evento acontece a cada dois anos, sempre revezando entre o Brasil e Portugal. Acreditam que a Galiza como anfitriã é um ponto fora da curva ou o começo de uma aproximação duradoura?
MG: Diria que o facto de a Galiza ser anfitriã do PROPOR 2024 está mais próximo de uma aproximação duradoura, mas não é o começo. Diversos investigadores galegos, entre os que me incluo, mas entre os quais se destaca o Prof. Paulo Gamalho, têm/temos décadas de colaboração ativa em projetos e eventos de Linguística Computacional com instituições do mundo lusófono. Neste sentido, termos organizado o PROPOR na Galiza pode ser visto como um acontecimento natural, para o qual não houve nenhum tipo de oposição pelas pessoas que formamos a comunidade de processamento computacional do galego-português, antes pelo contrário.
PG: Naturalmente, é uma aproximação duradoura e não há volta a dar. A Galiza, representada polas investigadoras galegas que participaram neste evento, já é mais um parceiro da comunidade científica à volta das tecnologias linguísticas do português. Há muitos anos que esta comunidade tem um interesse especial em que a Galiza e o galego formem parte dela; de facto, já formamos parte desde há muitos anos, pois alguns dos organizadores galegos desta edição já participamos na organização de anteriores edições do PROPOR. Mas foi este ano, e nesta edição, que esta relação cristalização com a realização da décima sexta edição em terras galegas, com um sucesso extraordinário de participação: cerca de 150 inscritas e mais de 100 submissões de trabalhos. Números que estão por cima da participação noutras edições, tanto no Brasil como em Portugal. Também conseguimos que as atas se publiquem no principal portal internacional de linguística computacional: a ACL Anthology.
Cumpre salientar a assistência de grupos galegos, nomeadamente do Projeto Nós. Devo confessar que, além do nosso grupo de Nós, a presença doutras equipas de investigação galegas foi escassa. É possível que não tenhamos sabido dar-lhe visibilidade, ou que as investigadoras galegas tenham entendido que se tratava dum congresso para investigadoras portuguesas, brasileiras e ‘reintegratas’. Em todo o caso, tenho a certeza de que nas próximas edições este evento terá mais visibilidade na Galiza e muito mais participação das nossas linguistas e engenheiras. Vale a pena mencionar aqui uma equipa da Universidade da Corunha, Lucía Álvarez-Crespo e Laura Castro, que apresentaram o trabalho com a sua pronúncia galega sem problema nengum. De facto, nesta edição de PROPOR a maior parte das apresentações foi feita em galego-português, enquanto nas edições anteriores o inglês foi sempre utilizado como língua principal de comunicação oral. Este é um facto muito relevante. Nesta edição, os e as galegas do comité organizador insistimos na valorização do português como língua científica e todas as participantes compreenderam a mensagem.
JP: Dependerá dos organismos culturais galegos que decidem o que é o galego. Se neste momento, se assumisse a unidade da língua galego-portuguesa, e que a nossa variante tenha um papel relevante no oceano lusófono, tudo seria mais fácil para qualquer iniciativa como o PROPOR 2024 e não só. Infelizmente isso não aconteceu nestes 40 anos nem vai acontecer. Creio que quem decide o padrão galego da língua, por mimetismo com o País Basco ou a Catalunha, quer ser minoritária sem necessidade de o ser. E o mais interessante é que, se fosse ao contrário, a Catalunha ou o País Basco não perderiam a oportunidade. E isto entristece-me, porque tenho bons amigos que pensavam que ter um galego separado do português era uma boa ideia para a identidade galega. E continuam a não querer ver que este não é o caminho.
Era possível escutar diversos sotaques na plateia, nos painéis, nos corredores e nas pausas para café. É possível dizer qual foi a nação com mais participantes? Se sim, por que acreditam que havia mais participantes deste povo?
PG: Houve mais presença de investigadoras brasileiras, embora a assistência de investigadoras portuguesas foi também importante. A título de curiosidade, assistiu também um investigador de Timor-Leste. De facto, foi a primeira vez que falei com uma pessoa desta nacionalidade, eu com o meu sotaque galego e ele com o seu sotaque timorense, embora a sua língua materna fosse o tétum.
Não tenho os dados de todas as edições do Propor, mas sei que, quando se realiza em Portugal, há claramente mais portuguesas do que brasileiras e vice-versa, quando se realiza no Brasil há mais brasileiras do que portuguesas. Que haja, pela primeira vez, mais brasileiras numa edição europeia é um facto inédito, provavelmente porque para as portuguesas a Galiza é um país estrangeiro e para as brasileiras Santiago de Compostela é um destino muito atrativo.
Vocês fizeram parte do “organizing committee”, o comité organizativo do evento. O quanto contribuíram para que o evento pudesse ter tido êxito?
PG: O comité organizador global está constituído por muitas pessoas de muitas nacionalidades, pois é preciso realizar um grande número de tarefas, por exemplo, organizar um comité científico que revise mais de 100 artigos. Este comité é sempre presidido por duas pessoas, uma portuguesa e uma brasileira. Este ano foi a primeira vez que um galego assumiu a presidência portuguesa. Para além do meu papel como co-presidente regular do evento, deve ser destacado o papel do Marcos Garcia, co-presidente do comité de programa, do José Ramom Pichel, co-presidente do comité de empresas, e da Iria de Dios, co-presidenta da secção de demonstradores tecnológicos. Por último, quero agradecer o grande trabalho realizado polos membros do comité organizador local, muito sensíveis aos aspetos linguísticos, esforçando-se por utilizar uma língua galega muito cuidada e descastelhanizada com as nossas colegas portuguesas e brasileiras.
MG: O trabalho foi bastante intenso. O evento superou todas as expectativas prévias, tendo sido provavelmente a maior edição do PROPOR da história, quer em número de submissões e de participantes, ou em duração. Por sorte tivemos uma equipa de organização fantástica, que junto com o apoio da Fundação USC e dos vários patrocinadores nos permitiu desfrutar de um grande evento.
JP: Para além da humildade do nosso contributo ao evento, o facto de se realizar pola primeira vez num dos berços da nossa língua tem um forte fator simbólico. Também acho como contributo que no PROPOR 2024 nós, galegos e galegas, podemos apresentar trabalhos no sabor galego da língua sem que isso seja um problema. No equivalente em Espanha como é a SEPLN (Sociedad Española del Procesamiento del Lenguaje Natural), por enquanto só podemos apresentar em espanhol ou em inglês. É pena.
Qual acham que é a esperança das empresas ou organismos que apostam pela língua galega como pedra angular dos seus projetos, após atender a este congresso?
JP: Penso que na Galiza há uma tendência interessante para os jovens valorizarem a língua. Isto está a criar timidamente um novo mercado, ao qual as empresas estão atentas. A tecnologia tem desempenhado e continuará a desempenhar um papel essencial nesta mudança. Mas sem o reencontro com o português, isso não será suficiente para a língua na Galiza. Não é que eu seja pessimista, é que o espanhol tem problemas no mundo da ciência ou da IA sendo a segunda língua nativa mais falada do mundo. Imaginade um galego regional separado da sua família linguística!. Por isso, no PROPOR 2024 escrevemos uma carta-apelo aos governos lusófonos para que invistam na IA na nossa língua, de modo a eliminar a excessiva dependência das grandes empresas tecnológicas e para que a nossa língua não fique para trás. Quando falo da nossa língua, estou a referir-me ao português, que inclui também a variante galega. Já agora, uma carta-apelo que sem o contributo dos galegos e das galegas do Proxecto Nós e sem a realização de uma mesa redonda no PROPOR 2024 não seria compreendida.
MG: No congresso apresentaram-se ferramentas e recursos para a variedade galega (entre os que se inclui o maior corpus textual até ao momento), e novos modelos de língua abertos para diferentes variedades do português (similares aos que se desenvolvem no âmbito do Projeto Nós). Neste sentido, empresas e instituições galegas podem (ou vão poder a curto prazo) implementar as suas soluções em galego partido de modelos abertos e avaliados já disponíveis, sem dependerem de grandes multinacionais cujos recursos não são abertos e só incorporam o galego de maneira marginal. Para além disso, empregando modelos multilingues que incorporem variedades do português -incluindo a galega- e do espanhol, empresas galegas também podem desenvolver as suas ferramentas num mercado global.
Qual é a importância de um evento como este ocorrer na Galiza? Acreditam que a Galiza possa ser um “player” relevante dentro do âmbito lusófono?
PG: Acredito que é um acontecimento de grande relevância para a Galiza e o galego formarmos parte desta comunidade científica internacional. Trata-se da conferência mais importante no âmbito das tecnologias do português e, em consequência, o galego pode e deve tirar partido dos avanços no processamento automático aplicado às variantes lusófonas. O que se conseguir para o português será benéfico para todas as variantes dessa língua, incluindo a variante galega. Ao mesmo tempo, os estudos, desenvolvimentos e aplicações feitos sobre a nossa variante terão uma repercussão importante no resto das variedades, uma vez que também contribuímos com a nossa experiência de investigação, por um lado, e com características linguísticas interessantes para o ecossistema lusófono, por outro. A este respeito, devo salientar que estamos a desenvolver aqui na Galiza, dentro do Projeto Nós, liderado por equipas do CiTIUS e do ILG, e com ajuda das infraestruturas do CESGA, um grande modelo de língua galego-português, enriquecido com corpora textuais das variantes galega e do português europeu. Por enquanto, vamos concentrar-nos na variante europeia devido à sua semelhança sintática, em oposição à variante brasileira, mais distante sintaticamente. Acreditamos que o modelo construído com estas duas variantes textualmente semelhantes (muito menos foneticamente) terá um desempenho melhor que dous modelos separados treinados com muito menos dados. A união das duas variantes deverá reforçar a qualidade do modelo. Dividi-las enfraqueceria o desempenho. Um modelo linguístico computacional integrador é uma boa metáfora do que seria um modelo (re)integrador de política linguística.
MG: O facto de a Galiza ser anfitriã do maior evento internacional do processamento computacional do português vem reforçar a integração da comunidade de PLN do galego dentro do seu âmbito natural, o lusófono. Isto foi confirmado tanto por representantes de instituições galegas (universidade, câmara municipal, governo galego) como por investigadores de diversos pontos da lusofonia, principalmente de Portugal e do Brasil, mas não só. Em relação à participação da investigação galega no âmbito lusófono, esta já acontece desde há vários anos, e muitas ferramentas e recursos computacionais do português têm sido desenvolvidos em universidades galegas. É preciso referir, contudo, que o número de investigadoras/es em Linguística Computacional para o galego-português é relativamente pequeno na Galiza.
JP: Creio que, apesar das muitas iniciativas tomadas individual e coletivamente como é o PROPOR 2024 para nos reunirmos com a nossa família linguística, o galego está mortalmente ferido. Respeito ao assunto de “player” relevante não me parece. A cultura galega, verdadeira força motriz da identificação dos galegos com a nossa família linguística portuguesa, falhou, porque fugiu e continua a fugir dessa relação, pensando que vai perder uma identidade que é, por outro lado, absolutamente essencialista. Uma cultura que há quarenta anos vem inoculando a milhares e milhares de crianças galegas que o que nós falamos ou o que os nossos pais ou avós falavam é uma língua diferente da que se fala nas aldeias de Trás-os-Montes ou do Minho. Nos próximos 40 anos seremos uma língua com 200.000 falantes, no máximo. E, para além disso, será altamente castelhanizada. E quem me conhece sabe que sou uma pessoa otimista.
Sobre o Projeto Nós, citado anteriormente, em que medida ‘corpus’ escritos e/ou falados nas variedades portuguesas e brasileiras podem ajudar?
JP: Para tarefas de processamento de texto, como a tradução automática, que é onde estou mais concentrado no Projeto Nós, a variante portuguesa da língua está sintaticamente mais próxima de nós do que a brasileira. Isto torna-a um fornecedor essencial de materiais, mesmo para o padrão atual do galego.
MG: Da parte dos ‘corpus’ falados não posso opinar muito, porque não é a minha área de especialização. Considero, contudo, que de maneira geral o acesso a materiais audiovisuais lusófonos é uma necessidade para a população galega, pois ajuda a combater a enorme influência do castelhano nas nossas variedades linguísticas ao mesmo tempo que reforça características próprias da Galiza que estão em declínio.
Da parte dos ‘corpus’ escritos a vantagem é clara, e o seu uso fundamental. Com pequenas adaptações (principalmente ortográficas, mas não só), textos escritos em português de Portugal podem converter-se com alta precisão à ortografia de base espanhola que se usa para o galego. Esta conversão mantém inúmeras características linguísticas genuinamente galegas que são pouco frequentes em textos produzidos na Galiza (que em boa medida são traduzidos diretamente do espanhol, e incorporam castelhanismos constantemente). Tendo isto em conta, e sendo conscientes de que o processo também pode incorporar influências externas do português, levamos tempo observando que o impacto é muitíssimo mais positivo do que negativo. Por outro lado, os grandes modelos de língua baseados em arquiteturas de redes neuronais artificiais precisam enormes quantidades de dados, pelo que limitar-se a usar unicamente recursos linguísticos originalmente galegos (que também têm problemas, como foi referido), não é suficiente para obtermos modelos de qualidade.
Acham que nalgum momento o trabalho dos linguistas acabará por ser substituído pelo poder e influência das máquinas?
JP: Polo contrário, penso que, para criar bons modelos de IA da nossa língua, a inteligência humana dos linguistas é mais necessária do que nunca, e não só. Esta é apenas uma hipótese baseada em factos reais.
PG: Como linguista, o meu principal interesse não é fazer com que as máquinas falem, mas sim compreender como os humanos falam. Dado que o meu interesse é a linguagem como faculdade cognitiva humana, as máquinas não são mais do que um espaço de experimentação para compreender a linguagem humana. Com os novos desenvolvimentos e avanços, as máquinas parecem falar e compreender perfeitamente as nossas línguas naturais, o que tem atraído a atenção de muitas investigadoras de diferentes áreas que querem criar mais e melhores modelos de língua com redes neuronais artificiais. Trata-se de um desafio interessante para a engenharia de software e a inteligência artificial, mas não tanto para os estudos em linguística cognitiva e computacional. Nas ciências cognitivas, o objetivo é compreender a inteligência humana e a sua concretização na linguagem e, em consequência, a inteligência artificial só tem interesse para as ciências cognitivas se o seu objetivo for imitar a inteligência natural humana.
No entanto, o que estamos a ver até agora no âmbito da inteligência artificial generativa e nos grandes modelos de língua é o desenvolvimento dum tipo de inteligência muito diferente da humana, uma inteligência baseada na força bruta. Nomeadamente, esta inteligência das máquinas está desenhada para extrair regularidades e padrões de grandes quantidades de texto com base na predição. É uma inteligência surpreendente que ainda pode amadurecer mais, mas, na minha opinião, ao não estar baseada na humana, terá um limite e baterá contra um muro. Se não continuarmos a procurar compreender a inteligência humana e a linguagem natural, não tomaremos o caminho mais rápido a longo prazo que nos conduza à inteligência geral e a uma maior compreensão do ser humano.
MG: Não acho que a curto ou médio prazo os linguistas vão ser substituídos pelo trabalho das máquinas. Do ponto de vista dos linguistas computacionais, é certo que as tarefas estão a mudar. Até há pouco tempo, uma boa parte de linguistas computacionais se dedicava, por exemplo, a desenvolver gramáticas formais para serem implementadas computacionalmente. Hoje isto é muito menos necessário, porque os atuais modelos de língua em certo modo resolvem este problema. Mas neste contexto os linguistas são necessários para obter dados de qualidade para treinar modelos, para avaliar quantitativa e qualitativamente os modelos, para investigarem a relação entre a cognição humana e as arquiteturas neuronais dos modelos, etc.
Em relação aos linguistas não computacionais, os modelos de língua também estão a ter impacto em algumas das tarefas que costumavam fazer, como a revisão ou a redação de textos, etc. Neste sentido acho que podemos ver os modelos como ferramentas de ajuda, mas continua a ser (muito!) necessária a participação ativa de linguistas, tradutores, e outros profissionais afins neste tipo de tarefas, para evitar os vieses que incorporam os modelos. Não podemos confiar cegamente na saída dos modelos, e pessoas com formação em linguística e/ou em humanidades devem ter um papel fundamental nesta análise.
IA Língua Portuguesa?
Nós acompanhamos o evento, comparecendo em algumas conferências. A mais tocante foi o painel que ocorreu no dia 15, último dia da PROPOR. Intitulado Artificial Intelligence and the Future of Portuguese Language, o debate girou em torno do impacto dos recentes avanços da Inteligência Artificial e as ameaças sem precedentes que vão crescendo em todas as áreas do conhecimento humano.
Foi proposto uma reflexão sobre políticas públicas de promoção da língua portuguesa, especialmente a partir da intervenção de Cláudio Pinhanez, brasileiro funcionário da IBM e vice-diretor do Center for Artificial Intelligence (C4AI), instituição da Universidade de São Paulo. Na sua fala, disse que o português corre risco, propondo uma resistência “anticolonial” frente ao inglês, um esforço que possa criar meios de que a nossa língua prevaleça como relevante. Para enfatizar a sua opinião, deu um exemplo retirado da sua experiência como um funcionário da IBM: disse que na lista de prioridades da multinacional, a língua portuguesa ficava atrás de línguas nórdicas.
Ao final do painel, António H. Branco, Professor da Universidade de Lisboa e Presidente honorário da ELRA, anunciava um “rascunho”, os primeiros trechos do que seria uma declaração conjunta da comunidade científica que participou da PROPOR 2024, uma petição para alertar autoridades públicas sobre a prática de medidas para o desenvolvimento da língua portuguesa na era da Inteligência Artificial.
As entrevistas que aqui estão foram realizadas antes da publicação do “Apelo sobre IA para a Língua Portuguesa”. Apesar das respostas de Pichel, García e Gamalho terem sido enviadas por meio de mensagens de correio eletrónico, alguns encontros foram realizados, e em todos eles a expectativa pela declaração conjunta era alimentada. Expectativa não apenas para haver estratégias para impedir os perigos futuros alertados por Pinhanez, mas também para que fosse inserida a Galiza como uma aliada lusófona.
No entanto, no dia 22 de abril de 2024, o texto final foi publicado na plataforma change.org, com a Galiza aparecendo duas vezes. A primeira, para localizar o espaço em que o evento ocorreu. A segunda, já no parágrafo que finaliza o apelo, diz:
“O desenho do plano deverá tirar partido da projeção internacional do português como língua global multicêntrica e da sua convivência com outras línguas no espaço ibero-americano, africano e global, incluindo as línguas indígenas e o Galego, assim como os idiomas de fronteira e de intercâmbio”.
Isso demonstra que, apesar dos esforços das pessoas galegas que participaram ativamente do comité organizativo do evento, a Galiza ainda não é considerada um “player” como o Brasil, Portugal e os outros países que tenham a língua portuguesa como a oficial. O “Galego” fica ao lado das línguas indígenas, idiomas de fronteira e de intercâmbio, como uma língua à parte e não como uma variedade de uma fala ouvida ao redor do mundo e utilizada por milhões de pessoas.
❧
ENTREVISTADOS
José Ramón Pichel
Engenheiro informático pela Universidade da Corunha, na Galiza. Doutoramento em engenharia informática pela EHU/UPV (Universidade do País Vasco) e autor da tese internacional sobre o cálculo automático da distância entre línguas. Com um grande interesse no processo da linguagem natural, especialmente na tradução automática, foi, em 1997, um dos fundadores de Imaxin|Software, empresa especializada nas tecnologias da linguagem (PLN). Atualmente presente no projeto NÓS, focado na inteligência artificial aplicada ao galego.
Paulo Gamalho
Licenciado em Filologia Hispânica pela USC e doutor em Linguística pela Université Blaise Pascal, França. Docente na faculdade de filologia e investigador especializado em linguística computacional. Membro no CITIUS e promotor e sócio fundador de cilenis, Spin-Off da USC sobre tecnologias da linguagem. Involucrado, na atualidade, em projectos relativos à extração de relações semânticas e ao desenho de modelos de língua híbridos.
Marcos Garcia
Licenciado em filologia pela USC e com o máster de linguística pela universidade de Lisboa. Especializado em linguística computacional. No âmbito da linguística computacional trabalhou em áreas como a da anotação sintática e morfossintática ou a semântica distribucional. A sua maior focalização na atualidade é a investigação e identificação e expressões multipalavra.
❧
AUTORES