Albertina e Gervásio: os modelos de linguagem generativa portugueses que estão a ser criados

O coordenador do primeiro grande modelo de Inteligência Artificial generativa para a língua portuguesa afirmou que esta ferramenta vai ajudar na democratização e domesticação da tecnologia. “Neste momento, em termos de modelo de linguagem, grandes modelos de linguagem de código aberto e disponibilização aberta, a nossa oferta é a maior e a melhor para o…

ebenhack/AP

Uma equipa da Faculdade de Engenharia da Universidade do Porto está a desenvolver duas famílias de grandes modelos de linguagem: a Albertina e o Gervásio.

por

Forbes Staff

11 Dezembro 202309:05

Tecnologia

O coordenador do primeiro grande modelo de Inteligência Artificial generativa para a língua portuguesa afirmou que esta ferramenta vai ajudar na democratização e domesticação da tecnologia.

“Neste momento, em termos de modelo de linguagem, grandes modelos de linguagem de código aberto e disponibilização aberta, a nossa oferta é a maior e a melhor para o português europeu e para o português do Brasil”, afirmou, em entrevista à Lusa, António Branco, docente da Faculdade de Ciências da Universidade de Lisboa, que lidera o projeto.

Apoiado com fundos do Plano de recuperação e Resiliência (PRR), o projeto visa “desenvolver ‘chatbots’ para a língua portuguesa na variante europeia” e, “no quadro desse projeto, estamos a desenvolver grandes modelos de linguagem”, que depois irão permitir “aplicações como ‘chatbots’ ou tradução”, explicou António Branco.

A equipa, que inclui uma parceria com a Faculdade de Engenharia da Universidade do Porto, está “a desenvolver duas famílias de grandes modelos de linguagem: a Albertina e o Gervásio”.

Um modelo de linguagem generativa procura identificar a palavra mais provável de acordo com o pedido feito inicialmente.

Anunciada em maio deste ano, a Albertina é um modelo mais vocacionado para a classificação, enquanto o Gervásio será mais adequado para a produção de texto.

“É algo que com o treino se qualifica. Podem levar uns afinamentos, digamos assim, para se especializar em certas tarefas”, utilizando pesquisa ‘online’ e a partir dos parâmetros predefinidos.

“Todas as habilidades que a gente vê o ChatGPT fazer, é nesta base: palavra a palavra consecutivamente, ir prevendo qual é que é a mais provável”, mas, nesse caso, o ‘chat’ “foi treinado numa quantidade colossal de dados”.

Nos casos dos modelos portugueses, foram carregados cerca de 1,6 mil milhões de parâmetros, enquanto o GTP3, da OpenAI, tem 165 mil milhões de parâmetros.

Mas estes “são modelos de código aberto e de acesso aberto, coisas que o GTP3 não é”, que “está fechado a sete chaves na OpenAI”, à semelhança do que acontece com as ferramentas da Google.

“A OpenAI começou com uma lógica de investigação científica e a cada modelo novo que eles faziam, eles faziam uma publicação científica com a explicação técnica e, quando chegou o GTP3, pararam” de publicar, pelo que “não se sabe exatamente qual foi a coleção de textos que usaram para treinar”, por exemplo.

No caso português, num projeto financiado com dinheiro público, a aposta foi “democratizar esta tecnologia, o que significa dar condições para que o maior número possível de atores e de organizações possam usar” as ferramentas.

Além disso, a equipa está a criar soluções que permitam “domesticar as ferramentas, para dentro das organizações”.

“Não é possível trazer para dentro de uma instituição a ferramenta da OpenAI”, que corre num centro de dados de grandes dimensões, embora não se saiba ao certo onde é.

Mas tem de ser “uma coisa brutal” e “não é gerível para quem queira manter as informações dentro da sua organização”.

Por isso, “o que nós estamos a fazer é dar modelos, investigar técnicas que consigam comprimir o tamanho dos modelos de forma a que possam ficar para dentro das organizações”.

Até porque o volume de informação a que se tem acesso via OpenGPT “não é viável nem útil”.

“Um banco não quer ter uma interface com o utilizador do género ChatGPT, em que o utilizador vai querer fazer operações reduzidas e pedir informações dentro de um quadro bastante limitado”, exemplificou.

“Estes usos de casos, que são importantes para as organizações, são muitíssimo mais limitados do que esta parafernália de capacidades que o ChatGPT oferece”, pelo que “nós conseguimos entregar um serviço de boa qualidade com modelos bastante mais pequenos, pequenos ao ponto de poderem ser trazidos para dentro dos servidores das organizações”, explicou.

Inteligência Artificial constitui ameaça à soberania

O investigador António Branco, coordenador do primeiro grande modelo de Inteligência Artificial generativa para a língua portuguesa, considera que esta tecnologia constitui uma ameaça à soberania dos Estados.

“Os Estados democráticos têm de assumir isto como uma questão geoestratégica e de soberania da maior importância”, afirmou, em entrevista à Lusa, o professor do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.

Em causa está o facto de as bases de dados estarem nas mãos de “duas ou três grandes empresas”, sem acesso público ou fiscalização externa, que podem condicionar todo o funcionamento das organizações e dos cidadãos.

“Nós estamos aqui a assistir a um efeito reverso àquilo que procurámos com a Internet”, que é global e não permite a um utilizador condicionar o acesso dos outros, numa “lógica completamente descentralizada”.

Ora, no caso da IA, “estamos a fazer ao contrário, estamos a afunilar para duas ou três entidades que vão estar a receber as comunicações, a conversa em linguagem natural de toda a gente do mundo inteiro e a devolver processado” sob a forma de aplicações úteis que habituam as pessoas ao seu uso.

Porque, “quando nós, seres humanos, nos habituamos a certo nível de intermediação tecnológica, já não somos capazes de regressar ao nível anterior”, disse.

“Isto é aterrador em termos de soberania, é aterrador”, salientou António Branco.

Por um lado, basta haver “um problema técnico” num destes fornecedores e “nós ficamos sem conseguir falar uns com os outros”, porque “os dados estão todos a passar por lá de todas as nossas conversas importantes ou não importantes, ideológicas ou não ideológicas, confessionais ou não confessionais”.

As grandes empresas tecnológicas “estão a ficar com a cópia dos nossos dados lá e com isso nós estamos dependentes desse serviço”, que “pode ser cortado a qualquer momento”.

Isso já acontece hoje. “Basta pensar que temos uma nação em risco existencial, que é Ucrânia”, cujo “esforço de guerra depende de um sistema de satélites que são ligados ou desligados pela decisão de uma pessoa consoante essa pessoa acha que a frente de batalha está a ir na direção certa ou na direção errada”.

“Se a geopolítica se rearranja”, os “acessos podem ser condicionados”. Se “a gente fica num lado do tabuleiro que é diferente do lado do tabuleiro deles, eles dizem ‘corta aí’ e ficamos completamente às escuras para falar uns com os outros para comunicar com os outros”, explicou.

Hoje “temos aqui um risco de subtração de soberania a não muito longo prazo”, salientou António Branco, que defende o aparecimento de mais ferramentas de IA, com bases de dados diversas.

O Estado português tem dois serviços de Chat com base na IA, um sobre divórcio e outro sobre a chave móvel digital, que são fornecidos pela OpenAI.

“Ninguém sabe” que dados são retirados pela OpenAI e é por isso que a “administração pública portuguesa está à procura de condições para se libertar desta dependência de um único fornecedor, mas isto tem custos”, avisou.

“Democratizar o uso e o acesso é o antídoto” e “quanto mais entidades oferecerem estes serviços, menos a gente vai fazer passar os nossos dados só” pelas grandes tecnológicas.

Além disso, cada país deve manter nas suas fronteiras a informação de que necessita. “Isto é uma questão da maior relevância para os Estados democráticos”, salientou o investigador, que deu alguns exemplos.

“Os próprios Estados Unidos estão a investir, do ponto de vista do dinheiro público, dezenas de milhares de milhões de dólares, apesar de as ‘big techs’ estarem lá sediadas”, disse António Branco, que destacou também o Reino Unido nesse esforço nacional.

As grandes empresas que gerem modelos de linguagem generativa, a Google ou a OpenAI, são “opacas” e “não se sabe que tipo de informação gerem”, mas esse problema torna-se ainda mais grave em Estados não-democráticos.

“São três mundos diferentes: há nós aqui, no ocidente, há a China e há a Rússia”, recordou.

Lusa

Ver Mais

Albertina e Gervásio: os modelos de linguagem generativa portugueses que estão a ser criados

Inteligência Artificial constitui ameaça à soberania

Mais Artigos

Comissão Europeia acusa TikTok de não garantir contas seguras para menores

Universidade de Lisboa canaliza mais de 20 milhões de euros para dois novos data centers

China lança organização mundial para a IA e desafia liderança dos EUA na governação da tecnologia

Apple processa OpenAI por alegado roubo de segredos comerciais ligados ao desenvolvimento de hardware