Desafios e oportunidades da 4ª onda de dados abertos

Nos últimos anos, as discussões sobre uso de dados abertos e proteção de dados têm ganhado novos contornos. Ao redor do mundo e no Brasil, para além da abertura dos dados e solidificação de políticas de transparência por alguns setores de governos (questão ainda não totalmente superada), continua-se a discutir a compatibilidade de políticas de abertura com normas e modelos de governança de proteção de dados. Com a popularização dos modelos de inteligência artificial, há incremento desses desafios e também de potenciais oportunidades.

Em 2020 (Verhulst et al., 2020), houve publicação de artigo que propôs uma organização teórica de tendências relacionadas à abertura de dados ao longo do tempo a partir de ondas. Afirmou-se que o mundo teria vivido três ondas de abertura de dados e, naquele momento, encontravam-se em meio à terceira.

Assine gratuitamente a newsletter Últimas Notícias do JOTA e receba as principais notícias jurídicas e políticas do dia no seu email

Importante destacar que por mais que novas ondas cheguem, pode ser que determinados setores ainda vivam problemas relacionados às ondas anteriores, ou seja, o fato de haver uma nova onda não significa que houve esgotamento dos desafios passados.

Resumidamente, a primeira onda foi marcada pela conscientização da importância da liberdade informacional e da existência de dados abertos (independente do nível de abertura); na segunda, houve foco em governos abertos e sua importância para regimes democráticos; na terceira, falou-se bastante sobre formas e possibilidades de reúso de dados, além da importância de dados de certas organizações também estarem disponíveis para alguns públicos e da formação de parcerias entre sociedade civil, entes públicos e privados.

Em outras palavras, parte da discussão da terceira onda estaria relacionada à construção e adoção de modelos de governança que permitam certos tipos de reúso de dados.

Em 2024, outro artigo (Hannah et al, 2024) indicou que modelos de inteligência artificial, especialmente grandes modelos de linguagem (large language models – LLMs) poderiam inaugurar uma “quarta onda” de dados abertos.

De pronto, já podemos imaginar que isso traz mais camadas de complexidade à discussão, visto que há ainda vários pontos em aberto referentes a outras ondas. Dentre algumas possibilidades, discute-se se o uso de certos dados abertos para treino seriam benéficos para modelos, visto que são dados mais confiáveis e não haveria tantos dados imprecisos às vezes referidos como “lixo” por alguns profissionais.

Isso economizaria recursos (inclusive o gasto energético, que é um dos principais pontos de atenção relativos ao desenvolvimento de modelos de linguagem de IA, mesmo com o surgimento de novos modelos que, em tese, exigem um poder computacional menor) e poderia diminuir a possibilidade de alucinações em certos casos. Ainda, modelos de IAs poderiam contribuir para análises e insights a partir de dados abertos de maneira mais rápida.

Nesse contexto, faz-se necessário relembrar que a expressão “dados abertos” é utilizada para se referir a dados (pessoais ou não) acessíveis ao público geral. As discussões sobre dados abertos foram fundamentais para construir o conceito de “governo aberto”, no qual há incentivos para a abertura e transparência de dados estratégicos e de interesse público, principalmente dos governos (Sabo et al. 2020).

A utilização desses dados permite que haja uma prestação de contas mais eficiente, além do aumento da accountability das instituições. Como pontua Daniel Solove, desde meados do século 20, vê-se desenvolvimento considerável de dados públicos, tanto na diversidade de tais dados como também na forma de sua disponibilização à população (Solove et al.2002)

Quando falamos de “dados públicos”, o termo pode vir acompanhado de uma premissa equivocada de que não haveria implicações de privacidade sobre tais dados, já que são “públicos”. O que não é o caso. A grande questão é que a privacidade não necessariamente é violada quando se divulga determinado dado. Ela é violada quando há a divulgação de determinado dado de forma inapropriada, com descumprimento do que chamado “fluxo informacional”.

Neste ponto é importante trazermos o conceito de “integridade contextual”, que consiste em assegurar com que a informação flua de maneira apropriada, respeitando-se o “contexto” em que sua divulgação é feita, as expectativas legítimas de divulgação de determinada informação pelo titular da mesma e até mesmo normas locais. Ao juntarmos os desafios ainda vividos das ondas anteriores com LLMs e a popularização da inteligência artificial, o conceito de integridade contextual ganha contornos ainda maiores.

Em um mundo ideal da acessibilidade e de dados abertos, não basta que os dados estejam acessíveis, é preciso que eles possam ser lidos e interpretados mais facilmente por máquinas. Por exemplo, um PDF, apesar de ser um documento eletrônico, é um formato que necessita grande esforço para ser convertido e lido por máquina, de forma que há mais dificuldade de acesso em informações contidas em PDFs em comparação com outros formatos.

Embora seja legítima uma preocupação com a compatibilidade entre transparência e proteção de dados, é importante ressaltar que a melhoria no formato de disponibilização das informações não significa que os dados podem ser utilizados por terceiros de qualquer maneira, tampouco pode ser motivo para impedir o exercício de direitos.

Bioni et al (2022) descreve esse conflito aparente no Brasil e traz casos em que foram negados pedidos legítimos de acesso a dados de interesse público, com um suposto fundamento na Lei Geral de Proteção de Dados (Lei 13.709/2018), prejudicando, ao fim, o exercício do direito de acesso à informação.

Em suma, a chegada da quarta onda traz suas próprias questões relacionadas à governança e também proteção de dados, visto que, como já mencionado, ainda há discussões muito vivas e pertinentes da terceira onda, inclusive aquela relativa à “licença social”, ou seja, em quais situações seria legítimo o reúso dos dados. E o “reúso dos dados” quando falamos de LLMs ganha uma nova dimensão.

Ainda, é preciso considerar que os modelos de IA sozinhos não vão resolver todos os problemas ou avançar a discussão de maneira automática. Nesse novo cenário, o controle de qualidade dos dados, assim como o zelo pelo atendimento aos direitos de privacidade dos titulares de dados, se faz ainda mais necessário para a construção de soluções mais assertivas e responsáveis.

A própria LGPD traz algumas pistas e elementos importantes para a governança de dados pessoais, e oferece alguns elementos para entendermos quais tipos de dados teriam uma licença social mais forte para reúso e de quais tipos de reúso estaríamos falando.

Em primeiro lugar, a LGPD se aplica aos dados abertos que também são dados pessoais (o que nem sempre é a mesma coisa). Consideramos que as principais orientações em relação a esses dados abertos, em sentido bem amplo, estão contidas no art. 7º, §§s 3º e 4º.

No §3º, temos dados pessoais cujo acesso é público, e o §4º refere-se a dados que são tornados manifestamente públicos pelos seus titulares. No caso dos dados descritos no §3º, consideramos que são dados públicos propriamente ditos, ou seja, aqueles geralmente disponibilizados por instituições públicas. Tanto é que o próprio §3º já indica que, antes de qualquer análise, deve-se considerar para tratamento a finalidade, a boa-fé e o interesse público que justificaram sua disponibilização original.

Já os dados pessoais do §4º são geralmente dados que o próprio titular disponibiliza, podendo ser considerado dado pessoal de rede social aberta, por exemplo. Ao nosso ver, são exemplos de como a LGPD tenta endereçar o conceito de integridade contextual quando do tratamento de dados públicos.

No § 7º, a lei determina que esses dois tipos de dados poderão ter tratamento posterior para novas finalidades (em outras palavras, reúso) desde que sejam observados propósitos legítimos e específicos para o novo tratamento, preservação dos direitos dos titulares e os demais princípios e fundamentos colocados pela lei. Isso garante que os dados pessoais a que se referem os §§ 3º e 4º poderão ser tratados para novas finalidades, desde que observados os requisitos previstos pela LGPD.

No Brasil, portanto, a Lei Geral de Proteção de Dados tenta oferecer um framework e condições para reúso dos dados, tal qual ocorreu em outros lugares que viveram momentos de terceira onda de dados abertos. Dessa forma, muito da “licença social” do uso desses dados, quando tratam-se de dados pessoais, está atrelada também a uma análise de compatibilidade das condições trazidas pela LGPD e por outras legislações pertinentes. Vemos aqui também uma relevante preocupação da LGPD com a privacidade dos dados públicos.

Apesar de ambos terem condições parecidas de tratamento similares, a nossa hipótese é de que é mais claro o interesse público dos dados disponibilizados por instituições públicas, do caso dos dados pessoais descritos no §3º. Isso porque, além da LGPD, há diversas leis que determinam a transparência e interesse público de dados referentes à administração pública. Havendo controles e boa governança, é mais difícil perder o contexto no qual os dados foram disponibilizados.

No caso dos dados disponibilizados pelo titular, nem sempre é claro ou menos ambíguo qual foi o interesse público relativo àqueles dados, além dos propósitos legítimos. Em relação aos dados abertos, por sua vez, o conceito de legítimo está mais atrelado à cumprir com a lei, e não uma legitimidade mais abstrata e subjetiva.

Quando consideramos a aproximação da quarta onda e da inteligência artificial, conforme já tratamos anteriormente, os dados públicos do §3º têm mais chances de estarem “corretos” e precisos, o que já é uma vantagem e uma segurança para a realização de algumas operações. Além disso, ao observarmos o framework regulatório, nota-se mais segurança jurídica em relação ao uso de tais dados – no Brasil, tanto na LGPD quanto nas demais normas que organizam a abertura de dados no país, como a Lei de Acesso à Informação (Lei 12.527/2011) –, embora o tema ainda gere divergências.

Por isso, é fundamental acompanhar de perto essa discussão e seu desenvolvimento. As reflexões ligadas à legitimidade da “licença social” para o uso de certos dados também se aplicam aos reúsos relacionados à IA e, não devendo se limitar aos aspectos jurídicos, vai continuar a exigir a adoção de certas salvaguardas, inclusive em relação a questões éticas. A IA tem o potencial de encurtar certos processos que dependiam muito do esforço humano repetitivo e monótono, mas não significa que vai conseguir fazer tudo sozinha.

Entendemos que a comunidade de privacidade de dados desempenhará um papel crucial no impulso ao uso e ao desenvolvimento sustentável da IA, baseando-se no framework da LGPD e em outras normas relevantes para garantir que a privacidade dos titulares seja respeitada, inclusive no caso de dados públicos.

Por fim, vemos também a necessidade de um período de adaptação e aprendizado por parte dos titulares dos dados. O que, em 2010, poderia ser considerado uma expectativa legítima sobre a divulgação de determinadas informações, ou o que se entendia como não legítimo, não é necessariamente o mesmo hoje. Um exemplo claro disso é o universo dos dados processuais, onde observamos um acesso cada vez mais democrático às informações, impulsionado tanto por iniciativas do próprio Conselho Nacional de Justiça (CNJ), como a criação do Datajud, quanto pelo crescimento do ecossistema de legal techs no Brasil.

BIONI, B. R; da SILVA, P. G. F.; MARTINS, P. B. L. Intersecções e relações entre a Lei Geral de Proteção de Dados (LGPD) e a Lei de Acesso à Informação (LAI): análise contextual pela lente do direito de acesso. Cadernos Técnicos da CGU, Brasília, Volume I. 2022. Disponível em: https://revista.cgu.gov.br/Cadernos_CGU/article/view/504

HANNAH, C.; SAMPRITI, S.; STEFAAN, G. V. A Fourth Wave of Open Data? Exploring the Spectrum of scenarios for Open Data and generative AI. 2024. Disponível em: http://arxiv.org/abs/2405.04333

MAIER-RABLER, Ursula; HUBER, Stefan. “Open”: The Changing Relation Between Citizens, Public Administration, and Political Authority. JeDEM – eJournal of eDemocracy and Open Government, v. 3, n. 2, p. 182-191, 2012

MARTIN, K. E.; NISSENBAUM, H. Privacy Interests In Public Records: An Empirical Investigation. Harvard Journal of Law & Technology, Julho 2017. Disponível em: http://dx.doi.org/10.2139/ssrn.2875720

VERHULST, S et al. The emergence of a third wave of open data: How to accelerate the re-use of data for public interest purposes while ensuring data rights and community flourishing. SSRN Electronic Journal, 2020. Disponível em: http://dx.doi.org/10.2139/ssrn.3937638

SABO, I. C. et al. Entraves ao governo aberto na Justiça Federal brasileira. Revista Direito GV, v. 16, n. 1, p. E1950, 2020

SOLOVE, D. J. Access and Aggregation: Privacy, Public Records, and the Constitution. MINNESOTA LAW REVIEW, 2002. Disponível em: https://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=2079&context=faculty_publications