O LexML e a melhora da Qualidade da Informação
Exemplos de discrepâncias na ementa (texto normalizado) dos sistemas NJUR (Senado Federal) e LEGIN (Câmara dos Deputados).
Todas as informações disponibilizadas no Portal LexML são provenientes de sistemas alimentados pelos órgãos que participam da Rede de Informação Legislativa e Jurídica. Na alimentação dos sistemas provedores de dados, podem ocorrer erros de transcrição da informação contida na publicação oficial para o sistema de informação. De forma inovadora, o LexML disponibilizou recentemente aos sistemas NJUR (Senado Federal) e LEGIN (Câmara dos Deputados) relatórios contendo a comparação automática do campo "Ementa" das leis federais do período de 1988 a 2008.
O relatório é organizado em duas colunas:
- a primeira contém o texto como se encontra no sistema de informação;
- a segunda contém o texto com destaques em cores apresentando o resultado da comparação. Em vermelho, aparece o segmento que foi omitido e, em azul, aquilo que foi incluído.
A figura ao lado apresenta três exemplos do resultado desta comparação. No primeiro caso (A), nota-se uma troca de palavras; no caso (B), foram detectadas várias discrepâncias em uma única ementa devido aos erros existentes nas duas fontes de informações; e, no último caso (C), um exemplo de omissão de uma expressão.
Esse processo de melhora da qualidade da informação poderá se aplicado a quaisquer outras duas fontes. Por exemplo, uma prefeitura e uma câmara municipal podem ter dados das leis municipais comparados utilizando essa mesma estratégia.
Procedimento similar poderá também ser aplicado para a comparação do texto integral de normas, desde que ocorra previamente a conversão do inteiro teor para o formato LexML.
PROCESSO DE GERAÇÃO DO RELATÓRIO O processo de geração do relatório de comparação das ementas foi realizado em três etapas:
O objetivo da normalização dos dados é transformar o texto original em um formato otimizado para comparação. Para isso, o texto é convertido em minúsculas, são retirados diacríticos, espaços em brancos múltiplos são removidos, além de várias outras conversões realizadas no intuito de diminuir as discrepâncias entre os textos. Na segunda etapa, utilizou-se o software JNDIFF, desenvolvido por pesquisadores da Universidade de Bolonha, para realizar a comparação dos textos. Na etapa final, foram gerados os relatórios para cada sistema provedor de dados. |