Similaridade dos textos normativos:

um ensaio sobre as leis orçamentárias

Autores

  • Alexandre Sarquis Tribunal de Contas do Estado de São Paulo

Palavras-chave:

“AGRUPAMENTO E CATEGORIZAÇÃO DE DOCUMENTOS JURÍDICOS” .

Resumo

1. Introdução

Há uma sedimentada doutrina científica em torno do cálculo numérico da similaridade de documentos. Tal apuração é de importância para as buscas pela internet, demanda que precipitou a mencionada teorização. Dessa forma, uma fonte textual “buscada” é comparada computacionalmente com uma relação de textos “buscados”, apontando-se, ao fim e ao cabo, um índice de similaridade ou de proximidade que é empregado para ordenar os resultados. Mutatis mutandis, a mesma técnica pode ser empregada a quaisquer textos – entendidos como sequencias ordenadas de vocábulos – inclusive para textos legais.

Tal possibilidade, no entanto, ainda não tem sido explorada. Pretendemos investigar, neste breve ensaio, o cálculo de similaridade textual conhecido como “distância de cosseno”, definido, com apoio nos conceitos da dissertação de mestrado “AGRUPAMENTO E CATEGORIZAÇÃO DE DOCUMENTOS JURÍDICOS”[1].

 

[1] Consultada em http://repositorio.pucrs.br/dspace/bitstream/10923/1626/1/000439389-Texto%2BCompleto-0.pdf

Downloads

Não há dados estatísticos.

Referências

REFERÊNCIAS BIBLIOGRÁFICAS

FURQUIM, Luis Otávio de Colla. Agrupamento e Categorização de Documentos Jurídicos. Dissertação de Mestrado. Porto Alegre: PUC/RS, 2011.

GREGHI, Juliana Galvani; MARTINS Ronaldo Teixeira; NUNES, Maria das Graças Volpe. DIADORIM – A Lexical Database for Brazilian Portuguese. In: Interrnational Conference on Language Resources and Evaluation LREC 2002, Las Palmas de Gran Canaria Proceedings of the Third International Conference on Language Resources and Ecaluation, Manuel G. Rodríguez and Carmem P.S. Araujo (eds), 2002, v. IV, p. 1346-1350. Obtido de Núcleo Interinstitucional de Linguística Computacional – Universidade de São Paulo, http://nilc.icmc.usp.br/nilc/download/GreghiMartinsNunes.pdf

Gonçalves, T., Quaresma, P.: A Preliminary Approach to the Multilabel Classification Problem of Portuguese Juridical Documents. In: Pires, F. M., Abreu, S. P. (eds.) EPIA 2003. LNCS (LNAI), vol. 2902, pp. 435-444. Springer, Heidelberg, 2003.

Muniz, M., Nunes, M.: A Construção de Recursos Linguístico-computacionais para o Português do Brasil: o Projeto de Unitex-PB. Tese de Mestrado, Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação, São Carlos, SP (2004)

FURQUIM, Luis Otávio de Colla; DE LIMA, Vera Lúcia Strube. Clustering and categorization of Brazilian portuguese legal documents. In Proceedings of the 10th international conference on Computational Processing of the Portuguese Language (PROPOR'12), Helena Caseli, Aline Villavicencio, António Teixeira, and Fernando Perdigão (Eds.). Springer-Verlag, Berlin, Heidelberg, 2012, p. 272-283.

Downloads

Publicado

2020-12-22