Similaridade dos textos normativos:
um ensaio sobre as leis orçamentárias
Palabras clave:
“AGRUPAMENTO E CATEGORIZAÇÃO DE DOCUMENTOS JURÍDICOS” .Resumen
1. IntroduçãoHá uma sedimentada doutrina científica em torno do cálculo numérico da similaridade de documentos. Tal apuração é de importância para as buscas pela internet, demanda que precipitou a mencionada teorização. Dessa forma, uma fonte textual “buscada” é comparada computacionalmente com uma relação de textos “buscados”, apontando-se, ao fim e ao cabo, um índice de similaridade ou de proximidade que é empregado para ordenar os resultados. Mutatis mutandis, a mesma técnica pode ser empregada a quaisquer textos – entendidos como sequencias ordenadas de vocábulos – inclusive para textos legais.
Tal possibilidade, no entanto, ainda não tem sido explorada. Pretendemos investigar, neste breve ensaio, o cálculo de similaridade textual conhecido como “distância de cosseno”, definido, com apoio nos conceitos da dissertação de mestrado “AGRUPAMENTO E CATEGORIZAÇÃO DE DOCUMENTOS JURÍDICOS”[1].
[1] Consultada em http://repositorio.pucrs.br/dspace/bitstream/10923/1626/1/000439389-Texto%2BCompleto-0.pdf
Descargas
Citas
FURQUIM, Luis Otávio de Colla. Agrupamento e Categorização de Documentos Jurídicos. Dissertação de Mestrado. Porto Alegre: PUC/RS, 2011.
GREGHI, Juliana Galvani; MARTINS Ronaldo Teixeira; NUNES, Maria das Graças Volpe. DIADORIM – A Lexical Database for Brazilian Portuguese. In: Interrnational Conference on Language Resources and Evaluation LREC 2002, Las Palmas de Gran Canaria Proceedings of the Third International Conference on Language Resources and Ecaluation, Manuel G. Rodríguez and Carmem P.S. Araujo (eds), 2002, v. IV, p. 1346-1350. Obtido de Núcleo Interinstitucional de Linguística Computacional – Universidade de São Paulo, http://nilc.icmc.usp.br/nilc/download/GreghiMartinsNunes.pdf
Gonçalves, T., Quaresma, P.: A Preliminary Approach to the Multilabel Classification Problem of Portuguese Juridical Documents. In: Pires, F. M., Abreu, S. P. (eds.) EPIA 2003. LNCS (LNAI), vol. 2902, pp. 435-444. Springer, Heidelberg, 2003.
Muniz, M., Nunes, M.: A Construção de Recursos Linguístico-computacionais para o Português do Brasil: o Projeto de Unitex-PB. Tese de Mestrado, Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação, São Carlos, SP (2004)
FURQUIM, Luis Otávio de Colla; DE LIMA, Vera Lúcia Strube. Clustering and categorization of Brazilian portuguese legal documents. In Proceedings of the 10th international conference on Computational Processing of the Portuguese Language (PROPOR'12), Helena Caseli, Aline Villavicencio, António Teixeira, and Fernando Perdigão (Eds.). Springer-Verlag, Berlin, Heidelberg, 2012, p. 272-283.
Descargas
Publicado
Número
Sección
Licencia
Os direitos autorais dos artigos publicados nesta revista são de propriedade dos autores, com direitos de primeira publicação para o periódico. Em virtude da aparecerem nesta revista de acesso público, os artigos são de uso gratuito, com atribuições próprias, para fins educacionais e não-comerciais.