Usamos word embeddings para analisar as proposições legislativas do Congresso Nacional.
Para evitar conflitos entre as versões das bibliotecas Python:
python -m venv environment
source environment/bin/activate
pip install -r requirements.txt
Após o download dos arquivos das proposições:
python scripts/extrator_justificativas.py --source <path> > justificativas.csv
Caso não queira o nome das colunas no resultado, use a flag --no-header.
O arquivo resultante conterá as seguintes colunas:
arquivo: Nome do arquivo pdf cujo conteúdo foi extraídoid: Identificador da proposiçãonumero: Número da proposiçãotipo: Tipo da proposiçãotexto_anterior: Texto anterior à justificativajustificativa: A justificativa extraída.