Esta seção reúne os materiais necessários para entender e reproduzir o projeto: como os dados são coletados e limpos, qual arquitetura de modelo usamos primeiro, como é feito o treinamento em HPC e quais são as regras de contribuição. A ideia é que qualquer grupo — universidade, órgão público ou empresa — consiga pegar o que está aqui e montar sua própria instância do Prosodia sem depender de um fornecedor único.
A documentação está organizada em camadas: (1) básica, com o manifesto, código de conduta e política de dados; (2) técnica, com o pipeline de ingestão, o tokenizer otimizado para português e o guia do primeiro modelo (ex.: Prosodia-H1.5); (3) execução, mostrando exemplos de treinamento em infraestrutura nacional, parâmetros recomendados e formas de publicar modelos e corpora com seus respectivos model cards e data cards. Há também notas sobre segurança, LGPD e alinhamento, para quem for usar o modelo em contexto de governo ou de dados sensíveis.
Se você quiser propor mudanças (novo conjunto de dados, correção de script, guideline de avaliação), envie um e-mail para com o assunto RFC PROSODIA ou abra uma issue no repositório público indicado na página inicial. As decisões ficam registradas para manter o histórico e permitir auditoria.
Projeto Prosodia