Descrição do corpus

O corpus do projeto é constituído por 1200 textos produzidos, no ano letivo de 2007-2008, por alunos dos 4º, 6º e 9º anos de escolaridade do ensino básico. Os textos foram produzidos em contexto de prova de aferição (4º e 6º anos) ou de exame nacional (9º ano) e classificadas com nota máxima.

A estes 1200 textos, que contabilizam 400 textos por ano letivo, estão ainda somados mais 300 outros textos, 100 por cada ano, avaliados com nota negativa, pelo que o corpus contém, no total, 1500 textos (500 por ano letivo).

Para além de dados de caracterização do corpus e de dados estatísticos sobre o mesmo, nesta página pode ter acesso a:

        1. enunciado da tarefa que motivou a produção textual dos alunos
        2. cerca de 10% do corpus (40 textos de cada ano, de nota máxima) em formato txt.

Para ter acesso à totalidade do corpus, disponível para a comunidade científica para fins de investigação, por favor, contacte a equipa do projeto.


Tratamento do corpus

Na digitação, por princípio discutido previamente e completamente assumido, foi decidido respeitar ipsis literis a produção dos alunos, respeitando assim quaisquer desvios na expressão (ortografia, notações léxicas, pontuação, acentuação, etc.), bem como a disposição da mancha gráfica apresentada nos manuscritos (parágrafos). Em relação à impossibilidade de leitura de palavras ou às rasuras encontradas nos originais, foram instituídos códigos de transcrição, para dar conta dessas ocorrências.


Dados estatísticos

Dados relativos ao corpus de 1200 textos classificados com nota máxima:


4º ano
6º ano
9º ano
Total
Textos
400
400
400
1200
Palavras
67.253
93.837
110.811
271.901
Orações (excluindo encaixadas)*
9.482
13.926
13.287
36.695
Períodos simples
1.393
1.815
2.229
5.437
Períodos compostos
2.699
4.021
3.750
10.470
Orações em períodos compostos
7.984
11.978
10.872
30.834
Orações encaixadas* (no total)
1.082
1.438
2.170
4.690
Períodos simples encaixados*
1.082
1.438
2.170
4.690
Períodos compostos encaixados*
1.082
1.438
2.170
4.690

* Orações encaixadas são orações que desempenham funções não no seu nível normal de funcionamento  - o nível oracional -, mas num nível abaixo, o nível do grupo. São, portanto, orações que funcionam no interior de um grupo nominal, pós-modificando o seu núcleo, por exemplo, como é o caso das tradicionalmente chamadas orações subordinadas adjetivas relativas restritivas, ou que constituem elas própria a totalidade de um grupo, como é o caso das chamadas orações subordinadas substantivas.