A detecção de sentimentos por meio de computadores tem ganhado muita atenção nos últimos anos, tanto nas universidades quanto nas empresas. Um dos motivos de tal interesse é justamente o aumento da quantidade de conteúdo gerado pelas pessoas na Internet, principalmente quando elas estão expressando opinião. Entre as técnicas mais utilizadas para detecção de sentimentos está a aprendizagem de máquina supervisionada. Nela, classificadores usam dados previamente rotulados com os seus sentimentos para aprender padrões e conseguir prever novas entradas. Para treinar classificadores são necessários muitos dados, assim a disponibilidade de conjuntos de dados são essenciais para a realização de pesquisas e desenvolvimento de aplicações nessa área. Entretanto, conjuntos de dados com exemplos na língua portuguesa ainda são escassos, o que limita as aplicações voltadas para esse idioma.
Tendo em vista esta necessidade, este trabalho tem como objetivo a coleta e classificação de tweets, que são as mensagens compartilhadas no Twitter, para criação de um conjunto de dados para análise de sentimentos na língua portuguesa. Para alcançar esse resultado foi desenvolvido um coletor de mensagens utilizando a API do Twitter. Em seguida, foi desenvolvida uma aplicação web para que voluntários pudessem classificar as mensagens coletadas em relação ao seu sentimento (positivo, negativo ou neutro). No total foram classificados 2.787, sendo 888 positivos, 881 negativos e 1.018 neutros. O conjunto de dados está disponível em: https://github.com/arialab/tash-pt.
Um artigo relacionado a esse projeto intitulado Um Conjunto de Dados Extraído do Twitter para Análise de Sentimentos na Língua Portuguesa pode ser encontrado em: http://comissoes.sbc.org.br/ce-pln/stil2019/proceedings-stil-2019-Final-Publicacao.pdf