Detecção de fake news relacionadas à Covid-19 no Brasil

Título

Autor

Lucena, Francisca de Fátima de Araújo

Silva, Mariana Guedes da

Colaborador

Queiroz, Diego Cesar Florencio de (Orient.)

Descrição

A pandemia de corona vírus foi declara pela Organização Mundial da Saúde (OMS) em março de 2022. A veiculação de grande volume de fake news nas mídias sociais nos últimos anos, trouxe visibilidade global para a importância da observação da veracidade das informações trafegadas. O uso de ferramentas de inteligência artificial possibilita a construção de algoritmos capazes de automatizar diversos processos. O processamento de linguagem natural (PLN) é uma subárea de Ciência da Computação, inteligência artificial (IA) e linguística, que estuda os problemas da geração e compreensão da linguagem humana e que são tipicamente baseados em algoritmos de aprendizado de máquina. A aplicação de técnicas de PLN permite o processamento automático para analisar e decidir sobre o conteúdo de textos, a partir de regras de classificação estabelecidas. Este trabalho teve como objetivo desenvolver e aplicar uma ferramenta de IA capaz de analisar e classificar o conteúdo de notícias sobre COVID-19 e identificar sua veracidade. Para isso, foi construído um corpus através de uma coleta semiautomática de notícias, por meio de raspagem de dados implementada em linguagem de programação Python. Em seguida foi realizada uma análise manual para classificação das notícias, a fim de garantir que todas as notícias identificadas como falsas recebessem a marcação FAKE, bem como aquelas com conteúdo verdadeiro fosse marcadas como REAL, para treinar o algoritmo. A etapa seguinte foi o pré-processamento dos dados e extração dos atributos, por meio da biblioteca Natural Language Toolkit (NLTK) da linguagem Python 3.6. A partir da construção do corpus e do processamento dos atributos, foram construídos os conjuntos de aplicação do algoritmo, com a proporção 80/20, ou seja, 20% da amostra retida para teste e 80% dedicada ao treinamento. O processamento e classificação foram realizados utilizando a associação de TF-IDF com 3 métodos de aprendizado de maquina: Naive Bayes (NB), Random Forest (RF) e Support Vector Machine (SMV). Os resultados mostraram que o método Naive Bayes se destacou, entre os demais métodos, obtendo uma acurácia de 70%, enquanto RF e SVM obtiveram 35% e 45%, respectivamente.

Assunto

Notícias falsas

COVID-19

Inteligência artificial

Aprendizagem de máquina

Algoritmo

Acurácia

Data

2023

Editor

IFB Campus Brasília

Identificador

Download_TCC

Direitos

A obra está regida pela licença pública Creative Commons e protegida pela Lei de Direitos Autorais, nº 9.610, de 19 de fevereiro de 1998, sendo proibido qualquer uso da obra que não o autorizado sob esta licença ou pela legislação.

Idioma

Tipo

Monografia

Formato

44 p.

Fonte

07212023MC

Coleção

Tecnologia em Sistemas para Internet

Referência

Lucena, Francisca de Fátima de Araújo e Silva, Mariana Guedes da, “Detecção de fake news relacionadas à Covid-19 no Brasil,” Biblioteca digital de Trabalhos de Conclusão de Curso, acesso em 13 de maio de 2024, https://bdtcbra.omeka.net/items/show/943.