Vai al contenuto principale
Oggetto:
Oggetto:

BIG DATA E METODI PER L'ANALISI DEL CONTENUTO

Oggetto:

BIG DATA AND METHODS FOR CONTENT ANALYSIS

Oggetto:

Anno accademico 2024/2025

Codice attività didattica
CPS0839
Docente
Federico Vegetti (Titolare dell'insegnamento)
Corso di studio
Corso di laurea magistrale in Comunicazione pubblica e politica (Classe LM-59)
Corso di laurea magistrale in Sociologia (Classe LM-88)
Anno
1° anno, 2° anno
Periodo
Primo semestre
Tipologia
Caratterizzante, Affine/Integrativa
Crediti/Valenza
6
SSD attività didattica
SPS/04 - scienza politica
Erogazione
Tradizionale
Lingua
Italiano
Frequenza
Facoltativa
Tipologia esame
Prova pratica
Prerequisiti
L'insegnamento si basa sull'utilizzo del linguaggio di programmazione R, una conoscenza base di tale linguaggio può quindi semplificare e velocizzare la comprensione degli argomenti specifici trattati.
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

L'analisi del contenuto è una pratica molto diffusa nelle scienze sociali, in particolare nello studio della comunicazione. Negli ultimi anni, i metodi quantitativi di analisi del contenuto hanno visto un importante sviluppo, spinto da una crescente adozione di tecniche di linguistica computazionale e dall'abbondanza di dati testuali presenti in rete. In questo contesto, l'insegnamento si pone due obiettivi principali:

1) Dare una panoramica delle tecniche più comuni di analisi quantitativa dei contenuti testuali (sentiment analysis, topic models, classificazione, embeddings e modelli di linguaggio), e una comprensione base della loro logica e del loro funzionamento

2) Portare gli studenti e le studentesse nelle condizioni di applicare tali tecniche autonomamente utilizzando software open source (R)

Content analysis is a widespread practice in the social sciences, particularly in the study of communication. In recent years, quantitative methods of content analysis have gone through important developments, driven by an increasing adoption of techniques from computational linguistics, and the abundance of textual data on the Web. In this context, this course has two main goals:

1) Provide an overview of the most common techniques for quantitative text analysis (sentiment analysis, topic models, text classification, word embeddings and language models), together with a basic understanding of their logic and working

2) Empower students to apply these techniques themselves using open source software (R)

Oggetto:

Risultati dell'apprendimento attesi

Al termine dell'insegnamento, studenti e studentesse avranno idealmente sviluppato:

- Una comprensione generale di cosa comporta fare analisi quantitativa dei contenuti

- Una conoscenza pratica delle principali tecniche di analisi quantitativa dei contenuti (sentiment analysis, topic models, classificazione, word embeddings)

- Una comprensione di quello che è possibile e che non è possibile possibile fare utilizzando tali tecniche

- La capacità di implementare tali tecniche in autonomia utilizzando il software open source R

By the end of the course, students will have ideally developed:

- A general understanding of what it is to do quantitative content analysis

- A working knowledge of the main quantitative content analysis techniques (sentiment analysis, topic models, classification, word embeddings)

- An understanding of what is possible and what is not possible to do using such techniques

- The ability to implement such techniques using the open source software package R

Oggetto:

Programma

L'insegnamento è strutturato in moduli settimanali, con 2 lezioni da 2 ore a settimana, e alternerà sessioni teoriche, basate su lezioni frontali, e sessioni pratiche di laboratorio. Gli argomenti trattati sono i seguenti:

- Introduzione all'analisi quantitativa dei contenuti: utilizzare i testi come dati
- Utilizzare R per l'analisi quantitativa dei contenuti
- Text preprocessing: logica, avvertenze e questioni pratiche
- Sentiment analysis e dizionari
- Metodi non supervisionati: topic models
- Metodi supervisionati: classificazione di testi con machine learning
- Approcciare il significato delle parole: word embeddings e BERT (argomento bonus, che verrà affrontato solo se la classe avrà raggiunto una solida comprensione e capacità di implementazione degli argomenti precedenti)


The course is structured in weekly modules, with two 2-hour classes per week, and will alternate between theoretical sessions, based on lectures, and practical laboratory sessions. The topics covered are the following:

- Introduction to quantitative content analysis: using text as data
- R for quantitative content analysis
- Text preprocessing: logic, warnings and practical issues
- Sentiment analysis and dictionaries
- Unsupervised methods: topic models
- Supervised methods: text classification with machine learning
- Approaching word meaning: word embeddings and BERT (bonus topic, which will be addressed only if the class has achieved a solid understanding and practical knowledge of the previous topics)

Oggetto:

Modalità di insegnamento

L'insegnamento alternerà sessioni teoriche (lezione frontale con slide) a sessioni pratiche di laboratorio. Per queste ultime, è richiesto di portare il proprio computer portatile a lezione. In caso questo non fosse possibile, verranno comunque messi a disposizione su Moodle i materiali che renderanno possibile fare a casa tutto quello che si è visto nelle sezioni di laboratorio. È tuttavia caldamente consigliato lavorare in classe, in quanto la presenza del docente può essere di grande aiuto.


The course will alternate theoretical sessions (lectures) with practical laboratory sessions. For the latter, you are required to bring your own laptop to class. In case this is not possible, materials will still be made available on Moodle, making it possible to do everything that is done in the laboratory sections at home. However, it is strongly recommended that you work in class, as the presence of the lecturer can be of great help.

Oggetto:

Modalità di verifica dell'apprendimento

L'esame consisterà in un elborato finale da svolgere a casa, nel quale verrà richiesto di implementare le tecniche imparate durante l'insegnamento.


The exam will consist of a final homework, in which you will be asked to implement the techniques learned during the course.

Oggetto:

Attività di supporto

Testi consigliati e bibliografia

Oggetto:

Il corso non segue un libro di testo. Alcune letture di approfondimento (facoltative) potranno essere consigliate in caso di interesse particolare da parte di studenti e studentesse.


The course does not follow a textbook. Some optional readings may be recommended in case students are particularly interested.



Oggetto:

Note

Registrazione
  • Aperta
    Apertura registrazione
    03/07/2024 alle ore 00:00
    Oggetto:
    Ultimo aggiornamento: 22/09/2024 17:26
    Location: https://www.didattica-cps.unito.it/robots.html
    Non cliccare qui!