Publicação em Diário da República: Despacho n.º 9184/2020 - 25/09/2020
6 ECTS; 2º Ano, 2º Semestre, 42,0 PL + 28,0 TP + 5,0 OT , Cód. 814315.
Docente(s)
- Ricardo Nuno Taborda Campos (1)(2)
(1) Docente Responsável
(2) Docente que lecciona
Pré-requisitos
Preferencialmente o aluno deverá ter tido aproveitamento à UC de Linguagens de Programação
Objetivos
Esta unidade curricular tem por objectivo introduzir os alunos à recuperação de informação e motores de busca. Ao concluir esta unidade o estudante deverá:
1) ser capaz de desenhar a arquitetura de um motor de busca (RI);
2) ter conhecimento dos problemas relacionados com a ética e a privacidade dos dados;
3) saber explorar ferramentas de crawling e scraping;
4) compreender e implementar as diferentes fases de processamento da linguagem natural;
5) saber interpretar as características e estatísticas de um texto
6) saber representar um texto de acordo com as suas aracterísticas mais relevantes;
7) ser capaz de implementar um índice invertido;
8) ser capaz de implementar modelos de recuperação de informação;
9) compreender a metodologia de avaliação Cranfield
Programa
1 - Introdução à Recuperação de Informação e Motores de Busca
1.1. Definição e objetivos
1.2. Motores de busca
1.3. Aplicações
1.4. Dificuldades e desafios
1.5. Arquitetura de um sistema de pesquisa de informação
2 - Ética e Privacidade dos dados na Recuperação de Informação
2.1. Ética na recuperação de informação
2.2. Privacidade dos dados
2.3. Bias (enviesamento)
2.4. Filter Bubbles
2.5. Fake News
3. Aquisição de Dados
3.1 Definição e objetivos
3.2 APIs
3.3 Web Scraping
3.4 Web Crawling
3.5 Web Dynamics
3.6 Arquivos da Web
4 - Pre-processamento de Texto
4.1 Parsing
4.2 Divisão de frases
4.3 Tokenização
4.4 Stopwords
4.5 Normalização
4.6 Stemming
4.7 Reconhecimento de Entidades
4.8 Part of Speech
5 - Estatísticas do Texto
5.1 Lei de Zipf
5.2 Impato na Recuperação de Informação
5.3 Co-ocorrência de palavras
6 - Representação do Texto
6.1 Características importantes do Texto
6.2 Vocabulário controlado vs Vocabulário livre
6.3 Bag of Words
6.4 Modelo de Espaço Vetorial
6.5 Importância dos termos
6.6 Matriz Documento - Termo
6.7 Matriz Termo - Documento
6.8 Introdução ao Topic Modeling e às Word Embeddings
7 - Índices Invertidos
7.1 Definição e objetivos
7.2 Estrutura de dados
7.3 Desafios
7.4 Big Data (Map Reduce)
7.5 Ferramentas de Indexação e de Pesquisa: ElasticSearch e PyTerrier
8 - Modelos de Recuperação de Informação
8.1 Algoritmo de RI
8.2 Modelo Booleano
8.3 Modelo de Espaço Vetorial
8.4 Modelo Probabilístico
8.5 Processamento de Queries
9 - Avaliação de Sistema de Recuperação de Informação
9.1 Noção de Relevância
9.1 Métodos de Avaliação
9.2 Coleções de Teste
9.3 Métricas de Avaliação
9.4 Testes de Significância
Metodologia de avaliação
Avaliação por frequência: [Projeto I (20%) + Projeto II (10%) + Projeto III (10%)] + Projeto Final (30%) + Frequência (30%) [prova com consulta]. Os alunos deverão ter, em cada um dos elementos de avaliação, uma nota mínima de 6 valores. A classificação final da UC resulta da média ponderada das classificações obtidas nas componentes de avaliação definidas. O aluno obtém aprovação à UC, estando dispensado de Exame, de acordo com o disposto nos Pontos 11 e 12, do Artigo 11º, do regulamento Académico do IPT.
Avaliação por exame: Exame (100%) [prova com consulta parcial dos conteúdos]. O aluno obtém aprovação à UC, estando dispensado de Exame, de acordo com o disposto nos Pontos 11 e 12, do Artigo 11º, do regulamento Académico do IPT.
Requisitos de admissibilidade à frequência e ao exame:
(i) Mínimo de 2/3 de assiduidade às aulas - exceto trabalhadores estudantes - de acordo com o ponto 5 do artº 8º.
(ii) As presenças em aula não são classificadas com nota, constituem, no entanto, condição necessária para aprovação à UC por frequência e exame. O incumprimento deste item impede o aluno de se submeter à frequência e ao exame.
Bibliografia
- Baeza-Yates, R. e Ribeiro-Neto, B. (2010). Modern Information Retrieval. (pp. 1-944). USA: Addison Wesley Longman Publishing Co. Inc.
- Croft, B. e Metzler, D. e Strohman, T. (0). Search Engines: Information Retrieval in Practice. Acedido em 12 de fevereiro de 2019 em http://ciir.cs.umass.edu/irbook/
- Gomes, D. e Demidova, E. e Winters, J. e Risse, T. (2021). The Past Web. Exploring Web Archives. (pp. 1-297). Lisboa: Springer
Método de Ensino
Aulas teórico-práticas expositivas onde se descrevem os conceitos fundamentais. Aulas práticas-laboratoriais de resolução de casos práticos e aplicação dos conceitos a cenários de utilização real.
Software utilizado nas aulas
Python - Anaconda
Jupyter Notebooks
PyCharm Community
Moodle: plataforma de eLearning do IPT, Centro de eLearning
Aprovado em Conselho Técnico Cientifico: Reunião nº 182, de 15 de março
Download da Ficha da Unidade Curricular (FUC)