Publicação em Diário da República: Despacho n.º 7043/2016 - 27/05/2016
7.5 ECTS; 1º Ano, 1º Semestre, 30,0 PL + 30,0 TP + 15,0 OT + 10,0 O , Cód. 39091.
Docente(s)
            - Ricardo Nuno Taborda Campos  (2)
(1) Docente Responsável
(2) Docente que lecciona
Pré-requisitos
          Não aplicável
Objetivos
          1. Conhecer as cinco dimensões do big data
2. Entender os riscos no uso do big data
3. Entender o ciclo de vida de um projeto de big data bem como a sua arquitetura
4. Entender o processo de query, armazenamento e processamento por detrás do big data
5. Extrair informação a partir de fontes de dados
Programa
          1. Introdução ao big data
 - O que é o big data?
 - Quem está a usar using Big Data?
 - Origens da informação.
 - Razões para colecionar tantos dados.
 - Como é que o big data difere das tradicionais bases de dados?
 - Diferentes tipos de dados.
 - 5 Vs do Big Data: volume, velocidade, variedade, veracidade e valor;
2. Ética e Privacidade de dados
 - Como é que podemos evitar o big data?
 - Identidade;
 - Privacidade;
 - Ética;
 - Propriedade;
 - Reputação;
3. Ciclo de vida de um projeto de big data
 - Avaliação do negócio;
 - Identificação dos dados;
 - Carregamento e filtragem de dados;
 - Extração de informação;
 - Limpeza e validação de dados;
 - Agregação e representação dos dados;
 - Análise de dados;
 - Visualização de dados;
 - Utilização dos resultados.
4. Armazenamento em big data: NoSQL
 - Armazenamento em pares, valores;
 - Armazenamento em colunas;
 - Armazenamento baseado em documentos;
 - Armazenamento baseado em grafos;
5. Framework de armazenamento e processamento em big data: Apache Hadoop
 - HDFS;
 - MapReduce;
6. Análise de dados em big data
 - Slicing and dicing;
 - Monitorização básica;
 - Identificação de anomalias;
 - Data Mining;
 - Text Mining;
 - Web Mining;
 - Multimedia Mining.
7. Text Mining
 - Diferença entre análise de texto e recuperação de informação;
 - Técnicas de extração de informação;
 - Arquitetura de um sistema de processamento da linguagem natural;
8. Implementação de soluções práticas de big data
- Instalação, configuração e uso de uma distribuição Hadoop
Metodologia de avaliação
          Realização de 2 projetos. 
Projeto I:  60%
Projeto II: 40%
A entrega dos projetos é obrigatória para a obtenção de aprovação na UC, com nota mínima de 7 valores em cada componente.
Bibliografia
          - Davis, K. (2012). Ethics of Big Data. (pp. 1-79). USA:  O´Reilly
- Erl, T.  e Khattak, W.  e Buhler, P. (2016). Big Data Fundamentals: Concepts, Drivers & Techniques. (pp. 1-235). USA:  Prentice Hall
- Provost, F.  e Fawcett, T.  e , . (2013). Data Science for Business. (pp. 1-386). USA:  O´Reilly
- Witten, I.  e Frank, E.  e Hall, M. (2011). Data Mining: Practical Machine Learning Tools and Techniques. (pp. 1-629). USA:  Elsevier
Método de Ensino
          Ensino teórico-prático com recurso a meios áudio-visuais, a equipamento laboratorial e a exemplos práticos. Avaliação: Realização e apresentação de projectos de grupo. 
Software utilizado nas aulas
          Apache Hadoop


















