Computação de Alto Desempenho: o Que É, para Que Serve e Como Funciona

Computação de Alto Desempenho:
o que é, para que serve e como funciona
Jeremias Moreira Gomes
jeremiasmg@gmail.com
23 de março de 2016
Introdução
Computação de Alto Desempenho
Como Funciona?
Conclusão
Referências Bibliográficas
Sumário
1 Introdução
2 Computação de Alto Desempenho
3 Como Funciona?
4 Conclusão
5 Referências Bibliográficas
Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 2/37

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Como Executar uma Tarefa Mais Rápido?!?
Essencialmente, há três maneiras de se executar uma tarefa

de maneira mais rápida

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Trabalhando mais rápido

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Trabalhando de maneira mais inteligente

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Trabalhando de maneira mais inteligente
Solicitando apoio

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Trabalhando Mais Rápido
Aumentando a Velocidade da CPU

Lei de Moore
Funcionou muito bem até 2005
Barreira tecnológica

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Lei de Moore

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Lei de Moore
Bacharel em Química pela Universidade da Califórnia (1950)
Bacharel em Física pela Caltech (1954)
Cofundador da Intel Corporation (1968)
Fez uma previsão sobre o futuro do hardware conhecida como

“Lei de Moore” [Moore, 2006]
Figura: Gordon E. Moore

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Lei de Moore
Bacharel em Química pela Universidade da Califórnia (1950)
Bacharel em Física pela Caltech (1954)
Cofundador da Intel Corporation (1968)
Fez uma previsão sobre o futuro do hardware conhecida como

“Lei de Moore” [Moore, 2006]
“A complexidade para componentes

com custos mínimos tem aumentado em
Figura: Gordon E. Moore
uma taxa de aproximadamente um fator
de dois por ano.”
Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Evolução da Quantidade de Transistores nos

Processadores
100,000,000,000
Número de Transistores
1,000,000,000
10,000,000
100,000
1,000
10
1,970 1,980 1,990 2,000 2,010 2,016
Ano

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Lei de Moore

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Performance Computacional
10,000,000
1,000,000 Performance
Clock (MHz)
Consumo Energético
100,000
Núcleos por Chip
10,000
1,000
100
10
0
1985 1990 1995 2000 2005 2010
Ano de Lançamento
Figura: Evolução da Performance Computacional. Adaptado de [Millett et al., 2011]

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
10,000,000
Clock (MHz)
Consumo Energético
100,000
Núcleos por Chip
10,000
1,000
100
10
0
1985 1990 1995 2000 2005 2010
Ano de Lançamento

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
10,000,000
Clock (MHz)
Consumo Energético
100,000
Núcleos por Chip
10,000
1,000
100
10
0
1985 1990 1995 2000 2005 2010
Ano de Lançamento

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
10,000,000
Clock (MHz)
Consumo Energético
100,000
Núcleos por Chip
10,000
1,000
100
10
0
1985 1990 1995 2000 2005 2010
Ano de Lançamento

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Número de Núcleos por Soquete
100
90
80
70
60
50
40
30
20
10
0
2002 2004 2006 2008 2010 2012 2014 2016
Figura: Evolução da Quantidade de Núcleos. Retirado de [Top500.org, 2015].

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão

Lei de Moore
Ciclo de Palestras Quinzenais - UDF 10/37

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Trabalhando de Maneira Mais Inteligente

Mudança de Abordagem
Escolha apropriada do algoritmo
Adaptações em algoritmos
Problemas sem solução polinomial determinística (NP)
35
Gama
29
31
47
Lago Sul
35 42 Taguatinga
Cruzeiro
25
38
9
Asa Norte
22 Sobradinho
Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Solicitando Apoio
Buscamos de alguma forma executar as tarefas em paralelo
Paralelismo encoberto
Único processador executa diferentes instruções simultaneamente
Paralelismo aberto
Programador manipula fluxos diferentes de instruções
Figura: Serial

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Solicitando Apoio
Paralelismo aberto
Figura: Serial Figura: Encoberto

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Solicitando Apoio
Paralelismo aberto
Figura: Serial Figura: Encoberto Figura: Aberto

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Taxonomia de Flynn
Modelo para classificação de arquiteturas mais aceito pela
comunidade científica [Flynn, 1972].
Fluxo de
Instruções
Único Múltiplo
Único SISD MISD

Fluxo de
Dados
Múltiplo
SIMD MIMD
Figura: Taxonomia de Flynn

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Taxonomia de Flynn
Fluxo de
Instruções
Único Múltiplo
Único SISD MISD

Fluxo de
Dados
Múltiplo
SIMD MIMD
Figura: Single Instruction, Single Data

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Taxonomia de Flynn
Fluxo de
Instruções
Único Múltiplo
Único SISD MISD

Fluxo de
Dados
Múltiplo
SIMD MIMD
Figura: Single Instruction, Multiple Data

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Taxonomia de Flynn
Fluxo de
Instruções
Único Múltiplo
Único SISD MISD

Fluxo de
Dados
Múltiplo
SIMD MIMD
Figura: Multiple Instruction, Multiple DAta

Introdução
Tempo de Uma Tarefa
Como Funciona?
Taxonomia de Flynn
Conclusão
Taxonomia de Flynn
Fluxo de
Instruções
Único Múltiplo
Único SISD MISD

Fluxo de
Dados
Múltiplo
SIMD MIMD
Figura: Multiple Instruction, Single Data

Introdução Computação Paralela
Computação de Alto Desempenho Exemplo de Processadores Paralelos
Como Funciona? Computação Distribuída
Conclusão Exemplos de Sistemas Distribuídos
Referências Bibliográficas Diferença entre Sistemas Paralelos e Sistemas Distribuídos
Computação Paralela
Arquiteturas Paralelas
São arquiteturas compostas por mais de um processador e
que compartilham um espaço de memória em comum.
CPU
CPU MEMÓRIA CPU
CPU
Figura: Arquiteturas Paralelas possuem uma memória compartilhada

Exemplo de Processadores Paralelos

Arquitetura Manycore
Utilizam técnicas de paralelismo massivo para priorizar vazão
de processamento.


de processamento.
Intel® Xeon Phi™

61 núcleos
4 threads de hardware
16 GB de DDR5
Registradores vetoriais de 512 bits


de processamento.
NVIDIA GeForce GTX TITAN X

3072 núcleos
12 GB de DDR5
Programação em CUDA

Motivação para o Uso de Computadores Paralelos
Custo/Benefício
Desempenho
Disponibilidade
Diversos outros...

Sistemas Distribuídos
Definição segundo Tanenbaum [Tanenbaum, 1995]

Um sistema distribuído é uma coleção de computadores
autônomos conectados por uma rede de comunicação que é
percebida pelos usuários como um único computador que
provê um serviço ou resolve um problema.
Definição segundo Coulouris [Coulouris et al., 2005]

Um sistema distribuído é composto por computadores
conectados em rede (hardware e software) que se comunicam
e coordenam suas ações somente através do envio de
mensagens.

Arquitetura de um Sistemas Distribuído
CPU MEMÓRIA CPU MEMÓRIA
Rede
CPU MEMÓRIA CPU MEMÓRIA
Figura: Arquitetura de um Sistema Distribuído

Exemplos de Sistemas Distribuídos

Internet
Cliente
Cliente
Internet
Cliente
Cliente
Cliente
Cliente
Cliente
Cliente
Figura: Internet

Massive Multiplayer Online Role Playing Game
Figura: Massive Multiplayer Online Role Playing Game (MMORPG)


Massive Multiplayer Online Role Playing Game
Figura: Massive Multiplayer Online Role Playing Game (MMORPG)

Motivação para o Uso de Sistemas Distribuídos
Custo
Desempenho
Disponibilidade
Escalabilidade
Diversos outros...

Diferença entre Sistemas Paralelos e Sistemas

Distribuídos
Computador Paralelo
Uma coleção de elementos de processamento que cooperam e
comunicam para resolver problemas mais rápido.
A principal diferença entre Sistemas Paralelos e Sistemas

Distribuídos encontra-se apenas no objetivo de cada um.
Sistema Paralelo: foco principal no desempenho
Sistema Distribuído: custo, disponibilidade, etc

Introdução
Computação de Alto Desempenho Tipos de Arquitetura para Computação de Alto Desempenho
Como Funciona? TOP500
Conclusão Como Programar?
Tipos de Arquitetura para Computação de Alto

Desempenho
Categorias
High Performance Computing (HPC) Para uso dedicado
High Throughput Computing (HTC) Aproveita a ociosidade
das máquinas

Introdução
High Performance Computing (HPC)

Cluster: Arquiteturas construídas com componentes comuns (PC, etc)
Supercomputadores: Arquiteturas proprietárias e específicas

Jeremias Moreira
Figura:Gomes
Exemplo de Cluster
Introdução
Lista TOP500
O TOP500 é um site (http://www.top500.org) que mostra os

500 computadores mais poderosos comercialmente
conhecidos.
Características
Divulgado duas vezes ao ano
É de interesse de fabricantes e compradores
Utiliza um benchmark chamado LINPACK
Utiliza Tera FLOPS como unidade de medida

Introdução
Medida de Desempenho
FLOPS
Operações de ponto flutuante por segundo

Introdução
FLOPS
Mega FLOPS = 220 ∼= 106 = 1.000.000 operações por segundo

Giga FLOPS = 230 ∼
= 109 = 1.000.000.000 ...
Tera FLOPS = 240 ∼
= 1012 = 1.000.000.000.000 ...
Peta FLOPS = 250 ∼
= 1015 = 1.000.000.000.000.000 ...
Exa FLOPS = 260 ∼
= 1018 = 1.000.000.000.000.000.000 ...
Zetta FLOPS = 270 ∼
= 1021 = 1.000.000.000.000.000.000.000 ...
Yotta FLOPS = 280 ∼
= 1024 = 1.000.000.000.000.000.000.000.000 ..
Introdução
FLOPS
Mega FLOPS = 220 ∼= 106 = 1.000.000 operações por segundo

Giga FLOPS = 230 ∼
= 109 = 1.000.000.000 ...
Tera FLOPS = 240 ∼
= 1012 = 1.000.000.000.000 ...
Peta FLOPS = 250 ∼
= 1015 = 1.000.000.000.000.000 ...
Exa FLOPS = 260 ∼
= 1018 = 1.000.000.000.000.000.000 ...
Zetta FLOPS = 270 ∼
= 1021 = 1.000.000.000.000.000.000.000 ...
Yotta FLOPS = 280 ∼
= 1024 = 1.000.000.000.000.000.000.000.000 ..
Introdução
Ranking TOP500
Rank Site País Sistema Cores TFlop/s

National Super Computer Center Tianhe-2 (MilkyWay-2) - TH-IVB-FEP Cluster, Intel Xeon
1 in Guangzhou China E5-2692 12C 2.200GHz, TH Express-2, 3,120,000 33,862.7
Intel Xeon Phi 31S1P,NUDT
DOE/SC/Oak Ridge National Estados Titan - Cray XK7 , Opteron 6274 16C 2.200GHz, Cray
2 560,640 27,112.5
Laboratory Unidos Gemini interconnect, NVIDIA K20x,Cray Inc.
Estados Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz,
3 DOE/NNSA/LLNL 1,572,864 20,132.7
Unidos Custom,IBM
RIKEN Advanced Institute for K computer, SPARC64 VIIIfx 2.0GHz, Tofu
4 Japão 705,024 10,510.0
Computational Science (AICS) interconnect,Fujitsu
DOE/SC/Argonne National Estados Mira - BlueGene/Q, Power BQC 16C 1.60GHz,
5 786,432 8,586.6
Laboratory Unidos Custom,IBM
... ... ... ... ... ...
Laboratório Nacional de Santos Dumont GPU - Bullx B710,
201 Computação Científica Brasil Intel Xeon E5-2695v2 12C 2.4GHz, 10,692 456.8
Infiniband FDR, Nvidia K40,Bull, Atos Group

Introdução
Tianhe-2 (MIlkWay-2)
Primeiro do ranking desde junho de 2013
Figura: Tianhe-2

Introdução
High Throughput Computing (HPT)
HPT
Considera a ociosidade das máquinas
P2P - Cada usuário disponibiliza seu poder computacional
Grid - Cria organizações virtuais a partir de empresas reais

Introdução
High Throughput Computing (HPT)
HPT
Considera a ociosidade das máquinas
P2P - Cada usuário disponibiliza seu poder computacional
Grid - Cria organizações virtuais a partir de empresas reais
Figura: Análise de radiofrequência.

Figura: Anonimato da navegação na internet.

Introdução
Quão Rápido Estamos?
A mudança a cada seis

meses é extremamente
dinâmica
GTX Titan X alcança 6

Giga FLOPS

Introdução
Quão Rápido Estamos?
A mudança a cada seis

meses é extremamente
dinâmica
GTX Titan X alcança 6

Giga FLOPS

Introdução
Como Programar?
Memória Compartilhada
Posix Threads (PThreads)
Memória Distribuída
OpenMP
Message Passing Interface (MPI)
CUDA (GPU)
OpenCL

Introdução
Limites da Paralelização
Quanto meu programa ficou mais rápido?
T (1)
S= T (N )
S → Speedup
T (1) → Tempo serial
T (N ) → Tempo paralelo
Exemplo
Tempo serial = 16 segundos
Tempo paralelo = 3.2 segundos
Qual o speedup?

Introdução
Quanto meu programa ficou mais rápido?
T (1)
S= T (N )
S → Speedup
T (1) → Tempo serial
T (N ) → Tempo paralelo
Exemplo
Tempo serial = 16 segundos
Tempo paralelo = 3.2 segundos
Qual o speedup?
T (1) 16
S= T (N )
= 3.2
= 5×

Introdução
Lei de Amdahl
Existem elementos no código que não são paralelizáveis
Ciclos de tempo para execução

Fórmula
1
Programa S= P
(1−P )+( N )

Figura: ExemploJeremias
de Limitação do Paralelismo
Moreira Gomes
Introdução
Lei de Amdahl
Ciclos de tempo para execução Ciclos de tempo para execução

Fórmula
1
Programa 1-P P S= P
(1−P )+( N )

Moreira Gomes
Introdução
Lei de Amdahl
1-P P1
N=2
P2
Fórmula
1
Programa 1-P P S= P
(1−P )+( N )

Moreira Gomes
Introdução
Lei de Amdahl
1-P P1
N=2
P2
Fórmula
1
Programa 1-P P S= P
(1−P )+( N )
P1
1-P P2 N=3
P3
Moreira Gomes
Introdução
Como Funciona? Conclusão
Conclusão
Conclusão
Limite físico
E se ocorrer um salto de performance?
Consumo energético

Introdução
Como Funciona? Conclusão
Conclusão
Conscientização

Introdução
Como Funciona?
Conclusão
Referências Bibliográficas I
Coulouris, G. F., Dollimore, J., and Kindberg, T. (2005).

Distributed systems: concepts and design.
pearson education.
Flynn, M. (1972).
Some Computer Organizations and their Effectiveness.
Computers, IEEE Transactions on, 100(9):948–960.
Millett, L. I., Fuller, S. H., et al. (2011).

The Future of Computing Performance:: Game Over or Next Level?
National Academies Press.
Moore, G. E. (2006).
Cramming More Components onto Integrated Circuits, Reprinted from Electronics, volume 38, number 8,
April 19, 1965, pp. 114 ff.
IEEE Solid-State Circuits Newsletter, 3(20):33–35.
Tanenbaum, A. S. (1995).
Distributed operating systems.
Pearson Education India.
Top500.org (2015).
Top500 Supercomputer Sites, http://top500.org.

Computação de Alto Desempenho:
o que é, para que serve e como funciona
jeremiasmg@gmail.com
23 de março de 2016

Computação de Alto Desempenho: o Que É, para Que Serve e Como Funciona

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Computação de Alto Desempenho: o Que É, para Que Serve e Como Funciona

Загружено:

Авторское право:

Доступные форматы

Computação de Alto Desempenho:

o que é, para que serve e como funciona

Jeremias Moreira Gomes

2 Computação de Alto Desempenho

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 2/37

Como Executar uma Tarefa Mais Rápido?!?

Essencialmente, há três maneiras de se executar uma tarefa

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 3/37

Como Executar uma Tarefa Mais Rápido?!?

Essencialmente, há três maneiras de se executar uma tarefa

Trabalhando mais rápido

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 3/37

Como Executar uma Tarefa Mais Rápido?!?

Essencialmente, há três maneiras de se executar uma tarefa

Trabalhando mais rápido

Trabalhando de maneira mais inteligente

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 3/37

Como Executar uma Tarefa Mais Rápido?!?

Essencialmente, há três maneiras de se executar uma tarefa

Trabalhando mais rápido

Trabalhando de maneira mais inteligente

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 3/37

Trabalhando Mais Rápido

Aumentando a Velocidade da CPU

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 4/37

Trabalhando Mais Rápido

Aumentando a Velocidade da CPU

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 4/37

Bacharel em Química pela Universidade da Califórnia (1950)

Bacharel em Física pela Caltech (1954)

Cofundador da Intel Corporation (1968)

Fez uma previsão sobre o futuro do hardware conhecida como

Figura: Gordon E. Moore

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 5/37

Bacharel em Química pela Universidade da Califórnia (1950)

Bacharel em Física pela Caltech (1954)

Cofundador da Intel Corporation (1968)

Fez uma previsão sobre o futuro do hardware conhecida como

“A complexidade para componentes

Evolução da Quantidade de Transistores nos

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 6/37

Trabalhando Mais Rápido

Aumentando a Velocidade da CPU

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 7/37

Figura: Evolução da Performance Computacional. Adaptado de [Millett et al., 2011]

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 8/37

Figura: Evolução da Performance Computacional. Adaptado de [Millett et al., 2011]

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 8/37

Figura: Evolução da Performance Computacional. Adaptado de [Millett et al., 2011]

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 8/37

Figura: Evolução da Performance Computacional. Adaptado de [Millett et al., 2011]

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 8/37

Número de Núcleos por Soquete

Figura: Evolução da Quantidade de Núcleos. Retirado de [Top500.org, 2015].

Jeremias Moreira Gomes Ciclo de Palestras Quinzenais - UDF 9/37

Trabalhando Mais Rápido

Aumentando a Velocidade da CPU

Ciclo de Palestras Quinzenais - UDF 10/37

Trabalhando de Maneira Mais Inteligente

Ciclo de Palestras Quinzenais - UDF 12/37

Figura: Serial Figura: Encoberto

Ciclo de Palestras Quinzenais - UDF 12/37

Figura: Serial Figura: Encoberto Figura: Aberto