Вы находитесь на странице: 1из 55

Tolerncia

a Falha - TF

Conceitos e Tcnicas
IFPB
Sistemas de Tolerncia a Falha

So sistemas com capacidade de auxiliar na


iden=cao, preveno e correo de falhas
de hardware ou de soDware.

Seu obje=vo alcanar dependabilidade.

2
Dependabilidade

} uma traduo literal do termo ingls dependability;


}Indica a qualidade do servio fornecido por um dado
sistema e a conana depositada no seu servio;
}Principais medidas de dependabilidade so :
conabilidade,
disponibilidade,
segurana de funcionamento,
segurana (security),
mantenabilidade,
testabilidade e 3
comprome=mento do desempenho
Garan=r Dependabilidade [Mar=ns,2008]

Preveno de falhas
Evita a ocorrncia ou introduo de falhas
Tolerncia a falhas
Fornecer o servio correto em presena de falhas
Remoo de falhas
Reduzir o nmero ou a severidade das falhas
Previso de falhas
Avaliar o nmero de falhas presentes, ou a futura
incidncia ou a conseqncia de falhas 4
Projeto com Tolerncia Falha
Preveno de Falha:
Aumentar a conabilidade eliminando as falhas.
Reduzir a probabilidade de falha do sistema a um
valor razoavelmente baixo.
Tolerncia Falha:
Espera que as falhas ocorram.
Efeitos compensados.

5
rvore de Dependabilidade

[Mar=ns, 2008]
Falha / Erro / Defeito
} Falha:
resultado de um erro de um componente ou no projeto do
sistema.
} Erro:
parte de um estado errneo que cons=tui uma diferena de um
estado vlido.
} Defeito:
desvio do comportamento do sistema de algum conjunto de
especicaes pr-denidas.



7
Falha Erro Defeito
Tolerncia a Falhas
Desaos:
Atender aos obje;vos de dependabilidade;
Suportar funes com diversos nveis de
gravidade;
Limitar o custo de desenvolvimento e produo;
Permi=r a vericao e validao do sistema.

8
Tolerncia falha
Requisito chave:
Replicao de recursos em hardware ou em
soDware.
Tempo: repe=o da computao.
Espao: adoo de ml=plos canais de hardware.
Informao: adoo de ml=plas verses de soDware.

9
Tolerncia Falhas - Redundncias
Homogneas
Alto custo de reparo
Overhead para algumas tarefas
Simples gerenciamento da redundncia
Heterogneas
Redundncia o;mizada para cada tarefa

10
Tcnicas

DEPENDABILIDADE
Tcnicas para alcanar
dependabilidade

Tcnicas e mtodos para alcanar a


dependabilidade desejada
Tolerncia a Falhas
Preveno e remoo de falhas no so
sucientes quando sistema exige alta
conabilidade ou alta disponibilidade;

Sistema deve ser construdo usando tcnicas


de tolerncia a falhas;
Tolerncia a Falhas
Tipos de tolerncia a falhas:

Mascaramento na Origem:

Mascaramento por Redundncia

Deteco, Localizao e Recongurao.


Fases de Aplicao das tcnicas de
Tolerncia a Falhas
Primeira Fase: deteco de Erro
Falha primeiro se manifesta como um erro;
Antes da manifestao como erro, a falha est
latente e no pode ser detectada;
Ex. mecanismo de deteco: Duplicao e
comparao.
Deteco: Duplicao e comparao
Segunda Fase: Connamento
Da ocorrncia da falha, at o erro ser
detectado, pode haver espalhamento de
dados invlidos;

O connamento estabelece limites para a


propagao do dano;
Segunda Fase: Connamento
Decises de projeto;
Sistemas, por natureza, no provem
connamento;
Durante o projeto devem ser previstas e
implementadas restries ao uxo de
informaes;
Estabelecer interfaces de vericao para
deteco de erro.
Terceira Fase: Recuperao
Ocorre aps a deteco;

Troca do estado atual incorreto para um


estado livre de falhas;
Terceira Fase: Recuperao

Tcnicas de Recuperao
Terceira Fase: Recuperao

Recuperao por retorno e por avano


Quarta Fase: Tratamento
Localizar a origem da falha;
Localizar a falha de forma precisa;
Reparar a falha;
Recuperar o restante do sistema.
Quarta Fase: Tratamento
Localizar:
Localizao Grosseira e rpida: aplicada sobre um
mdulo ou subsistema;
Localizao Fina: onde o componente falho
determinado
Para os dois =pos de localizao usado
diagns;co.
Quarta Fase: Tratamento
Diagns=co: Teste de comparao entre
resultados gerados com resultados previstos:
Manual: executado por um operador local ou
remoto;
Autom=co: executado pelos componentes livres
de falha do sistema.
Quarta Fase: Tratamento
Aps a localizao, a falha reparada atravs
da remoo do componente danicado, o
reparo pode ser:
Manual
Autom=co
Quarta Fase: Tratamento
Autom=co:
Degradao Gradual: Recongurao para
operao com menor nmero de componentes;
Subs=tuio: por outro componente disponvel no
sistema. (usada em sistemas com longos perdos
de misso sem possibilidade de reparo manual,
sondas espaciais e satlites.
Mascaramento de Falhas
Garante resposta mesmo na presena de
falhas;
A falha no se manifesta como erro;
Em caso de falhas permanentes, a localizao
e o reparo da falha so necessrios
Mecanismos para Mascarar Falhas
REDUNDNCIA
Redundncia
Redundncia para aumento de conabilidade
quase to an=ga como a histria dos
computadores;
Todas as tcnicas de tolerncia a falhas
envolvem alguma forma de redundncia;
Na indstria nacional, o termo u=lizado para
designar um sistema tolerante a falhas
sistema redundante
Redundncia
Redundncia de Informaes;

Redundncia Temporal;

Redundncia de Hardware;

Redundncia de soDware;
Redundncia
Serve tanto para deteco de falhas quanto
para mascaramento;
O grau de redundncia diferente para cada
caso;
Para mascarar falhas so necessrios mais
componentes do que para detectar falhas.

Redundncia de Informao
Bits ou sinais extras so armazenados ou
transmi=dos junto ao dado;
Servem para deteo de erros ou mascaramento
de falhas
Ex.:
Cdigos de paridade;
Checksums;
Cdigos de duplicao;
Cdigos cclicos.
Redundncia Temporal
Repete a computao no tempo;
Evita custos de Hardware;
Aumenta o tempo necessrio para realizar
uma computao
Usada em sistemas onde o tempo no
cr=co;
Redundncia Temporal
Aplicaes usuais:
Deteco de falhas transitrias: repe=ndo a
computao;
Deteco de falhas permanentes: repete-se a
computao com dados codicados e decodica-
se o resultado antes da comparao;
Redundncia de Hardware
Baseada da replicao de componentes
xsicos:
Redundncia de Hardware Passiva
Os elementos redundantes so usados para
mascarar falhas;
Todos os elementos executam a mesma
tarefa;
O resultado determinado por votao;
Ex:
TMR (triple modular redundancy) e NMR
(redundncia modular com n mdulos)
Redundncia de Hardware Passiva
Redundncia de Hardware Passiva
Solues para contornar a fragilidade do
votador:
Construir o votador com componentes de alta
conabilidade;
Triplicar o votador;
Realizar a votao por soDware;
Redundncia de Hardware Passiva
TMR com votador Triplo
Redundncia de Hardware Passiva
TMR apresenta uma conabilidade maior que
um sistema de um nico componente at a
ocorrncia da primeira falha permanente;
Depois perde a capacidade de mascarar
falhas, apresentando conabilidade menor
que um sistema de um nico componente;
Redundncia de Hardware Passiva
Com o tempo, TMR apresenta uma
conabilidade pior do que um sistema no
redundante;
TMR ideal para perodos no longos de
misso, suporta apenas uma falha
permanente
Ideal para falhas temporrias... Uma de cada
vez...
Redundncia de Hardware Passiva

Conabilidade de TMR
Redundncia de Hardware Passiva
NMR (Redundncia Modular Ml=pla) a
generalizao de TMR

TMR um caso especial de NMR;


O computador de bordo do nibus espacial um
exemplo de NMR, com n igual a 4 e votao por
soDware.
Tcnicas de

TOLERNCIA A FALHAS - TTF


Requisito Chave para TF
O requisito chave para sistemas tolerantes a falhas a
replicao de recursos em hardware ou em soUware.

A replicao pode ser no domnio abstrato das


seguintes propriedades de SD:
(T) Tempo: adoo de mul,plos ou repe,dos execuces de
um processo de forma que os resultados possam ser
comparados;
(H) Espao: adoo de um ou mais canais de hardware por
um processo;
(S) Informao: adoo de ml,plas verses de so<ware
para executar uma tarefa.
Notao nT/mH/pS
Detalhamento da notao
n: representa tempo e o nmero de execues
m: representa espao e o nmero de canais de
hardware
p: representa informao e o nmero de
verses do programas (soDware)
Sistema no TF
Notao: 1T/1H/1S
conhecido como sistema simplex

Leitura da notao:
uma execuo de um processo (uma verso) de um
programa usando em um hardware
Notao mais detalhada
(nT/mH/qA/rD)

A propriedade Informaes podem ser divididos


ainda mais em:
(D) Dados e
(A) Algortmos
Notao modicaria para:
nT/mH/qA/rD.
Dessa forma, pode-se pensar em redundncia de
50
dados ou redundncia de mtodos.
Mecanismos para Sistemas TF #1/2

Blocos de recuperao:
N execues de P verses:
no mesmo hardware (NT/1H/PS) ou
em paralelo sobre M canais de hardware (NT/MH/PS)
Baseia-se na ideia de que quanto mais recursos
redundantes mais convel ser o sistema

51
Mecanismos para Sistemas TF #2/2

NVP N Version of Programs:


Mul=plas verses diferentes de um mesmo programa
so executados
Baseia-se na ideia de que a independncia dos
esforos de programao reduz signica=vamente a
probabilidade de falhas de soUware idn;cos que
ocorrem em mul=plas verses do programa
52
Procedimento para NVP #1/3
Uma especicao inicial da funcionalidade
pretendida do soDware:
funes, formatos de dados (que incluem vectores de
comparao, c-vetores, e indicadores de status de
comparao, cs-indicadores), pontos de vericao
cruzada, algoritmo de comparao, e respostas ao
algoritmo de comparao.
Procedimento para NVP #2/3
A par=r das especicaes, duas ou mais verses do
programa so desenvolvidos de forma
independente, cada uma por um grupo que no
interage com os outros.
as implementaes devem adotar diferentes algoritmos e linguagens
de programao
Incluso de mecanismos especiais em vrios pontos do programa que
permitam que o programa a seja governado pelo ambiente de
execuo N-verso, tais como:
vectores de comparao (c-vectores, uma estrutura de dados que
representa o programa estado), os indicadores de status de comparao
(CS-indicadores) e mecanismos de sincronizao. Os programas
resultantes so chamados N-verso do soDware.
Procedimento para NVP #3/3
Criar ambientes de execues de N-verso
toma as decises nais dos programas N-verso como um
todo, dada a sada de cada programa N-verso individual.
a implementao da deciso algoritmos pode ser baseada
na comparao, ou seja, se a maioria das verses
concordam com a sada de um processamento, ento
provvel que seja correta

Вам также может понравиться