José Ribamar Smolka Ramos
Telecomunicações
Artigos e Mensagens


ComUnidade WirelessBrasil

Julho 2008               Índice Geral


31/07/08

Sobre "planos_B" (1)- Mensagem de José Smolka

----- Original Message -----
From: J.R.Smolka
To: Celld-group@yahoogrupos.com.br
Sent: Thursday, July 31, 2008 1:52 AM
Subject: [Celld-group] Sobre "planos B"
 
Colegas do Celld-Group,

Nesta discussão sobre o "caladão" ocorrido na rede MPLS da Telefónica em SP, tem sido recorrente o aparecimento de perguntas ou colocações do tipo:
É imprescindivel uma forma alternativa de acesso aos consoles de roteadores em pontos remotos. Se admira uma Tele não ter circuitos SLDD especificos para esta função, se foi realmente este o caso de falha no acesso aos equipamentos.
Havia plano de contingência/plano de continuidade dos negócios?
No caso da Atento, só há comunicação via rede (em caso de catastrofe eles ficam no escuro)?

Então vamos falar um pouco sobre planejamento de contingência, ou, para usar um termo mais fashion: business continuity plan (BCP). No popular: o "plano B" para situações de emergência.

Primeiro uma analogia no plano pessoal. Alguém aí tem uma apólice de seguro de vida que cubra a hipótese de ser atingido pela queda de um meteoro? Não?? E alguém tem seguro contra tsunamis? Também não??? Mas seguro do automóvel contra furto e roubo eu aposto que vcs tem, não é? Porque será?

Simples. Quando decidimos gastar o nosso dinheirinho suado na prevenção de algum sinistro, nós avaliamos se o risco compensa a despesa com a prevenção. E quando uma empresa tem que decidir sobre o seu BCP não é diferente. Tudo resume-se a quantificar objetivamente (nos termos que a alta administração entende: $$$) o dano causado pela manifestação de um determinado risco e o custo da sua prevenção ou mitigação. Trazendo estes valores para o valor presente líquido (VPL), se o custo da ocorrência do dano for maior que o custo da prevenção/mitigação, então o investimento é justificado. Senão esqueça.

Alguém aí pode estar pensando: peraí... mas existem os danos intangíveis, como dano de imagem. Mesmo estes podem e devem ser quantificados. Você pode traduzir o dano de imagem, por exemplo, em perda estimada de receita pela fuga de clientes atuais ou pelo não cumprimento de metas de captação de novos clientes.

O segredo do negócio é organizar uma matriz de riscos x danos. Mas, o que é um risco? Em todo negócio existem vulnerabilidades. Equipamentos podem quebrar, fornecedores podem descumprir contratos, podem acontecer greves ou desastres naturais, sabotagem, espionagem, you name it. Analisando o elenco das vulnerabilidades do negócio, o responsável pela montagem do BCP tem que determinar qual é, dentro de um horizonte definido no tempo, a probabilidade destas vulnerabilidades serem atingidas por algum evento. Cada conjunto vulnerabilidade + probabilidade de ocorrência é um risco.

A matriz é montada posicionando cada vulnerabilidade como um ponto em um gráfico cartesiano onde o eixo x representa o tamanho do dano, e o eixo y representa a probabilidade de ocorrência. Divide-se então o plano em 16 áreas:, definidas por 4 faixas para o valor do dano e para a probabilidade de ocorrência (baixo, médio, grande e muito grande - cada empresa precisa definir o que estes termos significam no seu contexto específico). A depender das disponibilidades orçamentárias, ataca-se prioritariamente as faixas de dano muito grande e de probabilidade muito grande, e sucessivamente vão sendo elaborados planos de ação para cada ponto restante, sempre considerando a comparação do VPL com o custo da prevenção ou mitigação. Nos casos de riscos com baixa probabilidade e baixo dano, a decisão executiva pode ser de aceitar o risco e não fazer nada.

O caso é: eu não acredito que o pessoal que administra a rede MPLS da Telefónica (corpo técnico e gerencial) tenha descuidado disto. Pode até ser que eles não sejam brilhantes, mas malucos eles não são. Eles certamente fizeram o dever de casa para colocar na rede MPLS todas as salvaguardas necessárias para garantir a continuidade do serviço, mesmo que com alguma degradação temporária e/ou localizada, para todos os riscos com probabilidade razoável de ocorrência.

E o que de fato aconteceu, estava nesta classe? Acredito que não. Falhas de links e roteadores, até mesmo falhas duplas simultâneas, são eventos razoavelmente prováveis, e cobertos via redundância planejada dos elementos da rede. Uma falha geral do roteamento tem probabilidade semelhante de ocorrer? No way. Não se você seleciona cautelosamente os seus fornecedores e tem um bom conjunto de práticas administrativas para fazer o change management da rede. E eu acho que eles fazem tudo isto. Pode até não ser perfeito, mas fazem.

Apesar das explicações não parecerem completas, em um ponto eu não tenho dúvidas: foi algo inesperado, tão improvável que não haveria medida economicamente justificável para a sua prevenção. Por isso, quando aconteceu, foi um burn through total. Se fosse em uma usina nuclear teria sido a "síndrome da china".

E continuamos à espera dos detalhes do laudo do CPqD...

[ ]'s
J. R. Smolka_

Nota da Coordenação:
Este "post" no BLOCO - Blog ComUnitário, pode conter material que complementa o assunto:
Sobre "planos_B" (1)- Mensagem de José Smolka


 

ComUnidade WirelessBrasil                     BLOCO