sexta-feira, 25 de março de 2016

Coisas que você precisa fazer para tornar seu mundo diagnosticável em TI

Gestão de crises: Auditoria, Acesso e muitas outras coisas


Você sempre descobre a inadequação das suas ferramentas de gerenciamento do sistema, monitoração e diagnóstico quando algo dá errado e há um abismo entre o que você quer fazer e o que você precisa fazer. Segue abaixo 10 coisas que você pode fazer para maximizar suas chances de diagnosticar o problema com antecedência.

Sincronizar seus relógios

Uma coisa que poucos dão a devida importância e que você pode fazer é ter uma fonte de hora com autoridade e garantir que todos os seus componentes de infraestrutura ajustam seus relógios a partir dele. Se os sistemas têm tempos diferentes em seus relógios internos para os registros que você tem disponível, os torna quase impossível para agrupar manualmente ou usa-los para informações de segurança e gerenciamento de eventos. Note que eu não estou dizendo que os relógios realmente tem que ser ajustados ao nano segundo mais próximo para GMT, só que eles precisam ser idênticos uns aos outros. Mas usar uma fonte de hora com autoridade de qualquer maneira, como ter tudo definido para o momento certo também é útil.

Log de auditoria

Você precisa ser capaz de ver quem tomou a ação, e quando eles fizeram isso. É crucial, porque quem pode garantir que eles não irão fazer isso novamente? Se os funcionários começam a reclamar que estão sendo vigiados, pode dizer-lhes, tão educadamente quanto quiser, porque você está fazendo isso.

A grande quantidade de casos em que os usuários fizeram algo errado é sem querer, caso em que pode se capaz de instrui-los ou treiná-los e / ou esclarecer em documentação. Além disso, lembre-se que muitas vezes não é uma pessoa a última a tocar em algo antes dela quebrar: muitas vezes é um script, e log de auditoria irá dar-lhe um ponteiro que ajuda você a descobrir qual deles.

Níveis de log

Logs tomam espaço em disco, e é um paradoxo: quando está tudo bem você quer transformá-lo para relatar apenas problemas de emergência, mas se algo quebra você quer registos de nível de depuração de dez minutos atrás. Pense bem sobre cada log e defina o seu nível de forma adequada.

Gestão Out-of-band

Se você estiver usando um servidor de nível empresarial e você não comprar o módulo de gerenciamento out-of-band, você está se expondo. Você deve garantir que tem pleno controle e console out-of-band para todo o seu kit, mesmo ao ponto de uma conexão de modem dial-up em um servidor de terminal e unidade de KVM para tratar falhas de WAN e VPN.

Os níveis de acesso

Muitas vezes podem acontecer de o cara fora de seu horário ser chamado, não pode resolver o problema, aumenta-lo para o cara de segunda linha... E os seus privilégios não deixá-lo com as permissões adequadas tanto para olhar o problema ou corrigi-lo. Use permissões baseadas em funções e certifique se as equipes de apoio têm os perfis certos e teste-os com frequência.

Credenciais atuais

Se você é o décimo na lista de chamadas você provavelmente não foi chamado por meses, em seguida, quando o telefone toca você encontra-se com sua conta no sistema que você está tentando consertar expirada. Às vezes, você vai ter a sorte e o sistema irá dizer: "Sua conta expirou: clique aqui para alterar sua senha"; às vezes você não vai e ele vai dizer: "Sua conta expirou: entre em contato com o administrador do sistema". Novamente, verifique suas credenciais regularmente, assim você sabe que elas vão trabalhar quando você precisar.

Acesso a senhas ultrassecretas

É comum ter a senha de nível máximo dos sistemas centrais desconhecidas. Soa um pouco tonto, eu sei, mas uma boa maneira de permanecer seguro é: (a) escrever uma senha ridiculamente complexa em um pedaço de papel; (B) definir a senha de nível superior para essa cadeia; e (c) selá-la em um envelope e trancá-la em um cofre. Se for suficientemente complexo e estranho, a pessoa que escreveu não será capaz de se lembrar, o que significa que você sempre tem um último meio de acesso. Mas certifique-se que as colocou no lugar certo para despertar aqueles que têm acesso ao cofre quando você precisa da senha.

Contatos da equipe de apoio

Você não sabe tudo sobre tudo, desse modo deve manter sua lista de contatos atualizada e acessível. Certifique-se dos processos de entradas e saídas de pessoas da empresa está integrado com esta lista.

Gestão da Crise de Negócios

O que gestão de crise de negócios tem a ver com diagnóstico de falhas? Resposta em uma palavra: o tempo. Se algo foi realmente definido para esse objetivo, você pode ser capaz de se concentrar em descobrir o que está errado e defini-lo. Com um regime de gestão de crise de negócios bem estruturado você pode invocar uma chamada externa e deixá-los com todo o material auxiliar.

Lições aprendidas

Quando você descobre o problema e fixa a causa subjacente, sempre reservar um tempo para considerar (e de preferência discutir com os outros) como e por que o problema aconteceu. Refletir sobre o que você fez, e que (se qualquer coisa) poderia ter sido feito melhor. Aplicar estas considerações a sua documentação, processos, procedimentos e treinamento.