Seguidores

terça-feira, 1 de dezembro de 2015

Operação de Serviço


Operação de Serviço



Objetivo: entregar aos clientes e usuários os níveis de serviço acordados e gerenciar as aplicações, tecnologia e infraestrutura que suportam a entrega do serviço.

Este é o único estágio em que os serviços efetivamente entregam valor ao cliente, uma vez que para o Cliente o valor está no serviço de TI em produção.

OBJETIVOS CONFLITANTES:


     visão interna (TI) x visão externa (negócio): a visão técnica é necessária para a gestão dos componentes dos serviços, mas não pode se sobrepor aos requisitos de qualidade dos usuários para esses serviços;

     estabilidade x tempo de atendimento: a infra de TI deve ser estável para oferecer a disponibilidade esperada, ao passo que deve ser flexível para adaptar-se a mudanças de requisitos de negócio;
     qualidade do serviço x custo do serviço: os serviços devem atender os acordos de nível de serviço estabelecidos ao menor custo possível e com uso otimizado dos recursos;

     atividades reativas x proativas: é importante agir proativamente antecipando-se a possíveis problemas, desde que isso não implique mudanças excessivas ou perda da capacidade de reação.

Conceitos Básicos:

     Requisição de serviço: é o pedido de informação para uma mudança ou o pedido para acessar um serviço de TI. É geralmente atendida pela Central de Serviço e não requer a abertura de uma requisição de mudança.

     Evento: é um status report criado por um serviço, item de configuração ou ferramenta de monitoramento causado pela alteração no desempenho da infraestrutura ou de entrega de serviço. Geralmente requer que incidentes sejam registrados e uma ação seja tomada pelo pessoal de operações de TI. É uma mudança de estado significativa para um item de configuração ou serviço.


     Alerta: É um aviso ou advertência sobre uma meta (threshold), mudança ou falha que ocorreu. É produzido e tratado por ferramentas de gerenciamento de sistemas e pelo processo de gerenciamento de eventos.

     Incidente: interrupção inesperada ou redução na qualidade de um serviço de TI. Pode ser uma falha de um item de configuração que ainda não tenha impactado o serviço, mas que possa fazê-lo em breve.


     Problema: é a causa de um ou mais incidentes. O processo de Gerenciamento de Problemas é responsável pela investigação da causa raiz.


     Solução de contorno (workaround): resolve uma dificuldade ou questão de forma temporária, paliativa.


     Erro conhecido (known error): é um problema que tem a causa raiz documentada e uma solução de contorno identificada. Erros conhecidos são identificados no ciclo de vida do processo de Gerenciamento de Problema.

     Base de Erros Conhecidos: registro centralizado de erros conhecidos. Tais registros são utilizados pelo processo de Gerenciamento de Incidente para resolver incidentes. Esta base, por sua vez, faz parte do SKMS / SGCS – Sistema de Gerenciamento do Conhecimento de Serviço. Esta base pode ser disponibilizada para que os usuários façam o próprio atendimento.

     Impacto, urgência e prioridade: a avaliação de impacto e da urgência de incidentes, problemas e mudanças é importante para determinar suas prioridades. A prioridade determina a ordem de execução. Determiná-la baseado na combinação entre impacto x urgência é uma boa prática. O impacto considera quantas pessoas, clientes ou quanto do negócio será afetado, enquanto a urgência determina a velocidade em que o incidente precisa ser resolvido.


      Importância da comunicação: a comunicação entre as equipes de TI, departamentos, usuários, clientes é primordial na Operação de Serviço. Uma política de comunicação em cada equipe ou departamento e para cada processo deve ser estabelecida. A comunicação pode ser formal, mas não necessariamente complexa.


Processos (Mnemônico: In/Ev/Cump/Ace/Prob):


[In] Gerenciamento de Incidentes:


O propósito deste processo é restaurar o serviço ao normal o mais rápido possível, além de minimizar o impacto no negócio.

Incidentes são:

     Frequentemente detectados pelo Gerenciamento de Eventos, ou por usuários contactando a Central de Serviços;

     Categorizados para identificar quem deverá trabalhar neles e para análises de tendências;

     Priorizados de acordo com a urgência e o impacto para o negócio.


Se um incidente não puder ser resolvido rapidamente, ele poderá ser escalado. Isso ocorre de duas formas:


     Escalação funcional passa o incidente para uma equipe técnica de suporte com habilidades apropriadas;

     Escalação hierárquica envolve os níveis apropriados de gerência.


Após a investigação de um incidente, seu diagnóstico e o teste de sua resolução, a Central de Serviços deve assegurar que o usuário está satisfeito antes de fechar o registro do Incidente. Dessa forma, uma ferramenta de gerenciamento de incidentes é essencial para guardar e gerenciar informações de incidentes.

Elementos que devem ser tratados no Gerenciamento de Incidentes:


Limites de tempo: os limites de tempo para todas as etapas na resolução de incidentes devem ser definidos e acordados, usando as metas do Acordo de Nível de Serviço e de contratos com fornecedores. Tudo isso para que os incidentes sejam resolvidos dentro do tempo hábil sem infringir o ANS com os clientes.
Modelos de incidente: determinam os passos que são necessários para executar o processo de recuperação de incidentes corretamente. Trata de processar com mais eficiência certos tipos de incidentes que são comuns. Desta forma os incidentes podem ser resolvidos dentro dos prazos acordados, uma vez que um processo padrão para a resolução já existe.

Incidentes Graves: o ITIL recomenda procedimento separado para tratar incidente grave, dada a urgência de sua resolução.

Atividades do Gerenciamento de Incidentes:


1.     Identificação: o processo é iniciado somente quando o incidente é identificado.
2.    Registro: todos os incidentes precisam ser registrados em um sistema. O registro deve conter data, hora e informações relevantes.
3.    Classificação: deve-se registrar todos os tipos de chamada e classificá-las. Esta classificação será útil para o Gerenciamento de Problemas identificar quais são os tipos de incidentes mais recorrentes.
4.    Priorização: priorização determinado pelo impacto e pela urgência.

5.    Diagnóstico: o diagnóstico inicial é realizado pela Central de Serviços, que averígua preliminarmente possíveis causas para o incidente, bem como o que não está funcionando adequadamente.
6.     Escalação: se o incidente não puder ser resolvido pela central de serviços, ele será escalado dentro do tempo hábil para outro nível de suporte com maior capacidade.
7.    Investigação e diagnóstico: determina a natureza da requisição. Quando o incidente é tratado, cada grupo de suporte investiga o que aconteceu de errado e faz um diagnóstico.
8.    Resolução e recuperação: identifica uma solução, a mesma deve ser aplicada e testada.
9.    Fechamento: a central de serviços deverá categorizar o motivo do incidente, documentar, pedir para que o usuário responda a pesquisa de satisfação e fazer o fechamento formal junto ao mesmo.

Papel: gerente de incidente – deve buscar eficiência e eficácia do processo, produzir informações gerenciais, gerenciar o trabalho das equipes de suporte níveis 1 e 2, gerenciar os incidentes graves e desenvolver/manter o processo e respectivos procedimentos.

Responsabilidades: Equipes de Suporte – Classificadas em níveis. O primeiro é feito pela Central de Serviços e inclui registro, classificação, escalação, resolução e fechamento dos incidentes. O segundo e terceiro níveis investigam, diagnosticam, e recuperam dos incidentes. Os grupos de segundo nível são de maior conhecimento técnico sobre o assunto e o terceiro nível poderá ser formado por fornecedores de software ou hardware. Esse níveis podem variar dependendo do tamanho da área de TI.


[Ev] Gerenciamento de Eventos


Evento refere-se a qualquer ocorrência identificável que seja significativa para a gestão da infraestrutura de TI ou para a entrega do serviço de TI. São tipicamente notificações criadas por um serviço de TI, item de configuração ou ferramenta de monitoração, indicando uma alteração de estado.

Um evento pode indicar que algo não está funcionando como deveria, levando ao registro de um incidente. Mas também pode indicar atividade normal de serviço, ou a necessidade de uma intervenção de rotina, como a troca de uma fita de backup, ou o fim da execução de um job.
O Gerenciamento de Eventos depende do monitoramento, mas é diferente deste. O gerenciamento de eventos gera e detecta notificações, enquanto o monitoramento verifica continuamente o status dos itens de configuração e ativos de serviço mesmo quando nenhum evento está ocorrendo.
Para que a operação de serviço ocorra de modo eficiente, deve conhecer a situação da infraestrutura e detectar qualquer desvio da operação comum. Os sistemas de monitoração e controle, responsáveis por essa detecção, são baseados em dois tipos de ferramentas:


      Ativas de monitoração que avaliam itens chave de configuração para determinar sua situação e disponibilidade. Qualquer exceção vai gerar um alerta que precisa ser comunicado à ferramenta ou à equipe apropriada para uma ação corretiva.

      Ferramentas passivas de monitoração que apenas detectam e correlacionam alertas operacionais ou comunicações geradas por itens de configuração.

O processo de gerenciamento de eventos proporciona entradas para muitos processos e atividades da Operação de Serviço. Também permite comparar o comportamento real com o planejado nos padrões de desenho e Acordos de Nível de Serviço.

Este processo também inclui quaisquer aspectos do gerenciamento de serviço que precisem ser controlados, tais como itens de configuração, condições do ambiente, licenciamento de software, etc.

Os Eventos são classificados como Informativos (ex: o usuário fez logon), Alertas (ex: tempo de transação está acima do normal) ou Exceções (ex: o servidor de rede respondeu de maneira inesperada).
As atividades do fluxo de gerenciamento do evento são: Notificação, Detecção, Filtro, Tratamento (como incidente, como alerta ou como registro simples), Ações de revisão Fechamento.

Papel – não é necessário um gerente de eventos, pois muitas atividades são delegadas à central de serviço e ao gerenciamento de operações.



[Cump] Cumprimento de requisições:


Uma requisição de serviço é a requisição de um usuário por informações, ou por uma mudança padrão, ou por acesso a um serviço de TI.

O propósito deste processo é:

     Permitir ao usuário requerer e receber serviços padronizados;

     Fornecer e entregar esse serviços;

     Prover informações aos usuários e clientes sobre serviços e procedimentos para obtenção do que desejam;

     Oferecer suporte com informações gerais, reclamações e sugestões.


Todas as requisições devem ser registradas e rastreadas. O processo deve incluir aprovação apropriada antes de cumprir a requisição.

Atividades:

     Seleção de Menu: os usuários podem fazer solicitações usando ferramentas de Gerenciamento de serviço que possuem interfaces web. Nelas, o usuário solicita o que precisa.

     Autorização financeira: muitas requisições podem ter implicações financeiras. O custo de cada uma deve ser determinado e pode-se limitar as solicitações de usuários para controlar o custo.
     Cumprimento: é a entrega do serviço. Geralmente a central de serviço é envolvida em soluções mais simples, enquanto mais complexas são encaminhadas para especialistas ou fornecedores externos.

      Conclusão: uma vez completa, a Central de Serviço fecha o registro da requisição.


Papel: nenhum papel específico aqui neste processo, o cumprimento de requisições fica a cargo da Central de Serviços.



[Ace] Gerenciamento de Acesso:


O gerenciamento de acesso deve prover os privilégios necessários para usuários acessarem um serviço ou um grupo de serviços. No mesmo sentido, previne o acesso de usuários não-autorizados.
O gerenciamento de acesso ajuda a gerenciar a confidencialidade, disponibilidade e integridade dos dados, além da propriedade intelectual.

Este processo se preocupa com a identidade (informação única que distingue um indivíduo) e direitos (configurações que fornecem acesso a dados e serviços).
O processo inclui verificar identidade, conceder acesso a serviços, registrar e rastrear acesso e remover ou modificar direitos quando o status ou os papéis mudam.

Atividades:

     Verificação da legitimidade das requisições: verificar a cada requisição de serviço se é mesmo a pessoa que está solicitando o acesso e se esta pessoa tem uma motivos legítimos para usar o serviço.
     Fornecer os direitos: Executa a política e as regras definidas na Estratégia de Serviço e Desenho de Serviço. Esta atividade não tem poder decisório sobre quem acessa a qual serviço, é apenas a execução da política.

     Monitorar o status da identidade (mudança de papéis): caso um usuário mude de departamento, seja demitido da empresa, promovido, etc, seu perfil deve ser atualizado ou removido para acompanhar esta mudança.
      Registrar e monitorar o acesso: garante que os direitos foram dados corretamente ao usuário, sem se preocupar em responder às requisições de acesso.
      Remover e limitar direitos: assim como uma atividade dá o direito de acesso ao uso de um serviço, esta também é responsável por remover estes direitos. Obviamente aqui também há apenas a execução, não a decisão para tal.

Papel: Não há um papel específico, uma vez que este processo é uma sobreposição do Gerenciamento de Segurança e Disponibilidade. Mesmo assim, os envolvidos são Central de Serviço, o Gerenciamento Técnico e de Aplicações e Gerenciamento de Operações de TI.


[Prob] Gerenciamento de Problemas


Os objetivos deste processo são a prevenção de problemas e incidentes resultantes deles, eliminando incidentes recorrentes e minimizando o impacto de incidentes que não podem ser prevenidos.
Os problemas são a causa de um ou mais incidentes. Mesmo assim, um incidente nunca “vira” problema: sempre há o registro dos dois separados, um para cada processo.
Este processo tem a intenção de encontrar erros conhecidos na infraestrutura de TI. O foco é:


     Encontrar qual é o erro conhecido (diagnóstico);

     Identificar soluções alternativas para a remoção do erro conhecido (controle de erro);

     Emitir uma requisição de mudança para requisitar que a supressão ocorra;

     Depois que a mudança é feita, checar se o erro conhecido foi removido.


A meta do processo é gerenciar o ciclo de vida de todos os problemas. O gerenciamento de problema também pode ter um elemento proativo de resolução de problemas. A idéia é identificar e facilitar remoção de erros antes que eles se manifestem como reclamações ou perguntas de usuários finais.

O processo, ainda, mantém informações sobre problemas e resoluções, e soluções de contorno apropriadas para que a organização seja capaz de, com o tempo, reduzir o número de impacto de incidentes, tendo forte interface com o Gerenciamento do Conhecimento.

As atividades do gerenciamento de problema são geralmente exercidas por times de suporte avançados. A central de serviços já cuida das atividades de Incidente, portanto não tem habilidade e tempo para investigar as causas-raiz.


 Atividades:

     Identificação

     Registro

     Categorização

     Priorização

     Investigação e diagnóstico

     Decisão sobre a solução de contorno

     Identificação de erros conhecidos

     Resolução

     Conclusão

     Revisão

     Correção de erros identificados


Papéis: Gerente de Problema e Grupos de Resoluções de Problemas. O primeiro acompanha os grupos de resoluções de problemas para que observem o ANS, além de gerir o banco de dados de erros conhecidos e o registro dos mesmos. O segundo é constituído de grupos de suporte mais técnicos e avançados ou de fornecedores externos.

Funções da Operação de Serviço:


      Central de Serviços (Service Desk): unidade funcional que está envolvida em vários eventos de serviço, como por exemplo atender a chamadas e requisições. Funciona como ponto único de contato para usuários no dia-a-dia. O foco principal dela é restabelecer o serviço normal o mais rápido possível, envolvendo , inclusive, solução de erros técnicos, cumprimento de requisição ou resposta a dúvidas. Possui quatro tipos, Local (atende a unidade de negócio local), Centralizada (atende todos em um único local), Virtual (geograficamente distante), Follow the Sun (combinação de centrais dispersas geograficamente, oferecendo suporte 24h a custo relativamente baixo). Os papéis da central de serviços são gerente e supervisor da central de serviços, além do analista de suporte (primeiro nível, não confundir com analistas de nível avançado!).


      Gerenciamento Técnico: inclui todas as pessoas que fornecem expertise técnico e fazem gerenciamento da infraestrutura de TI. Ajuda a planejar, implementar e manter uma infraestrutura técnica estável e assegura que os recursos requeridos e o expertise estão em posição de desenhar, construir, fazer a transição, operar e melhorar os serviços de TI e a tecnologia que os suporta.

      Gerenciamento de Aplicações: gerencia aplicativos durante seu ciclo de vida. Sua função é realizada por qualquer departamento, grupo ou equipe envolvida na gestão e suporte de aplicativos operacionais. Tem função similar à anterior, mas com foco em aplicações de software. Trabalha próximo do desenvolvimento de software, mas é uma função distinta e com papel diferente.

      Gerenciamento de Operações de TI: função responsável pela gestão contínua e manutenção de uma infraestrutura de TI de uma organização, para assegurar a entrega do nível acordado entre TI e negócio. Tem duas subfunções:

1.    O controle de operações, que tem equipe de operadores que garantem execução e monitoramento das atividades operacionais e eventos na infraestrutura – jobs, impressão, backup e restauração;


2.    O Gerenciamento de instalações, que gerencia a parte física do ambiente de TI – data center, sites de recovery, contratos de data center terceirizados, etc.

Nenhum comentário:

Postar um comentário