Profundizando nagios.pdf

Vista previa de texto
Un sistema automatizado de análisis de logs que pueda hacer una correlación
de varios eventos simplifica y acelera el monitoreo de eventos consolidando
alertas y mensajes de error en un mensaje más corto y fácil de entender.
Una serie de operaciones están relacionadas con la correlación de eventos.
Compresión toma varias apariciones del mismo evento y se examina la
duplicación de información, se remueve las redundacias y se reporta como un
único evento. De esta manera 1000 mensajes “route failed” se convierte en un
único alerta que dice “route failed 1000 times” Recuento reporta un número
específico de eventos similares como uno solo. Esto se diferencia de la
compresión en que no solo cuenta en que sea el mismo evento, sino que se
supere un determinado umbral para generar un reporte.
Supresión asocia prioridades con alarmas y permite que el sistema suprima un
alarma de prioridad más baja si ha ocurrido un evento de prioridad mayor.
Generalización asocia alarmas con eventos de más alto nivel que son los que
son reportados.
Esto puede ser útil para por ejemplo para correlacionar eventos de múltiples
discos de un array.
No se necesita ver cada mensaje específico si se puede determinar que el
array completo tiene problemas.
Correlación basada en tiempo puede ser útil estableciendo causalidad. A
menudo una información puede ser obtenida relacionando eventos que tienen
una relación temporal específica.
Ejemplos genéricos:
• El Evento A está seguido del Evento B.
• Este es el primer Evento A desde el Evento B reciente.
• El Evento A sigue al Evento B dentro de los dos minutos.
• El Evento A no fue observado dentro del Intervalo I.
Objetivos
Simplificar y optimizar la administración de diferentes servicios para conocer
su estado minuto a minuto, y elaborar planes de acción. A su vez el sistema
debe ser simple de utilizar por el administrador, y ser posible de ver via web
los registros del sistema, realizar busquedas etc.
Es útil registrar, por ejemplo:
• Un intento de acceso con contraseña equivocada
• Un acceso correcto al sistema
• Anomalías: variaciones en el funcionamiento normal del sistema
• Alertas cuando ocurre alguna condición especial
• Información sobre las actividades del sistema operativo
• Errores del hardware o el software
También es posible registrar el funcionamiento normal de los programas; por
