Tolerancia a Fallas

La promesa de los sistemas distribuidos sólo se puede cumplir cuando a la base hardware adecuado se le añaden políticas y mecanismos tolerantes a fallas. El objetivo del diseño y construcción de sistemas tolerantes a fallas consiste en garantizar que el sistema continúe funcionando de manera correcta como un todo, incluso en presencia de fallas.
Se dice que un sistema falla cuando no cumple su especificación. En algunos casos, como en un sistema de ordenamiento distribuido de productos en un supermercado, una falla podría provocar la falta de algunos productos en la tienda. En otros casos, como en un sistema distribuido para el control de tráfico aéreo, una falla podría ser catastrófica. Como las computadoras y los sistemas distribuidos se utilizan cada vez más en misiones donde la seguridad es crítica, la necesidad de soportar las fallas cada vez es mayor.
Un sistema consiste de un conjunto de componentes de hardware y software y son diseñados para proveer un servicio específico. Los componentes de un sistema pueden estar interrelacionados entre ellos. Un desperfecto de un sistema ocurre cuando el sistema no desempeña estos servicios de la manera especificada. Un estado erróneo en un sistema es un estado en el cual podría conducir a un fallo en el sistema. Un fallo es una condición física anormal, las causas de un fallo incluyen: errores de diseño (como errores en la especificación del sistema o en la implementación), problemas de fabricación, deterioro por el uso u otros problemas externos (como condiciones ambientales adversas, interferencia electromagnética, entradas imprevistas o el mal uso del sistema). Un error es una parte del estado del sistema la cual difiere de los valores esperados.

Un error del sistema puede ser visto como una manifestación de mal funcionamiento del sistema, el cual podría conducir a un fallo del sistema. Es necesario entonces, que el sistema sea capaz de recuperarse de las fallas, necesitamos deshacernos del estado de error del sistema, en otras palabras, la recuperación de un fallo, es un proceso que involucra la restauración de un estado erróneo a un estado libre de error.

4 comentarios:

  1. joana vargas 18068841

    Tolerancia a fallas:
    La difusión de los sistemas distribuidos incrementa la demanda de sistemas que esencialmente nunca fallen Los sistemas tolerantes a fallos requerirán cada vez más una considerable redundancia en hardware, comunicaciones, software, datos, etc.
    La réplica de archivos sería un requisito esencial.
    También debería contemplarse la posibilidad de que los sistemas funcionen aún con la carencia de parte de los datos.
    Los tiempos de fallo aceptables por los usuarios serán cada vez menores.
    Hay una gran cantidad de distintos tipos de fallas los cuales se pueden clasificar según
    Diferentes ejes o vistas. Hay una diferencia fundamental del origen del fenómeno de la
    falla:
    – físicos
    – diseño
    – interacciónLas fallas también se pueden clasificar de acuerdo:
    – a su naturaleza: accidental o intencional con malicia o sin ella
    – a la fase de creación en la vida del sistema: desarrollo u operación
    – el lugar: interno o externo
    – la persistencia: permanente o temporario
    Trata con la confiabilidad de un sistema, o sea como asegurar que el sistema corra correctamente.
    • Confiabilidad: es la medida en la cual la confianza se puede ponerjustificadamente en el servicio que se obtiene del sistema

    ResponderEliminar
  2. Charytin Garcia 17.062.493
    seccion 2

    En los sistemas distribuidos se busca que los procesos en el sistema funcionen de la manera correcta e incluso sepan tolerar una falla cuando se presenta; esto para garantizar que el sistema siga funcionando normalmente. Estas fallas pueden producirse por un estado erróneo en donde el sistema no cumple con las especificaciones requeridas y sus causas son variadas; es posible encontrarlas desde factores externos hasta e errores de diseño y problemas de fabricación. Para que el sistema pueda recuperarse del error se debe implementar un proceso de restauración del estado erróneo que posibilite al sistema a funcionar normalmente.

    ResponderEliminar
  3. La tolerancia a fallas consiste en desarrollo de mecanismos que permitan la continuidad del proceso del sistema distribuido aun en presencia de fallas existentes alguna entidad del mismo.

    ResponderEliminar
  4. Es importante que un sistema sea capaz de tolerar una falla, pues es dificil evitarlas, porque muchas veces no es predecible si ocurre un error al tener nuestro sistema finalizado. Un error que derrumbe un sistema es sinonimo que ese sistema se haya diseñado incorrectamente al no seguir los parametros establecidos par crearlo y pasar en alto un pequeño error en su diseño, origina mayores problemas al implementarse.

    ResponderEliminar