"Hadoop. ZooKeeper ”de la serie Mail.Ru Group Technostream“ Procesamiento distribuido de datos grandes en Hadoop ”

Le sugiero que se familiarice con la decodificación de la conferencia "Hadoop. ZooKeeper" de la serie "Métodos de procesamiento distribuido de grandes cantidades de datos en Hadoop".


Qué es ZooKeeper, su lugar en el ecosistema de Hadoop. La verdad sobre la computación distribuida. Esquema de un sistema distribuido estándar. La complejidad de coordinar sistemas distribuidos. Problemas típicos de coordinación. Los principios encarnados en el diseño de ZooKeeper. Modelo de datos ZooKeeper. Banderas Znode. Sesiones API de cliente Primitivas (configuración, pertenencia al grupo, bloqueos simples, elección de líder, bloqueo sin efecto de rebaño). ZooKeeper Architecture. ZooKeeper DB. ZAB Solicitar manejador.




Hoy hablemos de ZooKeeper. Esta cosa es muy útil. Es, como cualquier producto Apache Hadoop, tiene un logotipo. Representa a un hombre.


, , , . . - - . . ZooKeeper – , . , , .


, , . , MapReduce , , . , , . MapReduce - , . MapReduce , , , . , ZooKeeper.


, Hadoop, Yahoo! Apache. HBase. JIRA HBase, , - , . . . ZooKeeper, , , , . , Hadoop. , , , .



, - , . , , . , , ZooKeeper, . . – , . HDFS, MapReduce , . , ZooKeeper. - , .



? , , , . , , , , , , - , . TCP, , . TCP . . - . . , , . , - , , . .


, , latency. , . Latency – - , , .


. – . -, , , . , . . . , , . .


. , - . , - Hadoop. . , . , - , , . - . .


, , -, . , , cat . – Vim . , . Vim , , , - . , , .



, .


, , , . – ? , . , ? , , - . - , , - , - . , -, - , ?


, . , – , - .


, , , - , – ? - race condition, , , - ? - . .


– . , , , .


, , , , . , , , . - , , , . , , . . . . - , , .


ZooKeeper. – , , , .



, . , – HDFS, HBase. -, , slave-. , , , .



– Coordination Service, . . , - backup stanby , . , . backup. - , , backup. Coordination Service. , .



– , . , . - , . , - slaves, , , . .



, , -slaves, . , . , Cassandra, .


, . .



- , , , , . – , , , . - , . . .



(), , , .



– partial failures. , , - , , , , , . . .


, . – , . . , .


ZooKeeper , .



, , , , , . , shared-nothing. , , , , , .


, shared memory . context switch, . . , , .



, , , . - . , , , , , , . , , , , . , .


. , , , , . . , .


. , , .


? , ? , , , . -, , - , - . - , , - . , . . , , .


– group membership. - , – , . , , , , . , , .


– leader election, , . – , - , . , , . , , , .


– mutually exclusive access. . , , - , , , . - . , , -. , , locks.


ZooKeeper . , .



. - , - . , , - . .


.


- , , .



ZooKeeper . – standalone, . . , . – 100 , , 100 . , ZooKeeper. high availability. ZooKeeper . , . , . – , , – . , .


. , , . .


, - . - . , , , . . – . – -? . watch mechanism, , - . .



Client – , ZooKeeper.


Server – ZooKeeper.


Znode – ZooKeeper. znode ZooKeeper , .


. – update/write, - . .


, , , ZooKeeper.



ZooKeeper . , . , . znodes.


znode - , , , 10 . znode - .



Znode . . znode , .


. – ephemeral flag. Znode - . , . , . , - . , .


– sequential flag. znode. , 1_5. , p_1, – p_2. , , , , – sequential.


znode. , .



– watch flag. , - . , . ZooKeeper , . , - . , - , .


, . , , .



. , , . - .


- . , - . , , .



, API . , , create znode . znode, . - , . . znode.


– . , , znode . , znode, , , , .


, «-1».



– znode. true, , false.


flag watch, .


flag , . .


getData. , znode . flag watch. , . , , .



SetData. version. , znode .


«-1», .


getChildren. znode, . , flag watch.


sync , , .


, , , write, - , , , . , , , , .



. . , .


, , update/write, . create, setData, sync, delete. read – exists, getData, getChildren.



, . , -. . , . . ZooKeeper? , ? , , , , ?


ZooKeeper . , znode. , , . , . , , .


getData . true. - , , , , . , - , true. , .


SetData. , «-1», . . , , , . , . , , , . , , , - . , , . , , . .



group membership. , , . , . -, - , .


? workers create. . sequential , . children , , .




, Java-. , main. , . host, , . . . – .


? API, . . ZooKeeper. hosts. , , 5 . , connectedSignal. , . , - . persistent. , , . . . , . , close , . , - , ZooKeeper .



- ? . , - , . , , lock1. , , lock . , getData , . . , watcher , , . . , lock, , lock , , . . . , . lock , , - .



, . , . ? , . . , . . - , . , .


- , , , . , . - , , .


, , herd effect, . . , , , , , .



, . , lock, hert effect. , id lock. , lock , , , , lock. , lock. , id, lock, . , .


id, lock, watcher , - . . . lock. , id lock, . , lock, - .



ZooKeeper? 4 . – Request. ZooKeeper Atomic Broadcast. Commit Log, . In-memory Replicated DB, . . , .


, Request Processor. In-memory .



. instances ZooKeeper .


, Commit log. , , , log . .



ZooKeeper Atomic Broadcast – , .


ZAB ZooKeeper. , - . , . , . , , , . . broadcasting , .


write request. , transactional update. .


Y aquí vale la pena señalar que la idempotencia de las actualizaciones para la misma operación está garantizada. ¿Lo que es? Esto, si se realiza dos veces, tendrá el mismo estado, es decir, la solicitud en sí no cambiará de esto. Y debe hacer esto para que, en caso de una caída, pueda reiniciar la operación y, por lo tanto, deshacer los cambios que se han caído en este momento. En este caso, el estado del sistema será el mismo, es decir, no debería ser tal que una serie de los mismos, por ejemplo, procesos de actualización, conduzca a diferentes estados finales del sistema.









Source: https://habr.com/ru/post/undefined/


All Articles