Version 19 (modified by 7 years ago) (diff) | ,
---|
Communication par RPC
Pour renforcer la localité des accès pour des opérations complexes (c'est a dire nécessitant un grand nombre d'accès a des structures de données distantes), les différentes instances du noyau peuvent communiquer entre elles sur le modèle client/serveur au moyen de RPCs (Remote Procédure Call). Cette section décrit le mécanisme RPC implémenté dans ALMOS-MK.
Le code et les différentes structures de données utilisées pour les RPCs sont définis dans les fichiers rpc.c et rpc.h. Ce code utilise une bibliothèque de fonctions d'accès à une FIFO logicielle définie dans les fichiers remote_fifo.c et remote_fifo.h. Les macros permettant la manipulation des pointeurs étendus sont définies dans le fichier hal_types.h, qui est spécifique à l'architecture visée.
1) Hypothèses concernant la plate-forme matérielle
L'architecture cible est généralement clusterisée, ce qui signifie que l'espace d'adressage physique est partagé par tous les CPUs, mais qu'il est partitionné entre les différents clusters. ALMOS-MKH supporte les architectures cibles respectant les contraintes suivantes:
- Les adresses physiques, aussi appelées adresses étendues, sont codées sur 64 bits.
- La taille maximale de l'espace adressable physique accessible dans un unique cluster est définit par le paramètre global CONFIG_CLUSTER_SPAN qui est une puissance de 2. Elle vaut 4 Goctets pour TSAR, mais peut posséder une valeur plus grande pour d'autres architectures. Une adresse physique est donc divisée en deux parties: le champs LPA est l'adresse physique locale dans un cluster, et le champs CXY est le numéro identifiant un cluster particulier.
- Chaque cluster peut contenir un nombre quelconque de CPUs (y compris 0), un nombre quelconque de périphériques, et un banc mémoire physique de longueur quelconque (y compris 0). Pour chaque périphérique et pour le banc mémoire, le fichier arch_info définit l'adresse locale de base, et la longueur du segment associé.
- Il existe une instance du noyau dans tout cluster contenant au moins un CPU, un contrôleur d'interruptions, et un banc mémoire physique, ce qui n'est pas forcément le cas de tous les clusters.
2) Point d'accès unique dans chaque cluster
Dans ALMOS_MKH, toutes les variables globales définies dans le segment KDATA du noyau sont répliquées dans tous les clusters. Deux variables de même nom peuvent avoir des valeurs différentes dans deux clusters différents, mais elles sont rangées à des adresses locales LPA identiques. Cette propriété est fondamentale, puisqu'elle permet à une instance du noyau dans un cluster K d'accéder directement aux données globales des autres instance du noyau dans un cluster L, en fabricant une adresse physique à partir de l'adresse LPA (commune à tous les clusters) et de l'identifiant CXY du cluster cible.
N'importe quel thread client s'exécutant sur n'importe quel CPU de n'importe quel cluster peut envoyer une RPC vers n'importe quel cluster serveur, identifié par son index CXY.
Il existe dans chaque cluster une FIFO logicielle, appelée "rpc_fifo", qui est une variable globale, membre de la structure "cluster_manager" définie dans chaque cluster. Cette FIFO possède N écrivains et M lecteurs. N est le nombre de thread clients, a priori non borné. M est le nombre de thread serveurs dont le nombre maximal dans un cluster est défini par le paramètre de configuration CONFIG_RPC_THREAD_MAX.
- Pour synchroniser les accès concurrents entre écrivains, la RPC_FIFO imlémente un mécanisme de ticket garantissant que les clients pourront stocker leurs requêtes dans l'ordre d'attribution des tickets.
- pour synchroniser les accès concurrents entre lecteurs, ALMOS-MK implémente un light-lock, qui est un verrou non bloquant enregistrant l'identité du premier lecteur qui obtient le verrou. Ce verrou est non bloquant, puisque tout échec signifie qu'un autre lecteur a gagné, et que le gagnant se charge d'effectuer le traitement.
3) Traitement parallèle des RPCs
Dans chaque cluster, les threads serveurs chargés de traiter les RPCs appartiennent à un pool de threads spécialisés appelés RPC_THREAD. Un RPC_THREAD du cluster serveur est activé chaque fois que l'O.S. s'exécutant sur un coeur quelconque du cluster détecte que la RPC_FIFO est non-vide, et qu'il parvient à acquérir la propriété de la FIFO grâce au mécanisme de light-lock. Si la liste des RPC_THREADs oisifs est vide, un nouveau RPC thread est dynamiquement créé. Le RPC_THREAD s'exécute alors avec la priorité la plus élevée et se charge de traiter toutes les requêtes RPC présentes dans la RPC_FIFO avant de libérer la FIFO. Si un RPC_THREAD doit attendre la disponibilité d'une ressource, il se bloque sur la condition particulière associée à cette ressource, et déclenche une opération d'ordonnancement, après avoir libéré la RPC_FIFO, pour permettre le traitement d'autres RPCs. Il y a donc à tout instant au plus un RPC_THREAD propriétaire de la RPC_FIFO, et possédant le droit de consommer une nouvelle RPC. Mais il peut exister plusieurs RPC_THREAD actifs, traitant chacun une RPC en cours de traitement. Lorsqu'un RPC thread a terminé l'exécution d'un service, il le signale au thread client, et cesse son exécution: Si le nombre courant de RPC_THREADs est inférieur au paramètre CONFIG_RPC_THREAD_MAX, il s'enregistre dans la liste des RPC_THREADs oisifs et se désactive; sinon, il se suicide.
L'activation/désactivation d'un RPC_THREAD est implémentée par un bit particulier du vecteur de bit représentant les causes de blocages d'un thread.
4) Format d'une RPC
Il existe différents types de RPC :
- Une RPC simple bloquante est envoyée à un seul serveur, et et le thread client se bloque en attendant une seule réponse.
- Une RPC multicast bloquante est envoyée à N serveurs, et le thread client se bloque en attendant N réponses.
- Une RPC simple non bloquante est envoyée à un seul serveur et n'attend pas de réponse.
- Une RPC multicast non bloquante est envoyée à N serveurs et n'attend pas de réponse.
Chaque case d'une RPC_FIFO contient un pointeur étendu (xptr_t) sur un descripteur de RPC (rpc_desc_t), qui est stocké dans la mémoire du cluster client. Un descripteur de RPC possède un format fixe comportant les informations suivantes:
- Le champs index définit le type de service demandé (de façon similaire à un index d'appel système).
- Le champs response est un entier qui défini le nombre de réponses attendues.
- Le champs args est un tableau de 10 uint64_t contenant les arguments d'entrée et de sortie.
Pour une RPC bloquante, le client initialise le champs response avec le nombre de réponses attendus, et chaque serveur concerné le décrémente au moyen d'un accès remote_atomique_add(), pour signaler qu'il a terminé le traitement demandé. L'utilisation et l'interprétation du tableau args dépend de chaque type de RPC.
Les RPC non-bloquantes ne sont pas implémentées actuellement (juin 2016).
5) Introduction d'une nouvelle RPC
L'introduction d'une nouvelle RPC nécessite de modifier le code de ALMOS-MKH de la façon suivante:
- Il faut définir ou identifier la fonction système my_kernel_service() qu'on souhaite exécuter à distance. Le nombre de paramètres d'entrée ou de sortie ne doit pas être supérieur à 8.
- La nouvelle RPC doit être enregistrée dans l'enum rpc_index_t (fichier rpc.h) et dans le tableau rpc_server[] (fichier rpc.c).
- Il faut écrire explicitement la fonction de marshaling rpc_my_kernel_service_client() qui est exécutée du côté client pour (1) enregistrer les arguments d'entrée dans le descripteur de RPC, (2) poster la RPC dans la RPC_FIFO, (3) récupérer les arguments de sortie dans le descripteur de RPC.
- Il faut écrire explicitement a fonction de marshaling rpc_my_kernel_service_server() qui est exécutée du côté serveur pour (1) récupérer les arguments d'entrée dans le descripteur de RPC, (2) appeler la fonction my_kernel_service(), (3) écrire les arguments de sortie dans le descripteur de RPC, (4) signaler la terminaison.