Context Navigation

Changes between Version 5 and Version 6 of AS6-TME-B4

Timestamp:: Mar 19, 2022, 7:30:31 PM (4 years ago)
Author:: franck
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

AS6-TME-B4

-                      v5
+                      v6
 '''
 }}}
+==
+. Calculez la valeur du CPI lorsqu'on désactive les caches L1. Que se passe-t-il si on désactive aussi le cache L2 ?
+{{{#!protected
+'''
+* Si les caches L1 sont désactivés, il faut refaire les calculs avec un taux de MISS de 100%, et il faut recalculer le coût du MISS, puisque les transactions sur le bus sont plus courtes (1 mot au lieu de 4, puisqu'on ne va plus chercher des lignes de cache entières).
+* On économise alors 3 cycles sur le coût du MISS qui passe à 29 cycles, d'où :
+  * DCPI_ins = 29 cycles.
+  * DCPI_data = 0.1 * 29 = 2.9 cycles.
+* Par conséquent :
+  * CPI = 1.3 + 29 + 2.9 = 33 cycles/instruction.
+* Analyse
+  * Pour une instruction exécutée, le processeur reste gelé pendant 33 cycles, ce qui signifie que le processeur travaille (33 / 2.8) = 11.8 fois plus lentement lorsque les caches L1 sont désactivés...
+  * Si en plus le cache L2 est désactivé, l'augmentation du CPI dépasse les 400 cycles par instruction, ce qui signifie que le processeur fonctionne 400 / 2.8 = 142.9 fois plus lentement qu'avec le cache L1 activés.
+  * Sachant qu'à la mise sous tension, les PC actuels démarrent généralement avec les caches désactivés, c'est évidemment une des raisons pour laquelle la phase de démarrage d'une machine est souvent assez longue. Ce n'est pas la seule raison. Le test des composant, comme la ram est assez long.
+}}}
+{{{#!comment
+vim:filetype=tracwiki:expandtab:shiftwidth=4:tabstop=4:softtabstop=4:spell:spelllang=fr
+}}}
+==
 = C. Travaux pratiques
-== Préambule ==
-Ce TP a pour but l'observation (en simulation) du fonctionnement des mémoires caches, et des mouvements de données entre les caches et la mémoire principale.
-On a choisi des lignes de cache de 16 octets et des caches de faible capacité : chaque cache (cache d'instructions et cache de données) possède une capacité de 128 octets (soit 8 cases, pouvant contenir chacune une ligne de cache de 16 octets). Les deux caches du processeur sont à ''correspondance directe''. On ne s'intéresse pas dans ce TP au fonctionnement du cache L2, qui peut être vu comme un accélérateur d'accès à la mémoire externe : grâce au cache L2, un accès à la mémoire, en cas de MISS sur un cache L1 va coûter en moyenne quelques dizaines de cycles au lieu de quelques centaines de cycles.
-Pour ce TP, vous utiliserez le simulateur `almo1.x`, qui peut produire des fichiers d'instrumentation permettant de suivre l'évolution des caches au cours du temps.
-== 1. Calcul du taux de MISS dans le cache d'instructions ==
-Commencez par recopier [attachments:s5.tgz tp5] dans votre répertoire de travail.
-{{{
-s5
-├── Makefile
-└── src
-    ├── harch.c
-    ├── harch.h
-    ├── hcpu.S
-    ├── hcpu.h
-    ├── jpeg.h
-    ├── kernel.ld
-    ├── kinit.c
-    ├── klibc.c
-    └── klibc.h
-}}}
-Ce répertoire tp3 contient 2 répertoires. Le premier `8_cache_miss` va permettre de voir l'évolution des miss, le second `9_cache_perf` sera vu plus loin pour l'évolution des performances en fonction de la taille de cache. Pour les deux répertoires, il y a tous les fichiers nécessaires à la génération du code binaire  `kernel.x`, dont un fichier `Makefile` permettant de le générer automatiquement. Ces fichiers représentent une version minimaliste du système (vu au tp1), il n'y a presque rien, mais le but est d'analyser le comportement des caches, donc moins il y a de code à exécuter avant la fonction que vous allez analyser, mieux c'est. Dans un premier temps vous utiliserez le code sans modification.
-* Allez dans le répertoire `8_cache_miss``
-* Ouvrez le fichier `src/kinit.c` et expliquez ce que fait, ici, la fonction `kinit()` ?
-{{{
-#!protected
-La fonction `kinit()` déclare un tableau de 20 entiers. Les valeurs sont initialisées dans une première boucle `for`, puis une seconde boucle `for` est exécutée 1000 fois. À chaque itération de cette seconde boucle, chaque élément du tableau est incrémenté d'une valeur égale à son indice de tableau. Finalement, les valeurs finales des 20 éléments du tableau sont affichées sur le terminal grâce à une troisième boucle `for`.
-}}}
-* Lancez l'exécution du `Makefile` (make compil), puis examinez le code assembleur correspondant à l'application logicielle (`kernel.x.s`). Déterminez les adresses de début et de fin de la boucle de calcul (seconde boucle `for`).
- * Combien d'instructions sont exécutées à chaque itération de cette boucle ?
- * Toutes les instructions de la boucle de calcul peuvent-elles être simultanément stockées dans le cache ?
- * Que pouvez-vous en conclure ?
-{{{
-#!protected
-* La boucle commence à l'instruction `lw v0,24(sp)` et se termine à l'instruction `nop` qui suit l'instruction `bnez v0, kinit+0x50`.
-* Cette boucle exécute 51 instructions à chaque itération. Si les étudiants posent la question, on peut expliquer que l'instruction `nop` qui suit le branchement est toujours exécuté à cause de l'effet retardé du branchement (`delayed slot` dû à l'architecture ''pipeline'').
-* Comme le cache ne peut contenir que 32 instructions au max (8 cases contenant chacune 4 instructions), la boucle ne tient pas entièrement dans le cache. Il y aura donc des MISS et des évincements à chaque itération dans la boucle.
-}}}
-* Vous allez renommer le fichier `kernel.x.s` en `kernel.myx.s` et y ajouter des commentaires (ce renommage permet de ne pas perdre vos commentaires lors du `make clean`), déterminez, pour chaque instruction de la boucle de calcul, dans quelle case du cache sera rangée la ligne de cache à laquelle cette instruction appartient. La boucle for fait 51 instructions, vous devez grouper les instructions par 4 (puisqu'une ligne de cache contient 4 instructions).
-* En analysant la valeur du champ ''index'' de l'adresse, calculez pour chacune de ces 13 lignes de cache, dans quelle case du cache elle va être stockée.
-{{{
-#!protected
-{{{
-dc <main>:
-  ...
-:       1440fff5        bnez    v0,4012f8 <main+0x1c>
-:       00000000        nop
-:       afc00014        sw      zero,20(s8)
-c:       081004fc        j       4013f0 <main+0x114>
-  # ligne de cache (ci-dessous) : case n°3
-:       00000000        nop
-:       8fc20018        lw      v0,24(s8)
-:       afc20018        sw      v0,24(s8)
-c:       8fc2001c        lw      v0,28(s8)
-  # ligne de cache (ci-dessous) : case n°4
-:       24420001        addiu   v0,v0,1
-:       afc2001c        sw      v0,28(s8)
-:       8fc20020        lw      v0,32(s8)
-c:       24420002        addiu   v0,v0,2
-  # ligne de cache (ci-dessous) : case n°5
-:       afc20020        sw      v0,32(s8)
-:       8fc20024        lw      v0,36(s8)
-:       24420003        addiu   v0,v0,3
-c:       afc20024        sw      v0,36(s8)
-  # ligne de cache (ci-dessous) : case n°6
-:       8fc20028        lw      v0,40(s8)
-:       24420004        addiu   v0,v0,4
-:       afc20028        sw      v0,40(s8)
-c:       8fc2002c        lw      v0,44(s8)
-  # ligne de cache (ci-dessous) : case n°7
-:       24420005        addiu   v0,v0,5
-:       afc2002c        sw      v0,44(s8)
-:       8fc20030        lw      v0,48(s8)
-c:       24420006        addiu   v0,v0,6
-  # ligne de cache (ci-dessous) : case n°0
-:       afc20030        sw      v0,48(s8)
-:       8fc20034        lw      v0,52(s8)
-:       24420007        addiu   v0,v0,7
-c:       afc20034        sw      v0,52(s8)
-  # ligne de cache (ci-dessous) : case n°1
-:       8fc20038        lw      v0,56(s8)
-:       24420008        addiu   v0,v0,8
-:       afc20038        sw      v0,56(s8)
-c:       8fc2003c        lw      v0,60(s8)
-  # ligne de cache (ci-dessous) : case n°2
-a0:       24420009        addiu   v0,v0,9
-a4:       afc2003c        sw      v0,60(s8)
-a8:       8fc20040        lw      v0,64(s8)
-ac:       2442000a        addiu   v0,v0,10
-  # ligne de cache (ci-dessous) : case n°3
-b0:       afc20040        sw      v0,64(s8)
-b4:       8fc20044        lw      v0,68(s8)
-b8:       2442000b        addiu   v0,v0,11
-bc:       afc20044        sw      v0,68(s8)
-  # ligne de cache (ci-dessous) : case n°4
-c0:       8fc20048        lw      v0,72(s8)
-c4:       2442000c        addiu   v0,v0,12
-c8:       afc20048        sw      v0,72(s8)
-cc:       8fc2004c        lw      v0,76(s8)
-  # ligne de cache (ci-dessous) : case n°5
-d0:       2442000d        addiu   v0,v0,13
-d4:       afc2004c        sw      v0,76(s8)
-d8:       8fc20050        lw      v0,80(s8)
-dc:       2442000e        addiu   v0,v0,14
-  # ligne de cache (ci-dessous) : case n°6
-e0:       afc20050        sw      v0,80(s8)
-e4:       8fc20014        lw      v0,20(s8)
-e8:       24420001        addiu   v0,v0,1
-ec:       afc20014        sw      v0,20(s8)
-  # ligne de cache (ci-dessous) : case n°7
-f0:       8fc20014        lw      v0,20(s8)
-f4:       2c4203e8        sltiu   v0,v0,1000
-f8:       1440ffce        bnez    v0,401334 <main+0x58>
-fc:       00000000        nop
-  ...
-}}}
-}}}
-* Évaluez le nombre de MISS instruction lors de l'exécution de la première itération ? Lors de la deuxième itération ? En déduire une valeur estimée du ''taux de MISS'' moyen après 1000 itérations.
-{{{
-#!protected
-ere itération : En exécutant la boucle `for` la première fois, le processeur va provoquer le chargement de 13 lignes de caches aux index successifs suivants : 6, 7, 0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2. Il y a donc 13 MISS lors de la 1ere itération.
-Itérations suivantes : Au début de la 2e itération, les instructions contenues dans les cases 3, 4, 5, 6, 7 font MISS, car elles ont été écrasées. Les instructions contenues dans les cases 0, 1, 2 ne font pas MISS. À la fin de l'itération, les instructions contenues dans les cases 3, 4, 5, 6, 7 font de nouveau MISS. On a donc 10 MISS pour 51 instructions lors de la 2e itération, et il en va de même pour les itérations suivantes. Ceci correspond à un taux de MISS de 10/51, légèrement inférieur à 20%.
-}}}
-== 2. Analyse de trace ==
-Vous allez maintenant tenter de valider ce calcul du taux de MISS par la simulation. En éditant le fichier `Makefile`, vous pouvez voir la règle `cache` qui lance le simulateur en imposant les caractéristiques du cache :
-* -NICACHELEN : nombre de mots par case dans le cache instruction
-* -NDCACHELEN : nombre de mots par case dans le cache data
-* -NICACHESET : nombre de cases dans le cache instruction
-* -NDCACHESET : nombre de cases dans le cache data
-* Lancez donc la simulation avec la commande suivante : `make cache`
-Vous devriez voir les résultats s'afficher dans la fenêtre du TTY, avec la date à laquelle il est arrivé au `exit()`. Pour arrêter le simulateur, il faut taper le caractère `ctrl + c` dans la fenêtre du terminal où a été lancée la simulation.
-Pour observer précisément le comportement des caches, il faut relancer le simulateur en activant l'option d'instrumentation `-TRACE trace.txt`, pour obtenir un fichier `trace.txt` permettant de visualiser le contenu des caches au cours du temps. Les fichiers de trace étant très volumineux, on limite à 5000 le nombre de cycles simulés en utilisant l'option `-NCYCLES 5000`.
-* Relancez donc la simulation avec la commande suivante : `make cachetrace`\\(vous pouvez ouvrir le fichier `Makefile` pour voir la commande du simulateur).
-Une fois la simulation terminée, ouvrez dans deux fenêtres différentes le fichier de trace `trace.txt`, contenant les états successifs des caches, et le fichier `kernel.x.s` contenant le code désassemblé, puis observez le remplissage progressif des deux caches au fur et à mesure de l'exécution de l'application.
-* À quel cycle est chargée dans le cache d'instructions la première instruction de la fonction `kinit()` ?
-* À quel cycle est chargée la  première ligne de cache contenant des instructions de la boucle de calcul ?
-* À quel cycle cette première ligne est-elle évincée par le chargement d'une autre ligne de cache ?
-* À quel cycle cette première ligne est-elle rechargée pour exécuter la deuxième itération de la boucle ?
-* A quel cycle est-elle rechargée pour exécuter la troisième itération?
-* Quelle est la durée (en nombre de cycles) de la première itération?
-* Quelle est la durée des itérations suivantes?
-{{{
-#!protected
-* La première ligne de cache correspondant aux instructions de la fonction `main()` est copiée dans la case n°0 du cache au cycle 58.
-* La première ligne de cache correspondant aux premières instructions de la boucle est copiée dans la case n°6 du cache au cycle 388.
-* Elle est évincée au cycle 572 pour stocker d'autres instructions situées vers la fin de la boucle.
-* Elle est rechargée pour la deuxième itération au cycle 666.
-Il s'est donc écoulé (666 - 388) = 278 cycles entre deux itérations. Cela signifie qu'il faut 278 cycles pour exécuter 50 instructions, soit presque 6 cycles par instruction.
-}}}
-== 3. Mesure du taux de MISS ==
-Pour mesurer le taux de MISS sur le cache instruction, on peut activer l'option d'instrumentation `-STATS stats.txt`.
-Le fichier `stats.txt` contient des informations statistiques. Plus précisément, le simulateur relève à intervalles réguliers (tous les 10 cycles) différents compteurs permettant de caractériser l'activité des caches. Chaque ligne de ce fichier de statistiques contient 8 valeurs :
-. Le nombre de cycles simulés depuis le démarrage de la machine (incrément de 10 à chaque ligne),
-. Le nombre d'instructions exécutées depuis le démarrage de la machine,
-. Le nombre de MISS sur le cache d'instructions depuis le démarrage de la machine,
-. Le nombre de lectures de données depuis le démarrage de la machine,
-. Le nombre de MISS sur le cache de données depuis le démarrage de la machine,
-. Le taux de MISS sur le cache d'instructions,
-. Le taux de MISS sur le cache de données,
-. Le CPI, qui est le nombre moyen de cycles par instruction.
-* Relancez donc la simulation avec la commande suivante : `make cachestats`\\(vous pouvez ouvrir le fichier `Makefile` pour voir la commande du simulateur).
-À l'aide de l'outil `'gnuplot'` (s'il n'est pas installé sur votre machine personnelle, vous devrez l'intaller), c'est un logiciel de visualisation de courbes, vous allez afficher l'évolution du taux de MISS sur le cache d'instructions au cours du temps. Pour cela, lancez la commande :
-{{{
-#!bash
-$ gnuplot
-}}}
-* Une fois dans ce logiciel (indiqué par l'invite de commande `'gnuplot> '`), vous pouvez entrer la commande :
-{{{
-#!bash
-plot 'stats.txt' using 1:6
-}}}
-''Note : cette commande signifie que vous souhaitez afficher la courbe où la colonne n°1 du fichier `stats.txt` (le nombre de cycles écoulés) est en abscisse et la colonne n°6 (le taux de MISS sur le cache d'instructions) est en ordonnée.''
-* Comment expliquez-vous l'évolution du taux de MISS au cours du temps ?
-{{{
-#!protected
-Attention: les valeurs mesurées sont des moyennes cumulées depuis le début de la simulation...
-Au début le cache est vide, et il n'y a que des MISS. Puis le cache d'instructions est rempli avec le code de `reset`, puis avec le code du `main`, et enfin avec le code de la boucle. Le taux de MISS dans le cache remonte pour se rapprocher de 20% car 5 des 8 lignes de cache font systématiquement MISS pendant l'exécution de la boucle (10 MISS pour 51 instructions lues dans le cache).
-}}}
-== 4. Optimisation du code pour minimiser le taux de MISS ==
-Pour minimiser le taux de MISS, il faut modifier l'application logicielle pour que les 1000 itérations de la  boucle de calcul puissent s'exécuter sans MISS sur le cache d'instructions. Pour cela, on peut remplacer les 15 lignes calculant les 15 nouvelles valeurs du tableau par une boucle `for` interne portant sur l'index dans le tableau, de façon à obtenir un code plus compact, qui tienne entièrement dans le cache.
-* Copiez le fichier `main.c` actuel dans un autre fichier (par exemple, `kinit_orig.c`) afin de garder une sauvegarde du fichier original. Puis, ouvrez le fichier `main.c` et modifiez la fonction `main()` comme indiqué ci-dessus.
-* Éditez le fichier exécutable de l'application logicielle (`kernel.x.s`), et vérifiez que votre nouvelle boucle de calcul a bien une longueur inférieure à 32 instructions (afin d'être contenue entièrement dans le cache).
-* Editez le fichier `Makefile` pour que la simulation avec statistique produise le fichier `stats_nomiss.txt`.
-* Relancez la simulation pour 100000 cycles, en changeant le nom du fichier de statistiques : `make cachestat`
-* À l'aide de `gnuplot`, affichez sur le même graphique les résultats des exercices 1 et 2, afin de les comparer. Pour cela, entrez les deux commandes suivantes :
-{{{
-#!bash
-plot 'stats.txt' using 1:6
-replot 'stats_nomiss.txt' using 1:6
-}}}
-* Comment expliquez-vous l'évolution du taux de MISS pour cette nouvelle version de l'application ?
-{{{
-#!protected
-Au début, le comportement des deux versions de l'application est identique. Vers les cycles 300/400, le cache est complètement chargé. Quand le processeur commence à exécuter la boucle de calcul, les deux courbes commencent à diverger, puisque la courbe verte correspond au cas où toutes les instructions de la boucle tiennent dans le cache : le taux de MISS instruction est nul.
-}}}
-{{{#!html
-<h1><font size=+2> B) mesures de performance du processeur en fonction de la taille des caches</font></h1>
-}}}