Context Navigation

Changes between Version 4 and Version 5 of AS6-TME-B4

Timestamp:: Mar 19, 2022, 4:50:17 PM (4 years ago)
Author:: franck
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

AS6-TME-B4

-                      v4
+                      v5
 {{{#!protected
 [[Image(img/hard_almo1_mono.png, align=right,width=250)]]
+[[Image(htdocs:img/hard_almo1_mono.png, align=right,width=250)]]
 Les caches L1 ont pour but d'améliorer les performances en réduisant le nombre de cycles nécessaires pour accéder à la mémoire à la fois pour les instruction que pour le données. Le tampon d'écriture, présent dans le cache mais qui n'est pas un cache, permet aussi de réduire la latence des écritures de données (elle est même nulle la plupart du temps).
 …
 Dans un système mémoire ''parfait'', le taux de ''HIT'' est de 100% sur le cache d'instructions comme sur le cache de données : c'est-à-dire que toutes les requêtes de lecture du processeur vers la mémoire sont satisfaites immédiatement. Mais dans un système mémoire ''réel'', la capacité de stockage limitée des caches (cache d'instructions et cache de données) a pour effet de dégrader la performance : certaines requêtes de lecture font ''MISS'' (échec de cache), et le processeur est gelé pendant plusieurs cycles en attendant que la ligne de cache manquante soit lue en mémoire par le contrôleur du cache. Ces cycles de gel du processeur augmentent évidemment la valeur du nombre moyen de cycles par instruction (CPI).
 Cette augmentation du CPI dépend évidemment du ''taux de MISS'' (proportion de requêtes du processeur qui font MISS), mais dépend également du ''coût du MISS'' (nombre moyen de cycles de gel pour rapatrier la ligne de cache manquante en cas de gel). En cas de MISS sur un cache L1, cache de 1^er^ niveau, le nombre de cycles de gel peut être très élevé (plusieurs centaines de cycles), s'il faut aller chercher la ligne de cache dans la mémoire externe. Le cache L2, ou cache de 2^ème^ niveau, joue le rôle d'un "accélérateur", qui permet de limiter le coût du MISS. Dans tous les calculs de ce TD, nous allons raisonner sur des valeurs moyennes.
+Cette augmentation du CPI dépend évidemment du ''taux de MISS'' (proportion de requêtes du processeur qui font MISS), mais dépend également du ''coût du MISS'' (nombre moyen de cycles de gel pour rapatrier la ligne de cache manquante en cas de gel). En cas de MISS sur un cache L1, cache de 1^er^ niveau, le nombre de cycles de gel peut être très élevé (plusieurs centaines de cycles), s'il faut aller chercher la ligne de cache dans la mémoire externe. Le cache L2, ou cache de 2^ème^ niveau, joue le rôle d'un "accélérateur", qui permet de limiter le coût du MISS. Dans tous les calculs de cette séance, nous allons raisonner sur des valeurs moyennes.
 ''Note : ces valeurs moyennes dépendent évidemment des programmes exécutés, et les valeurs proposées ci-dessous sont fournies à titre d'exemple.''
 …
 En cas de MISS sur un cache L1, le contrôleur du cache L1 s'adresse au cache L2, par l'intermédiaire d'un bus système de largeur 32 bits. On suppose que le processeur, les 2 caches L1, la ROM de démarrage, le bus système et le cache L2 sont intégrés sur la même puce, et fonctionnent à la même fréquence d'horloge. La largeur d'une ligne de cache est de 16 octets (soit 4 mots de 32 bits). En cas de MISS sur le cache L2, le contrôleur du cache L2 doit chercher la ligne de cache manquante dans la mémoire principale, qui est une mémoire externe à la puce.
 …
 ==
 = B. Influence des mémoires cache sur les performances
 …
 à un cycle :
 * lorsque le processeur exécute une instruction de branchement, la durée effective de l'instruction est de 2 cycles au lieu de 1 cycle, que le branchement réussisse ou non.
+* lorsqu'une instruction de lecture de donnée en mémoire est suivie par une instruction qui utilise la donnée lue par la première (on dit qu'il y a une dépendance de donnée entre les 2 instructions), la durée effective de l'instruction de lecture est de 2 cycles au lieu de 1 cycle.[[BR]]
+'''Question''': Calculez la valeur '''CPI0''' (correspondant à un système mémoire ''parfait'') en supposant que 50% des instructions de lecture de donnée sont en dépendance avec l'instruction suivante.
+{{{
+#!protected
+Il faut faire une somme pondérée :
+CPI =     (0.55 * 1)    instructions entre registres \\
+           + (0.25 * 2)    instructions de branchement \\
+           + (0.10 * ((0.5 * 1) + (0.5 * 2)))    instructions de lecture de données \\
+           + (0.10 * 1)    instructions d'écriture
+CPI = 1.3 cycle/instruction.
+Même avec un système mémoire ''parfait'', le processeur MIPS32 est "gelé"  23% du temps à cause des dépendances de données ou de contrôle.
+* lorsqu'une instruction de lecture de donnée en mémoire est suivie par une instruction qui utilise la donnée lue par la première (on dit qu'il y a une dépendance de donnée entre les 2 instructions), la durée effective de l'instruction de lecture est de 2 cycles au lieu de 1 cycle.
+. Calculez la valeur '''CPI0''' (correspondant à un système mémoire ''parfait'') en supposant que 50% des instructions de lecture de donnée sont en dépendance avec l'instruction suivante ?
+{{{#!protected
+'''
+* Il faut faire une somme pondérée :\\
+{{{
+CPI = (0.55 * 1)                       → instructions entre registres
+    + (0.25 * 2)                       → instructions de branchement
+    + (0.10 * ((0.5 * 1) + (0.5 * 2))) → instructions de lecture de données
+    + (0.10 * 1)                       → instructions d'écriture
+}}}
+ CPI = 1.3 cycle/instruction.
+'''
+}}}
+. Quel est le pourcentage de gel dans les conditions précédentes avec un système mémoire parfait.
+{{{#!protected
+'''
+* Même avec un système mémoire ''parfait'', le processeur MIPS32 est "gelé"  (100-100/1.3) = 23% du temps à cause des dépendances de données ou de contrôle.
+* Pour comprendre, en 100 cycles, si les instructions dure 1 cycles on exécute 100 instruction, mais là, parce que les instructions durent 1,3 cycles, alors le nombre d'instructions exécutées est 100/1,3 = 77 instructions environs, la différence est 23.
+'''
 }}}
 …
 On cherche à évaluer l'augmentation du CPI causée par les MISS sur le cache d'instructions. On note ''DCPI_ins'' cet accroissement. Puis à évaluer l'augmentation du CPI causée par les MISS sur le cache de données. On note ''DCPI_data'' cet accroissement.
+'''Question''': Calculez la valeur de ''DCPI_ins'', en utilisant le taux de MISS défini dans l'énoncé, et le coût du MISS de 30 cycles.
+{{{
+#!protected
+Toute instruction exécutée doit être lue dans le cache L1 d'instruction. Quatre instructions sur 100 font MISS et vont entraîner un gel du processeur pendant 32 cycles.
+Par conséquent :
+* DCPI_ins = 0.04 * 30 = 1.2 cycles.
+}}}
+'''Question''': Calculez la valeur de ''DCPI_data'', en utilisant le taux de MISS défini dans l'énoncé et le coût du MISS de 30 cycles.
+{{{
+#!protected
+Seulement 10% des instructions exécutées sont des instructions de lecture, et 8% de ces instructions font MISS et vont entraîner un gel du processeur pendant 32 cycles.
+Par conséquent :
+* DCPI_data = 0.1 * 0.08 * 30 = 0.24 cycle.
+}}}
+'''Question''': Sachant que 10% des instructions sont des écritures, expliquez pourquoi les écritures n'entraînent pas d'augmentation directe du CPI, bien que toute écriture entraîne un accès au bus système (politique ''write through'') ?
+{{{
+#!protected
+Puisqu'on dispose d'un tampon d'écritures postées, le processeur n'est que très rarement gelé lorsqu'il exécute une instruction d'écriture. Cette écriture sera effectuée plus tard par l'automate contrôleur du cache, lorsque le bus sera disponible, et tout se passe comme si les écritures étaient exécutées en 1 cycle.
+}}}
+'''Question''': Faut-il traiter comme un cas particulier les situations où le processeur émet simultanément (i.e. au même cycle) des requêtes d'instructions et de données qui font à la fois MISS sur le cache d'instructions et MISS sur le cache de données ? (cela est possible si l'on suppose un processeur pipeliné)
+{{{
+#!protected
+Puisque que le bus système n'effectue qu'une seule transaction à la fois, le processeur est gelé pendant deux fois 32 cycles lorsque la même instruction fait MISS sur le cache d'instructions et fait également MISS sur le cache de données.
+}}}
+'''Question''': Quelle est finalement la valeur du nombre moyen de cycles par instruction ?
+{{{
+#!protected
+Tous les couts de MISS doivent donc être cumulés. Par conséquent :
+. Calculez la valeur de ''DCPI_ins'', en utilisant le taux de MISS défini dans l'énoncé, et le coût du MISS de 30 cycles.
+{{{#!protected
+'''
+* Toute instruction exécutée doit être lue dans le cache L1 d'instruction. Quatre instructions sur 100 font MISS et vont entraîner un gel du processeur pendant 32 cycles.
+* Par conséquent :
+  * DCPI_ins = 0.04 * 30 = 1.2 cycles.
+'''
+}}}
+. Calculez la valeur de ''DCPI_data'', en utilisant le taux de MISS défini dans l'énoncé et le coût du MISS de 30 cycles.
+{{{#!protected
+'''
+* Seulement 10% des instructions exécutées sont des instructions de lecture, et 8% de ces instructions font MISS et vont entraîner un gel du processeur pendant 32 cycles.
+* Par conséquent :
+  * DCPI_data = 0.1 * 0.08 * 30 = 0.24 cycle.
+'''
+}}}
+. Sachant que 10% des instructions sont des écritures, expliquez pourquoi les écritures n'entraînent pas d'augmentation directe du CPI, bien que toute écriture entraîne un accès au bus système (politique ''write through'') ?
+{{{#!protected
+'''
+* Puisqu'on dispose d'un tampon d'écritures postées, le processeur n'est que très rarement gelé lorsqu'il exécute une instruction d'écriture. Cette écriture sera effectuée plus tard par l'automate contrôleur du cache, lorsque le bus sera disponible, et tout se passe comme si les écritures étaient exécutées en 1 cycle.
+'''
+}}}
+. Faut-il traiter comme un cas particulier les situations où le processeur émet simultanément (i.e. au même cycle) des requêtes d'instructions et de données qui font à la fois MISS sur le cache d'instructions et MISS sur le cache de données ? (cela est possible si l'on suppose un processeur pipeliné)
+{{{#!protected
+'''
+* Puisque que le bus système n'effectue qu'une seule transaction à la fois, le processeur est gelé pendant deux fois 32 cycles lorsque la même instruction fait MISS sur le cache d'instructions et fait également MISS sur le cache de données.
+'''
+}}}
+. Quelle est finalement la valeur du nombre moyen de cycles par instruction ?
+{{{#!protected
+'''
+* Tous les couts de MISS doivent donc être cumulés. Par conséquent :
 * CPI = CPI0 + DCPI_ins + DCPI_data = 1.3 + 1.2 + 0.24 = 2.74 cycles/instruction.
+}}}
+{{{#!html
+<h1><font size=+3> Partie TP</font></h1>
+}}}
+{{{#!html
+<h1><font size=+2> A) Étude du taux de miss en fonction du programme exécuté </font></h1>
+'''
 }}}