Context Navigation

Changes between Version 20 and Version 21 of MjpegCourse/Coproc

Timestamp:: Mar 7, 2007, 1:16:01 AM (19 years ago)
Author:: Nicolas Pouillon
Comment:: Modifs aléatoires

Legend:

: Unmodified
: Added
: Removed
: Modified

MjpegCourse/Coproc

-                      v20
+                      v21
  * libération du verrou.
+Pour simplifier le travail de l'outil de synthèse de coprocesseur, et séparer clairement les fonctions de calcul et les
+fonctions de communication, ce n'est pas le coprocesseur matériel synthétisé qui implémente le
+protocole MWMR. On utilise pour accéder aux canaux MWMR un composant matériel générique, appelé contrôleur MWMR.
+Cet initiateur VCI est capable de lire ou d'écrire dans les canaux MWMR (en respectant le protocole à 5 étapes), et  fournit au coprocesseur
+autant d'interfaces de type FIFO que celui-ci en a besoin. Ce composant est également une cible VCI,
+puisqu'il doit être configuré par le logiciel. C'est ce même
+contrôleur MWMR qui a déjà été utilisé pour interfacer les composants matériels RAMDAC et TG.
+Pour simplifier le travail de l'outil de synthèse de coprocesseur,
+et séparer clairement les fonctions de calcul et les fonctions de communication,
+ce n'est pas le coprocesseur matériel synthétisé qui implémente le  protocole MWMR.
+On utilise pour accéder aux canaux MWMR un composant matériel générique, appelé
+contrôleur MWMR. Cet initiateur VCI est capable de lire ou d'écrire dans les canaux
+MWMR (en respectant le protocole à 5 étapes), et  fournit au coprocesseur autant d'interfaces
+de type FIFO que celui-ci en a besoin. Ce composant est également une cible VCI,
+puisqu'il doit être configuré par le logiciel. C'est ce même contrôleur MWMR qui a déjà
+été utilisé pour interfacer les composants matériels `Ramdac` et `Tg`.
+Vous repartirez de la plateforme du [MjpegCourse/Multipro TP3]: !VgmnNoirqMulti, pour une architecture comportant 3 processeurs,
+Vous repartirez de la plateforme du [MjpegCourse/Multipro TP3]:
+!VgmnNoirqMulti, pour une architecture comportant 3 processeurs,
 et vous modifierez cette architecture, pour remplacer
+un des processeurs programmable par un coprocesseur matériel dédié à la transformation IDCT.
+un des processeurs programmable par un coprocesseur matériel dédié à
+la transformation IDCT.
+== Mettre ici le dessin de la plate-forme matérielle complête avec 2 processeur et 3 controleurs MWMR ==
+[[Image(vgmn_coproc.png, align=right)]]
 Reprenez les fichiers du TP3:
 …
  * Le code des tâches (`Libu` ne gère qu'un seul pipeline et `Split` n'existe pas)
 [[Image(MjpegCourse:q.gif)]] Q1.  Rappelez le temps
+[[Image(MjpegCourse:q.gif)]] Rappelez le temps
 nécessaire pour décoder 25 images, dans le cas d'un déploiement
 utilisant 3 processeurs, lorsque la tâche {{{idct}}} est placée sur le premier processeur,
 …
 architecturale ''avant synthèse''.
+[[Image(threader.png, align=right)]]
 Pour cela, on commence par ''émuler'' le coprocesseur matériel - sans le synthétiser -
+en encapsulant la tâche logicielle {{{idct}}} existante dans un composant matériel générique
+appelé ''threader'', qui est un service fourni par l'environnement DSX.
+Pour ce qui concerne le matériel, ce composant ''threader'' s'interface avec le composant matériel
+''contrôleur MWMR'', mais il est également capable de communiquer avec la tâche logicielle {{{idct}}},
+de façon a utiliser le code existant - sans modification - pour effectuer les calculs qui devront être réalisés par le
+coprocesseur matériel.
+en encapsulant la tâche logicielle {{{idct}}} existante dans un composant matériel générique
+qui est un service fourni par l'environnement DSX.
+ * du côté matériel, ce composant s'interface avec le composant matériel ''contrôleur MWMR''
+ * du côté logiciel, ce composant dialogue avec un processus hébergeant la tâche logicielle {{{idct}}}.
+Ceci permet une utilisation du code existant - sans modification - pour effectuer les calculs
+qui devront être réalisés par le coprocesseur matériel.
 En pratique, la simulation dans ce mode consiste à exécuter un programme parallèle comportant
 deux processus UNIX communicant entre eux par des ''pipes'' UNIX.
+deux processus UNIX communicant entre eux par des ''pipes''.
 Le premier processus est le simulateur SystemC modélisant l'architecture matérielle
+(y compris le contrôleur MWMR et le composant ''threader''). Le second processus est la tâche logicielle encapsulée.
+== mettre ici le dessin contenant le threader ==
+(y compris le contrôleur MWMR et le composant d'émulation), le second processus
+est la tâche logicielle encapsulée.
 Pour utiliser un tel coprocesseur ''virtuel'', il faut modifier trois choses dans la description DSX:
+ * dans la définition du modèle de la tâche {{{idct}}}, il faut ajouter l'implémentation `SyntheticTask()`. Le coprocesseur matériel étant paramètrable, il faut également définir un nouveau paramètre `EXEC_TIME` dans la liste des paramètres de la tâche {{{idct}}}. Ce paramètre permet de spécifier le nombre de cycles utilisés par le coprocesseur matériel pour effectuer la transformation IDCT d'un bloc de 64 pixels.
+ * dans la définition du modèle de la tâche {{{idct}}}, il faut ajouter l'implémentation `SyntheticTask()`.
+   Le coprocesseur matériel étant paramètrable, il faut également définir un nouveau paramètre `EXEC_TIME`
+   dans la liste des paramètres de la tâche {{{idct}}}. Ce paramètre permet de spécifier le nombre de cycles
+   utilisés par le coprocesseur matériel pour effectuer la transformation IDCT d'un bloc de 64 pixels.
 {{{
 idct = TaskModel( 'idct',
+        infifos = [ 'input' ],
+        outfifos = [ 'output' ],
+        impl = [ SwTask( 'idct',
+                       stack_size = 1024,
+                       sources = [ 'src/idct.c' ],
+                       defines = [ 'WIDTH', 'HEIGHT','EXEC_TIME' ] ),
+                SyntheticTask() ] )
+                  infifos = [ 'input' ],
+                  outfifos = [ 'output' ],
+                  impl = [ SwTask( 'idct',
+                                   stack_size = 1024,
+                                   sources = [ 'src/idct.c' ],
+                                   defines = [ 'WIDTH', 'HEIGHT','EXEC_TIME' ] ),
+                           SyntheticTask()
+                          ] )
 }}}
  * La valeur du paramètre  EXEC_TIME doit être définie au moment où on instancie la tâche {{{idct}}} dans le TCG.
 {{{
+Task( 'idct0' , idct ,
+        portmap = { 'output':idct_libu,
+                    'input' :iqzz_idct },
+        defines = {     'XSIZE':'48', 'YSIZE':'48', 'EXEC_TIME':'64'} )
+Task( 'idct0', idct,
+      portmap = { 'output':idct_libu,
+                  'input' :iqzz_idct },
+      defines = { 'XSIZE':'48', 'YSIZE':'48', 'EXEC_TIME':'64' }
+    )
 }}}
+ * Dans la partie déploiement, il faut déployer la tâche {{{idct}}} comme une tâche matérielle (comme on l'a fait pour les tâches {{{ramdac}}} ou {{{tg}}}.
+ * Dans la partie déploiement, il faut déployer la tâche {{{idct}}} comme une tâche matérielle
+   (comme on l'a fait pour les tâches {{{ramdac}}} ou {{{tg}}}.
 {{{
 mapper.map("idct0", vci = mapper.hard.vgmn)
 …
 Le coprocesseur matériel IDCT (comme beaucoup de coprocesseurs matériels orientés "flot de données'")
 exécute une boucle infinie dans laquelle il effectue successivement les actions suivantes:
 . recopie d'un bloc de 64 coefficients du canal MWMR d'entrée vers une mémoire locale BUFIN,
 . calcul d'un bloc de 64 pixels, et stockage de ces pixels dans une seconde mémoire locale BUFOUT,
 . recopie de ces 64 pixels de la mémoire locale BUFOUT vers le canal MWMR de sortie.
+. recopie d'un bloc de 64 coefficients du canal MWMR d'entrée vers une mémoire locale,
+. calcul d'un bloc de 64 pixels, et stockage de ces pixels dans une seconde mémoire locale,
+. recopie de ces 64 pixels de la mémoire locale vers le canal MWMR de sortie.
 Les temps de communication correspondant aux étapes 1 et 3 sont précisément décrits par le simulateur SystemC,
 qui reproduit (cycle par cycle) le comportement des interfaces FIFO entre le threader et le contrôleur MWMR
+qui reproduit (cycle par cycle) le comportement des interfaces FIFO entre le coprocesseur émulé et le contrôleur MWMR
 (y compris en cas de contention pour l'accès à la mémoire).
 [[Image(MjpegCourse:q.gif)]] Q2. Combien de coefficients sont transférés par cycle sur  l'interface FIFO d'entrée? Combien  de pixels sont
+[[Image(MjpegCourse:q.gif)]] Combien de coefficients sont transférés par cycle sur  l'interface FIFO d'entrée? Combien  de pixels sont
 transférés par cycle sur l'interface FIFO de sortie? En déduire les durées minimales (en nombre de cycles) pour les étapes 1 et 3 ci-dessus.
 …
 deux primitives de communication, et modélise donc le temps de calcul (voir SrlApi).
 [[Image(MjpegCourse:q.gif)]] Q3. pour quelle raison peut-on affirmer sans aucune expérimentation (c'est à dire sans aucune simulation),
+[[Image(MjpegCourse:q.gif)]] pour quelle raison peut-on affirmer sans aucune expérimentation (c'est à dire sans aucune simulation),
 qu'il est sans intérêt de synthétiser un coprocesseur matériel dont le temps de calcul soit inférieur à une centaine de cycles?
 …
 ''virtuel'' pour la tâche {{{idct}}}.
+[[Image(MjpegCourse:q.gif)]] Q4. Mesurez le nombre de cycle pour décompresser 25 images, en faisant varier la valeur du paramètre ''ncycles'' de la fonction ''srl_busy_cycles()'', dans le code C de la tâche {{{idct}}}. On essaiera les valeurs 8, 64, 512, et 4096 cycles.
+[[Image(MjpegCourse:q.gif)]] Mesurez le nombre de cycle pour décompresser 25 images,
+en faisant varier la valeur du paramètre ''EXEC_TIME''. On essaiera les valeurs 8, 64, 512, et 4096.
 En déduire un objectif de performance "raisonnable" pour la synthèse du coprocesseur IDCT.
 …
 de cette nouvelle plate-forme, pour les 4 valeurs possibles du paramètre.
+[[Image(MjpegCourse:q.gif)]] Q5. Comment expliquez-vous les différences entre les performances
+obtenues, suivant qu'on utilise un processeur réel ou virtuel?
+[[Image(MjpegCourse:q.gif)]] Quelles différences de performance observez-vous suivant
+qu'on utilise un processeur réel ou virtuel ?
+[[Image(MjpegCourse:q.gif)]] Quel intérêt a-t-on à utiliser un coprocesseur virtuel ?
 = 4. Compte-Rendu =