Context Navigation

← Previous Change
Next Change →

Documentation

Timestamp:

May 21, 2007, 12:01:51 PM (19 years ago)

Author:

rosiere

Message:

Documentation pour chaque composant.
Documentation : ajout d'un poster et d'un article.
RegisterFile_Multi_Banked_Glue - non encore stable.

Location:

trunk/IPs/systemC/processor/Morpheo/Documentation/Source

Files:

: 25 added
: 7 deleted
: 10 edited

Documents/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA (added)
Documents/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA/common (added)
Documents/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA/common/bibliographie.bib (added)
Documents/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA/en (added)
Documents/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA/en/root.tex (added)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/common/bibliographie.bib (modified) (1 diff)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr.old (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/01_abstract.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/02_introduction.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/03_experimentation.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/04_methodologie.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/05_resultat.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/06_conclusion.tex (deleted)
Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/root.tex (modified) (1 diff)
Documents/poster-jnrdm_2007 (added)
Documents/poster-jnrdm_2007/common (added)
Documents/poster-jnrdm_2007/common/bibliographie.bib (added)
Documents/poster-jnrdm_2007/fr (added)
Documents/poster-jnrdm_2007/fr/root.tex (added)
Documents/presentation-internal_seminary_overview/fr/root.tex (modified) (1 diff)
Graph/simulation_all.dat (modified) (1 diff)
Graph/simulation_all.p (modified) (1 diff)
Include/a0poster.cls (added)
Include/a0size.sty (added)
Include/poster-file_source.sed (added)
Include/poster-file_source.sty (added)
Include/poster-file_source.tex (added)
Include/poster-style.sty (added)
Language/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA (added)
Language/poster-jnrdm_2007 (added)
Makefile (modified) (4 diffs)
Package/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA.sty (added)
Package/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA.tex (added)
Package/poster-jnrdm_2007.sty (added)
Package/poster-jnrdm_2007.tex (added)
Package/presentation-internal_seminary_overview.sty (modified) (1 diff)
Schema/MORPHEO_micro_architecture-execute_loop.fig (modified) (5 diffs)
Schema/MORPHEO_micro_architecture-groupement.fig (added)
Schema/MORPHEO_micro_architecture-out_of_order_engine.fig (modified) (5 diffs)
Schema/MORPHEO_service.fig (modified) (5 diffs)
Type/article-Design_a_CPU_with_High_Performance_and_High_Configurability_on_FPGA (added)
Type/poster-jnrdm_2007 (added)

Legend:

: Unmodified
: Added
: Removed

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Documents/article-morpheo-share_architectural_ressources_between_hardware_context/common/bibliographie.bib

r2	r23
1214	1214	@article{2000_barroso,
1215	1215	title={{Piranha: a scalable architecture based on single-chip multiprocessing}},
1216		author={Barroso, L.A. and ~~Gharachorloo, K. and McNamara, R. and Nowatzyk, A. and Qadeer, S. and Sano, B. and Smith, S. and Stets, R. and Verghese, B~~.},
	1216	author={Barroso, L.A. and al.},
1217	1217	journal={Proceedings of the 27th annual international symposium on Computer architecture},
1218	1218	pages={282--293},

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Documents/article-morpheo-share_architectural_ressources_between_hardware_context/fr/root.tex

-                      r2
+                      r23
+\input{\dirroot/01_abstract}
+\input{\dirroot/02_introduction}
+\input{\dirroot/03_experimentation.tex}
+\input{\dirroot/04_methodologie.tex}
+\input{\dirroot/05_resultat.tex}
+\input{\dirroot/06_conclusion.tex}
+\begin{abstract}
+Dans ce document nous allons étudier l'incidence du partage par les contextes matériels d'un processeur, de ces caches de niveau 1, de sa partie opérative et de sa partie exécutive.
+Il s'agit d'une étude de performance, en terme d'exécution, utilisant les benchmarks SPECINT2000.
+Nous montrons que le partage de la partie exécutive n'a que peu d'incidence sur les performances, alors que le partage des caches fait perdre 10\% de performances et que le partage de la partie opérative fait tomber les performances d'un facteur de 2,7 entre un CMP de degré 4 et un SMT de même degré.
+\end{abstract}
+%-------------------------------------------------------------------------
+\Section{Introduction}
+De nos jours, la capacité d'intégration augmente.
+Un concepteur possède un ``tas'' de transistors toujours plus grand à sa disposition.
+L'objectif des vingts dernières années était d'avoir un processeur monolithique pouvant extraire des programmes le plus d'ILP (Instruction Level Parallelism) possible.
+Les études de David W. Wall \cite{1991_wall} montre que l'ILP moyen dans un programme est de 3-5 instructions.
+Les mono-processeurs de la fin du XX ème siècles comme le MipsR10000 \cite{1996_yeager}, l'Alpha 21264 \cite{1998_kessler}, le Pentium 4 \cite{2001_hinton} ou encore l'Itanium 1 et 2 d'Intel (\cite{2000_sharangpani}, \cite{2003_mcnairy}) exploitent tous fortement l'ILP.
+Dans le même laps de temps des systèmes CMP (Chip Multi Processors) firent leur apparition.
+De telles puces peuvent exécuter plusieurs tâches simultanément.
+Ces CMP exploitent le TLP (Thread Level Parallelism).
+Dans cette catégorie nous pouvons citer le piranha de Compaq \cite{2000_barroso}, l'Hydra de Stanford \cite{2000_hammond}.
+On peut également citer le Power4 \cite{2002_tendler} ou l'Alpha 21364 \cite{2002_mukherjee} qui sont des processeurs monolithiques mais conçus pour être intégrés dans un environnement multiprocesseur.
+L'exploitation de l'ILP de manière aggressive, (prédiction de branchement, lancement désynchronisé) entraine une sous exploitation des ressources internes des processeurs.
+Une technique consiste en l'éxecution de plusieurs contextes par coeur de processeur en exploitant le TLP.
+Ceci est la technique du Multi-threading et de sa principale variante le SMT (Simultaneous multi threading).
+C'est l'objet des travaux de recherches de l'équipe de Tullsen \cite{1996_tullsen}, \cite{1998_tullsen}.
+Pour un ajout minime en surface (une duplication de quelques registres d'état, ajout de multiplexeurs pour sélectionner un contexte... ), nous pouvons avoir des processeurs mono-coeur multi-thread.
+Cette technique est exploitée dans le Pentium 4 Hyper-Threading d'Intel \cite{2003_koufaty} (ajout de 5\% en surface pour un gain de performance de 30\%).
+Il y a deux grands axes de recherches :
+\begin{enumerate}
+\item le CMP où chaque thread s'execute sur un coeur spécifique.
+ L'intégralité des ressources d'un coeur est mit à la disposition d'un thread.
+ Les ressources internes du coeur sont dédiées à un thread.
+\item le SMT où tous les threads s'éxecutent dans un unique coeur.
+ Tous les threads entrent en compétition pour l'obtention des ressources d'un coeur.
+ Les ressources internes du coeur sont partagées entre plusieurs threads
+\end{enumerate}
+Entre ces deux axes, il y a une multitude de variation du degré de partage des ressources entre les tâches.
+Ceci a pour conséquence l'émergence de CMP de SMT (plusieurs coeurs multi contexte).
+Le POWER 5 \cite{2004_kalla} est un bi-coeurs où chaque coeur est SMT de degré 2.
+De même pour le montecito d'Intel \cite{2005_mcnairy}.
+Alors que le Niagara de Sun intègre 8 coeurs de CMT (Corse Grain Multi Threading) de degré 4 \cite{2005_kongetira}.
+L'objectif de ce papier est d'analyser les performances d'exécution entre plusieurs partages des ressources d'un processeur.
+Pour cela, nous allons voir dans la section \ref{experimentations} les expérimentations que nous avons réalisées, ainsi que celles qui ont déjà été effectuées.
+Dans la section \ref{methodologie} nous allons montrer nos hypothèses de travail.
+Enfin une section où nous allons interpréter les résultats.
+%-------------------------------------------------------------------------
+\Section{Expérimentations}\label{experimentations}
+Le SMT est une solution faible-coût pour obtenir un processeur MT (multi-thread).
+Les ressources sont intégralement partagées, dans le cas où il n'y a qu'un seul thread à exécuter, ce dernier pourra utiliser l'intégralité des ressources du processeur.
+Malheureusement cette solution à deux problèmes importants.
+Le premier est que la rapidité d'exécution d'un thread dépend des autres threads.
+Ceci est dut à la compétition entre les threads pour obtenir les ressources.
+Par exemple si tous les threads font des accès mémoires fréquents, l'unité mémoire va rapidement saturer.
+Le deuxième problème est la pollution des ressources partagées.
+Les meilleurs exemples sont les caches et le Buffer des destinations de branchement (BTB).
+La gestion du SMT peut être gérer de manière très simple en concaténant le numéro du thread l'adresse de l'instruction ou de la donnée.
+Dans ce cas, le cache peut évincer des lignes très utiles d'un thread au profit de lignes d'autres threads.
+ %De plus les actions comme le prefetch ou la prédiction de branchement risque de priver des threads de lignes utiles contre une hypothétique ligne utile pour le thread bénéficiaire.
+Nous allons faire varier le degré de partage des ressources.
+Des travaux équivalents ont été réalisés.
+Dans \cite{2004_dolbeau}, ils étudient l'influence du partage des unités à latence longue (multiplication, division...), du prédicteur de branchement, ainsi que des caches Instructions et Données.
+Pour ce faire, ils ont implémentés l'architecture {\bf CASH} (CMP And SMT Hybrid) qui consiste en 4 coeurs ce partageant les ressources cités.
+Dans un autre article, \cite{2004_kumar}, il y a une étude en terme de performance d'exécution mais également en terme de surface.
+Les blocs concernés sont les unités flottantes, les caches de premiers niveaux, et enfin les ports du crossbar reliant les Caches à la mémoire.
+Ici l'équipe de Tullsen à validée leurs hypothèses sur un système à 8 coeurs.
+Le partage des ressources ce fait entre deux coeurs voisins.
+Leurs résultats ainsi que ceux que nous obtenons sont compatibles entre eux.
+Notre approche consiste à tester l'incidence du partage des caches, des Unités d'exécutions et de la partie opérative.
+Nous nommons les partages comme suit :
+\begin{description}
+\item[Cluster            :] Les clusters ce partage les caches de niveaux 2 et les unités d'exécutions.
+\item[Unité de lancement :] Les unités de lancement ce partage les ports des caches de niveaux 1 et les unités d'exécutions.
+\item[Contexte           :] Les contextes se partagent l'accès au décodeur, au Icache et au prédicteur de branchement.
+\end{description}
+L'expérimentation ce fait avec le générateur de processeur Morpheo (acronyme de ``Multi ORganisation for a Processor HEterogeneous and Open'').
+Une vue d'ensemble de l'architecture résultante est donnée dans la figure \ref{MORPHEO_overview}.
+\begin{figure}[h]
+  \begin{center}
+    \resizebox{8cm}{!}{
+      \includegraphics{\dirschema/MORPHEO_overview.eps}}
+    \caption{\label{MORPHEO_overview}MORPHEO - Vue d'ensemble}
+  \end{center}
+\end{figure}
+Notre allons analyser l'incidence du partage des ressources au niveau Cluster, UL et Contexte dans un système à 4 Threads, pouvant lancer à chaque cycle 8 instructions.
+Trois tableaux résument les caractéristiques communes de chaque instance ainsi que les paramètres spécifiques pour les configurations avec 1,2 et 4 coeurs.
+(nous définissons un coeur étant équivalent à une UL).
+Le troisième tableau résume le système mémoire.
+\begin{table}[h]
+\begin{center}
+\begin{tabular}{|l|c|}
+  \hline
+  Unité d'exécutions                           & 8              \\
+  Profondeur des Stations de Réservations      & 4              \\
+  Nombre de branchements spéculés              & 8              \\
+  Return Address Stack                         & 16             \\
+  Réseau de by-pass                            & Complet        \\
+  Nombre de port de lecture                    & 12             \\
+  Nombre de port d'écriture                    & 8              \\
+  \hline
+\end{tabular}
+\end{center}
+ \caption{Caractéristiques communes}
+\end{table}
+\begin{table}[h]
+\begin{center}
+\begin{tabular}{|l|ccc|}
+  \hline
+                                               & 1 coeur        & 2 coeurs      & 4 coeurs      \\
+  \hline
+  Largeur du pipeline                          & 8              & 4             & 2             \\
+  Taille-Ifetch\_queue                         & 8              & 4             & 2             \\
+  Taille-Issue queue                           & 32             & 16            & 8             \\
+  Taille-ReOrder Buffer                        & 128            & 64            & 32            \\
+  Taille-Autres files                          & 16             & 8             & 4             \\
+  Largeur des fenêtres                         & 16             & 8             & 4             \\
+  Branch Target Buffer                         & 256            & 128           & 64            \\
+  Méta prédicteur                              & 16k            & 8k            & 4k            \\
+  Banc de Registres                            & 256            & 128           & 64            \\
+  \hline
+\end{tabular}
+\end{center}
+    \caption{Caractéristiques spécifiques}
+\end{table}
+\begin{table}[h]
+\begin{center}
+\begin{tabular}{|l|cc|}
+  \hline
+                             & L1          & L2             \\
+                             & I/D séparé  & unifié         \\
+        \hline
+        Taille               & 8 ko \footnote{divisé par le nombre de cluster}  & 2 Mo           \\
+        Nombre de lignes     & 128  \footnote{divisé par le nombre de cluster}  & 16k            \\
+        Nombre de mots/ligne & 16          & 32             \\
+        Associativité        & 4 voies     & 4 voies        \\
+        Latence - Hit        & 2 cycles    & 6 cycles       \\
+        Pénalités - Miss     & 4 cycles    & 100 cycles     \\
+  \hline
+\end{tabular}
+\end{center}
+ \caption{Caractéristiques du système mémoire}
+\end{table}
+%(Le nombre de lignes du premier niveau de cache est divisé par le nombre de cluster).
+%-------------------------------------------------------------------------
+\Section{Méthodologie}\label{methodologie}
+\subSection{Charge de travails}
+Dans un premier temps, nous avons sélectionné 6 benchmarks parmi les SPECINT2000 (164.gzip, 175.vpr, 181.mcf, 255.vortex, 256.bzip2, 300.twolf).
+ %Nous ne les avons pas tout sélectionnés afin de ne pas avoir trop de simulations à effectuer et car tous les benchmarks ne fonctionnes pas (problème de compatibilité avec gcc 4 et avec notre modèle).
+Chaque archtecture est soumise à une charge de travails composée de 15 simulations (Le nombre de simulations est décrit par la combinaison $C_{nb\_benchmarks}^{nb\_threads}$).
+Pour les librairies standard (libc et libm) ainsi que les fonctions bas niveaux (read, write, open, close ...) qu'un système d'exploitation se doit d'offrir, nous utilisons la librairie {\it Newlib}.
+\subSection{Simulation}
+Pour les simulations, nous avons pris 14 instances de notre modèle.
+Elles sont déterminées par le nombre de cluster (A), le nombre d'ULs de chaque cluster (B) et le nombre de contexte de chaque UL (C).
+De plus chaque UL n'a accès qu'a un sous-ensemble distinct d'ALUs.
+Ce nombre définit la taille du groupe (D).
+Nous nommons une instance X$E$\_$A$\_$B$\_$C$-$D$ avec E=A*B*C.
+%Le tableau suivant récapitules toutes les instances que nous avons sélectionnées.
+%
+%\begin{table}[h]
+%\begin{center}
+%\begin{tabular}{ccccc}
+%Nom          & Cluster & UL & Contexte & Taille groupe d'ALUs\\
+%X4-1\_1\_4-8 & 1       & 1  & 4        & 8\\
+%X4-1\_2\_2-8 & 1       & 2  & 2        & 8\\
+%X4-1\_2\_2-4 & 1       & 2  & 2        & 4\\
+%X4-1\_4\_1-8 & 1       & 4  & 1        & 8\\
+%X4-1\_4\_1-2 & 1       & 4  & 1        & 2\\
+%X4-2\_1\_2-8 & 2       & 1  & 2        & 8\\
+%X4-2\_1\_2-4 & 2       & 1  & 2        & 4\\
+%X4-2\_2\_1-8 & 2       & 2  & 1        & 8\\
+%X4-2\_2\_1-4 & 2       & 2  & 1        & 4\\
+%X4-2\_2\_1-2 & 2       & 2  & 1        & 2\\
+%X4-4\_1\_1-8 & 4       & 1  & 1        & 8\\
+%X4-4\_1\_1-4 & 4       & 1  & 1        & 4\\
+%X4-4\_1\_1-2 & 4       & 1  & 1        & 2\\
+%\end{tabular}
+%\end{center}
+% \caption{Instances sélectionnées}
+%\end{table}
+Chaque simulation ce fait sur 110 millions de cycles.
+Les 10 premiers millions sont ignorés afin de chauffer les caches et les unités de prédictions.
+Pour chaque instance, nous prenons le nombre d'instructions exécutées des 15 simulations.
+Ce résultat est comparé à la moyenne des 6 benchmarks exécutés dans la version Single Thread du processeur (exécution séquentielle des 6 benchmarks avec la même instance).
+Nous pouvons remarquer que les instances ne vont pas être comparées avec une instance de référence, mais seront comparées avec l'accéllération de la version MT par rapport à la version ST.
+Ceci à la bonne propriété d'avoir une borne maximale à l'accélération qui est le nombre de thread (ici 4).
+%-------------------------------------------------------------------------
+\Section{Résultat}\label{resultat}
+La simulation nous fournit le graphe \ref{simulation_all}
+\begin{figure}[h]
+  \begin{center}
+    \resizebox{8cm}{!}{
+      \includegraphics{\dirschema/simulation_all}}
+    \label{simulation_all}
+  \end{center}
+\end{figure}
+Première constatation simple : plus on dédit les ressources, plus on approche de l'accélération maximale.
+La version du X4\_4\_1\_1-2 ne partage que les caches de niveau L2, et est donc une version CMP pure, atteint une accélération de 3,92.
+Alors que la version X4-1\_1\_4-8 qui est un SMT pur à une accélération de 1,46.
+En terme de performance, il y a une accélération de 2,7 entre la version CMP et la version SMT.
+Attention dans l'interprétation des résultats, car ici nous ne comparons qu'en terme de performances l'incidence du partage des ressources matérielles.
+Pour que l'étude soit complète, nous devons aussi ajouter l'augmentation de la surface entre la version MT et la version ST.
+Ensuite il faudrait comparer le rapport entre l'augmentation de la performance sur le coût matériel.
+Nous pouvons néanmoins faire une étude abstraite du coût en surface.
+Le rapport de surface entre la version MT et ST de l'instance X4-4\_1\_1-2 est de 4.
+Ceci donne un rapport performance/surface pour la version CMP de degré 4 de 0,98.
+Pour le SMT, nous réutilisons les estimations d'Intel pour le Pentium 4 HT \cite{2003_koufaty}.
+Trois contextes de plus nous amène à 15\% de surface en plus.
+Ce qui donne un rapport de surface entre la version MT et ST de l'instance X4\_1\_1\_4-8 de 1,15.
+Dans ce cas, le rapport performance/surface pour la version SMT de degré 4 nous donne 1,27.
+Ce qui donne l'avantage à une implémentation SMT.
+Pour le partage du cache, nous analyserons les 3 instances suivantes :
+\begin{itemize}
+\item X4-4\_1\_1-2 avec 4 Icaches et Dcaches L1 de 2k chacun et accessible par un seul thread . L'accélération de 3,92.
+\item X4-2\_2\_1-2 avec 2 Icaches et Dcaches L1 de 4k chacun et accessible par deux    threads. L'accélération de 3,63.
+\item X4-1\_4\_1-2 avec 1 Icache  et Dcache  L1 de 8k chacun et accessible par quatre  threads. L'accélération de 3,27.
+\end{itemize}
+Le partage du cache induit des conflits d'accès au port.
+Dans le premier cas, il y a 4 ports d'accès au Icache de largeur de deux instructions.
+Alors que dans le troisième cas, il n'y a qu'un port de largeur de 8 instructions.
+Les paquets de 8 instructions permettent de mieux exploiter l'ILP mais moins le TLP : chaque contexte accède au cache tous les 4 cycles.
+Nous notons aussi que le partage du cache entraîne un effet de bord qui est le pourrissement du contenu du cache par les autres threads.
+Ainsi qu'un allongement du temps de réponses des échecs d'accès au cache du au plus grand nombre de miss et à la plus grande longueur des lignes.
+Le cache, optimisé pour tirer parti de la localité spatiale et temporelle d'un flot d'instructions ou de données se retrouve maintenant confrontés à plusieurs flots.
+Pour le partage de la partie exécutive, nous pouvons observer les instances suivantes :
+\begin{itemize}
+\item X4-2\_2\_1-2 où il y a 4 groupes de 2 ALUs et chacune est accessible par 1 Threads. L'accélération est de 3,63.
+\item X4-2\_2\_1-4 où il y a 2 groupes de 4 ALUs et chacune est accessible par 2 Threads. L'accélération est de 3,41.
+\item X4-2\_2\_1-8 où il y a 1 groupe  de 8 ALUs et         est accessible par 4 Threads. L'accélération est de 3,38.
+\end{itemize}
+Le partage des unités d'exécutions n'influe que légèrement sur les performances.
+Les ressources sont mieux utilisées.
+Or il y a une augmentation de la sensibilité du aux erreurs de routages (envoie vers une ALUs surchargés alors que d'autres ALUs sont en famine).
+Ceci est également du à notre politique de routage actuel qui est un round robin classique.
+Notons que dans le cas où il y aurait plus d'un contexte par coeur, le partage des unités d'exécutions est favorable.
+Par exemple X4-1\_2\_2-8 et X4-1\_2\_2-4 qui ont une accélération de 2,37 alors que les instances X4-2\_1\_2-8 et X4-2\_1\_2-4 ont respectivement une accélération de 2,51 et 2,4.
+Ceci est la conséquece d'une meilleur exploitation du TLP.
+La fenêtre de lancement est mieux utilisé et le réseau de routage à plus d'instructions à sa disposition.
+% Il y a aussi une hétérogénéité des instructions longues.
+Pour le partage opérative, voyons les instances suivantes :
+\begin{itemize}
+\item X4-1\_1\_4-8, 1 cluster  possédant chacun 1 UL  avec 4 contextes chacun. L'accélération est de 1,46.
+\item X4-1\_2\_2-8, 1 cluster  possédant chacun 2 ULs avec 2 contextes chacun. L'accélération est de 2,37.
+\item X4-1\_4\_1-8, 1 cluster  possédant chacun 4 ULs avec 1 contexte  chacun. L'accélération est de 2,94.
+\item X4-2\_1\_2-8, 2 clusters possédant chacun 1 UL  avec 2 contextes chacun. L'accélération est de 2,51.
+\item X4-2\_2\_1-8, 2 clusters possédant chacun 2 ULs avec 1 contexte  chacun. L'accélération est de 3,38.
+\item X4-4\_1\_1-8, 4 clusters possédant chacun 1 UL  avec 1 contexte  chacun. L'accélération est de 3,94.
+\end{itemize}
+Le partage de la partie opérative donne des résultats très disparates et demande une analyse plus poussée des résultats.
+Nous pouvons néanmoins dire qu'il y a une augmentation de la sensibilité des instructions de synchronisation et d'accès aux registres spéciaux (nous imposons qu'avant d'accèder au registre spéciaux, le pipeline doit être vide).
+Il y a également une augmentation des miss de spéculations du au partage du prédicteur de branchement.
+Ceci implique qu'il y a une augmentation des instructions inutiles dans le pipeline.
+Elles représentent 6,12\% des instructions dans X4-1\_1\_4-8, alors qu'elles ne représentent que 2,17\% dans l'instance X4-4\_1\_1-8.
+Ceci est aussi du à la largeur du pipeline et donc à la sous exploitation de L'ILP.
+Lors du décodage, nous choisissons de manière round robin la fetch queue contenant un paquet.
+Dans l'instance X4-4\_1\_1-8, 4 décodeurs décodent chacun en moyenne 1,63 instructions sur des paquets de 2 instructions (soit un total de 6,52 instructions), alors que dans l'instance X4-1\_1\_4-8, 1 décodeur prend un paquet de 8 instructions et décode en moyenne 3,7 instructions.
+La cause venant à des paquets d'instructions devant être alignés et à la présence de branchements.
+%-------------------------------------------------------------------------
+\Section{Conclusion}
+Cette étude à démontrer un fait déjà acquis, que l'accélération entre la version MT et la version ST d'un processeur diminue avec l'augmentation du partage des ressources.
+Notre modèle de processeur étant encore en cours de développement, nous nous destinons à fournir un modèle VHDL synthétisable.
+Ainsi la prochaine étude portera sur le coût surfacique du partage des ressources matérielles et ainsi déterminer quel degré de partage apporte le meilleur rapport performance/surface.
 \bibliography{\dircommon/bibliographie}

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Documents/presentation-internal_seminary_overview/fr/root.tex

-                      r17
+                      r23
 \section{Besoins}
+\section{Motivations}
 \ContentsCurrent
+\slidetitle{Besoins}
+           {Besoins pour les processeurs embarquées :
+             \begin{itemize}
+             \item Maîtrise du système
+             \item Souplesse
+             \item Performance
+             \end{itemize}
+           }
+\slidetitle{Motivations}
+           {
+             Où : téléphone portable, baladeur mp3/vidéo, automobile ...
+             Sécurité du hardware :
              \begin{description}
+             \item[Maitrise du système :] Les processeurs généralistes sont utilisés dans un vaste échantillon d'application. Ceci touche également la sécurité.
+             \item[Souplesse           :] Pour un concepteur de système embarqués : bien dimensionner son système
+             \item[Performance         :] Application cible de plus en plus gourmande en ressources : beaucoup de threads avec des impératifs de rapidité.
+             \end{description}
+           }
+\subsection{Maîtrise du système}
+\slidetitle{Besoin de la Maîtrise du système}
+           {
+             {\bf Plate-forme de confiance totale}
+             \begin{itemize}
+             \item Projet Open
+             \item ISA Open
+             \item Instructions customisables
+             \end{itemize}
+           }
+           {
+             Morpheo s'inscrit dans le cadre du projet plate-forme de confiance totale.
+             Instructions customisables : possibilité à l'utilisateur de rajouter de nouvelles instructions. Comme par exemple pour le chiffrement ou le déchiffrement ...
+%            On doit supposer que la mémoire d'instruction et de donnée ce trouve en milieu accéssible par les pirates. Leur chiffrement en devient obligatoire.
+%
+%            En hard dans le proc? cache? interconnect? I/O?
+           }
+\subsection{Souplesse}
+\slidetitle{Besoin de Souplesse}
+           {
+             {\bf Adapation aux besoins des concepteurs}
+             \begin{itemize}
+             \item Processeur hautement paramètrables
+             \item Ressources internes hétérogènes
+             \item FPGA
+             \end{itemize}
+           }
+           {
+             Souplesse : s'adapter aux besoins des concepteur de SoC.
+             \begin{description}
+             \item[Paramètrables :] Fournir un grand jeu de paramètres afin de satisfaire les contraintes du concepteur
+             \item[Hétérogènes :] En découle des paramètres
+             \item[FPGA :] Cible de + en + utilisé, Si mappage possible sur les ressources limités d'un FPGA, alors possible également sur un ASIC
+             \end{description}
+           }
+\subsection{Performance}
+\slidetitle{Besoin de Performance (1) - ILP vs TLP}
+           {
+             {\bf Exploitation des différentes formes de parallélisme}
+             Paquet d'instruction pouvant s'éxecuter en parallèle :
+             \begin{itemize}
+             \item {\it Intra flot} : exploitation de l'ILP\newline limitation intrasèque au soft (3-5 instructions)
+             \item {\it Inter flot} : exploitation du TLP  \newline limitation intrasèque au système cible
+             \end{itemize}
+           }
+           {
+             \begin{itemize}
+             \item ILP : superscalaire, OutOfOrder, Spéculation
+             \item TLP : CMP, SMT
+             \end{itemize}
+           }
+\slidetitle{Besoin de Performance (2) - CMP vs SMT}
+           {
+             \printgraph{GENERAL_type_of_multi_thread}{0.5}
+%            (schéma)
+%
+%            Comparaison théorique de 5 types d'architectures :
+%            ||Mono Coeur           ||Mono Contexte           ||Largeur infini||Idéal       ||
+%            ||Mono Coeur           ||Mono Contexte           ||Largeur 4     ||Monolithique||
+%            ||Multi Coeur d'ordre 4||Mono Contexte           ||Largeur 1     ||CMP         ||
+%            ||Mono Coeur           ||Multi Contexte d'ordre 4||Largeur 4     ||SMT         ||
+%            ||Multi coeur d'ordre 2||Multi Contexte d'ordre 2||Largeur 2     ||CMP de SMT  ||
+           }
+           {
+             \begin{itemize}
+             \item A et B : 17 instructions en 7 UT idéale
+             \item (1) : 14 UT
+             \item (2) : 17 UT, 34 slot vide, occupation 50\%
+             \item (3) : 12 UT, 14 slot vide, occupation 70\%
+             \item (4) : 11 UT, 10 slot vide, occupation 77\%
+             \end{itemize}
+           }
+\slidetitle{Besoin de Performance (3) - Entre le CMP et le SMT}
+           {
+             \begin{description}
+             \item[CMP :] L'intégralité des ressources d'un coeur sont dédiées   à un contexte.
+             \item[SMT :] L'intégralité des ressources d'un coeur sont partagées entre tous les contextes.
+             \item[Hybride :] Multitude de possibilité de partage des ressources internes.\\
+               Une ressource est soit dédiée à un contexte soit partagée entre un certain nombre de contextes.
+             \item[Ancienne tendance :] IPs (Intellectual Propritie) fermées labelisés sécuritaires.
+             \item[Nouvelle tendance :] Ouverture des IPs, intégration de System On Chip (SOC)
              \end{description}
+           }
+           {
              Définir ce qu'est une ressource : ALU, predicteur de branchement, cache ...
+           }
+\section{Solution}
+\ContentsCurrent
+\subsection{Initiatives actuelles}
+\slidetitle{Initiatives actuelles}
+           {
+             Tous les processeurs sont des RISC scalaires.
+             \begin{description}
+             \item[OpenRISC 1200 :] 32 bits, 5 étages. Jusqu'à 8 contextes.
+             \item[Leon 2        :] 32 bits, 5 étages.
+             \item[Leon 3        :] Leon 2 en 7 étages.
+             \item[OpenSparcS1   :] 1 coeur 64bits, 6 étages et CMT 4.
+             \item[OpenSparcT1   :] OpenSparcS1 avec 8 coeurs. Version OpenSource du Niagara.
+             \item[Micro32       :] 32 bits, 6 étages.
+             \item[OpenFire      :] 32 bits, 3 étages. Dérivés du MicroBlaze
+             \item[aeMB          :] 32 bits, 3 étages. Dérivés du MicroBlaze
+             \end{description}
+           }
+           {
+             \begin{description}
+             \item[OpenRISC 1200 :] Présence icache, dcache, immu, dmmu. Taille des caches, des opérandes, du banc de registres. Matériel spécifique : div, rotate, mul, mac.
+             \item[Leon 2 et 3   :] Présence de div, mul, mac, floating point. Taille du banc de registres . Nombre de load delai. Configuration avancé du cache et de la MMU (fetch, decod, execute, memory, write) (fetch, decod, register access, execute, memory, exception, write)
+             \item[OpenSparc     :] Présence de la Stream Processing Unit (cryptographie), 1 seul thread par coeur.
+             \item[Micro32       :] Présence icache, dcache, debug. Taille des caches. Matériel spécifique : div, rotate, mul pipeline, extension de signes.
+             \item[OpenFire      :] 3 étages (Fetch, Decod, Execute). Faiblement configurable (largeur des données, espace d'addressage, presence de mul et de cmp). Aucun support de caches
+             \item[aeMB          :] 3 étages (Fetch, Decod, Execute). Support de caches. Pas configurable (Juste la largeur de l'espace d'addressage)
+             \end{description}
+           }
+\slide     {
+             \printgraph{GENERAL_Art_of_State-Comparaison}{0.8}
+           }
+           {
+           }
+\subsection{Solution proposée}
+\slidetitle{Solution proposée}
+           {
+             \begin{itemize}
+             \item Partir d'une micro-architecture HighPerf.
+             \item Ajout de la gestion du multi-thread.
+             \item Rendre paramétrable les ressources internes.
+             \item Mappage des instances de ce générateur de processeur sur les ressources limitées d'un FPGA.
+             \end{itemize}
+           }
+           {
+             Pentium 4, MipsR10000, Power5
+           }
+\subsection{Métrique}
+\slidetitle{Métrique}
+           {
+             \begin{itemize}
+             \item Obtenir le meilleur compromis Performance / Complexité.
+               \begin{itemize}
+               \item Performance : nombre de cycles nécessaire pour éxecuter les Benchmarks.
+               \item Compléxité  : surface occupée du FPGA.
+               \end{itemize}
+             \item Obtenir le meilleur partage des ressources entre les contextes matériels. (Gain Performance / Coût surface).
+               \begin{itemize}
+               \item Gain en performance : rapport entre la performance MT sur la performance ST.
+               \item Coût en surface     : rapport entre la surface     MT sur la surface     ST.
+               \end{itemize}
+             \end{itemize}
+           }
+           {
+             benchmark : SPECINT2k, Dhrystone
+             FPGA : virtex5LX 330
+           }
+\section{Morpheo}
+\ContentsCurrent
+\subsection{Micro Architecture}
+\slidetitle{Micro Architecture : Overview}
+           {
+             \printgraph{MORPHEO_micro_architecture-overview}{0.48}
+           }
+           {
+grandes parties :
+             \begin{description}
+             \item[Front end :] Amène des paquets d'instructions en séquence, et les décodes. Calcules les addresses suivantes (spéculation) et maintiens l'état des threads (idle, wait, run ...)
+             \item[Out Of Order Engine :] Renome les registres (annulations des dépendances RAW, WAW et WAR). Re Order Buffer : mettre à jour l'état du contexte dans l'ordre d'arrivé des threads.
+             \item[Execution Loop :] Boucle ``Read, execute, Write''. Ainsi que les bypass. Instructions peuvent ce lancer dans le désordres.
+             \end{description}
+           }
+\slidetitle{Micro Architecture : Front end}
+           {
+             \printgraph{MORPHEO_micro_architecture-front_end}{0.7}
+           }
+           {
+           }
+\slidetitle{Micro Architecture : Out Of Order Engine}
+           {
+             \printgraph{MORPHEO_micro_architecture-out_of_order_engine}{0.7}
+           }
+           {
+           }
+\slidetitle{Micro Architecture : Execution Loop}
+           {
+             \printgraph{MORPHEO_micro_architecture-execute_loop}{0.7}
+           }
+           {
+           }
+\subsection{Méthodologie}
+\slidetitle{Service proposé}
+           {
+             \printgraph{MORPHEO_service}{0.75}
+           }
+           {
+             libMorpheo :
+             \begin{itemize}
+             \item Simulation systemC
+               \begin{itemize}
+               \item TestBench Vhdl
+               \item Statistiques lors de la simulation
+               \end{itemize}
+             \item Vhdl : synthétisable sur FPGA
+             \item Positions: Point d'entrée d'un outil de visualisation architectural (Stage M1)
+             \end{itemize}
+           }
+\slidetitle{Méthodologie - Boucle d'Iteration}
+           {
+             \printgraph{MORPHEO_methodologie}{0.3}
+           }
+           {
+             \begin{enumerate}
+             \item SystemC
+               \begin{enumerate}
+               \item Ecriture du modèle systemC
+               \item Ecriture d'un TestBench pour le systemc - goto 1.1
+               \end{enumerate}
+             \item VHDL
+               \begin{enumerate}
+               \item Ecriture du vhdl
+               \item Validation de la stricte compatibilité entre le systemC et le Vhdl - goto 2.1 ou 1.1
+               \end{enumerate}
+             \item FPGA
+               \begin{enumerate}
+               \item Synthèse sur FPGA - goto 2.1, 1.1
+               \item Mappage sur FPGA
+               \end{enumerate}
+             \end{enumerate}
+           }
+\subsection{Perspective}
+\slidetitle{Comment remplir nos journées?}
+           {
+             Il "reste" à faire ...
+           }
+           {
+           }
+%\section{Besoins}
+%
+%\ContentsCurrent
+%
+%\slidetitle{Besoins}
+%          {Besoins pour les processeurs embarquées :
+%
+%            \begin{itemize}
+%            \item Maîtrise du système
+%            \item Souplesse
+%            \item Performance
+%            \end{itemize}
+%          }
+%          {
+%            Où : téléphone portable, baladeur mp3/vidéo, automobile ...
+%
+%            \begin{description}
+%            \item[Maitrise du système :] Les processeurs généralistes sont utilisés dans un vaste échantillon d'application. Ceci touche également la sécurité.
+%            \item[Souplesse           :] Pour un concepteur de système embarqués : bien dimensionner son système
+%            \item[Performance         :] Application cible de plus en plus gourmande en ressources : beaucoup de threads avec des impératifs de rapidité.
+%            \end{description}
+%          }
+%
+%\subsection{Maîtrise du système}
+%\slidetitle{Besoin de la Maîtrise du système}
+%          {
+%            {\bf Plate-forme de confiance totale}
+%
+%            \begin{itemize}
+%            \item Projet Open
+%            \item ISA Open
+%            \item Instructions customisables
+%            \end{itemize}
+%          }
+%          {
+%            Morpheo s'inscrit dans le cadre du projet plate-forme de confiance totale.
+%
+%            Instructions customisables : possibilité à l'utilisateur de rajouter de nouvelles instructions. Comme par exemple pour le chiffrement ou le déchiffrement ...
+%%           On doit supposer que la mémoire d'instruction et de donnée ce trouve en milieu accéssible par les pirates. Leur chiffrement en devient obligatoire.
+%%
+%%           En hard dans le proc? cache? interconnect? I/O?
+%          }
+%
+%
+%\subsection{Souplesse}
+%\slidetitle{Besoin de Souplesse}
+%          {
+%            {\bf Adapation aux besoins des concepteurs}
+%
+%            \begin{itemize}
+%            \item Processeur hautement paramètrables
+%            \item Ressources internes hétérogènes
+%            \item FPGA
+%            \end{itemize}
+%          }
+%          {
+%            Souplesse : s'adapter aux besoins des concepteur de SoC.
+%
+%            \begin{description}
+%            \item[Paramètrables :] Fournir un grand jeu de paramètres afin de satisfaire les contraintes du concepteur
+%            \item[Hétérogènes :] En découle des paramètres
+%            \item[FPGA :] Cible de + en + utilisé, Si mappage possible sur les ressources limités d'un FPGA, alors possible également sur un ASIC
+%            \end{description}
+%          }
+%
+%\subsection{Performance}
+%\slidetitle{Besoin de Performance (1) - ILP vs TLP}
+%          {
+%            {\bf Exploitation des différentes formes de parallélisme}
+%
+%            Paquet d'instruction pouvant s'éxecuter en parallèle :
+%            \begin{itemize}
+%            \item {\it Intra flot} : exploitation de l'ILP\newline limitation intrasèque au soft (3-5 instructions)
+%            \item {\it Inter flot} : exploitation du TLP  \newline limitation intrasèque au système cible
+%            \end{itemize}
+%          }
+%          {
+%            \begin{itemize}
+%            \item ILP : superscalaire, OutOfOrder, Spéculation
+%            \item TLP : CMP, SMT
+%            \end{itemize}
+%          }
+%
+%\slidetitle{Besoin de Performance (2) - CMP vs SMT}
+%          {
+%            \printgraph{GENERAL_type_of_multi_thread}{0.5}
+%
+%%           (schéma)
+%%
+%%           Comparaison théorique de 5 types d'architectures :
+%%           ||Mono Coeur           ||Mono Contexte           ||Largeur infini||Idéal       ||
+%%           ||Mono Coeur           ||Mono Contexte           ||Largeur 4     ||Monolithique||
+%%           ||Multi Coeur d'ordre 4||Mono Contexte           ||Largeur 1     ||CMP         ||
+%%           ||Mono Coeur           ||Multi Contexte d'ordre 4||Largeur 4     ||SMT         ||
+%%           ||Multi coeur d'ordre 2||Multi Contexte d'ordre 2||Largeur 2     ||CMP de SMT  ||
+%          }
+%          {
+%            \begin{itemize}
+%            \item A et B : 17 instructions en 7 UT idéale
+%            \item (1) : 14 UT
+%            \item (2) : 17 UT, 34 slot vide, occupation 50\%
+%            \item (3) : 12 UT, 14 slot vide, occupation 70\%
+%            \item (4) : 11 UT, 10 slot vide, occupation 77\%
+%            \end{itemize}
+%          }
+%\slidetitle{Besoin de Performance (3) - Entre le CMP et le SMT}
+%          {
+%            \begin{description}
+%            \item[CMP :] L'intégralité des ressources d'un coeur sont dédiées   à un contexte.
+%            \item[SMT :] L'intégralité des ressources d'un coeur sont partagées entre tous les contextes.
+%            \item[Hybride :] Multitude de possibilité de partage des ressources internes.\\
+%              Une ressource est soit dédiée à un contexte soit partagée entre un certain nombre de contextes.
+%            \end{description}
+%          }
+%          {
+%            Définir ce qu'est une ressource : ALU, predicteur de branchement, cache ...
+%          }
+%
+%
+%\section{Solution}
+%\ContentsCurrent
+%\subsection{Initiatives actuelles}
+%\slidetitle{Initiatives actuelles}
+%          {
+%            Tous les processeurs sont des RISC scalaires.
+%
+%            \begin{description}
+%            \item[OpenRISC 1200 :] 32 bits, 5 étages. Jusqu'à 8 contextes.
+%            \item[Leon 2        :] 32 bits, 5 étages.
+%            \item[Leon 3        :] Leon 2 en 7 étages.
+%            \item[OpenSparcS1   :] 1 coeur 64bits, 6 étages et CMT 4.
+%            \item[OpenSparcT1   :] OpenSparcS1 avec 8 coeurs. Version OpenSource du Niagara.
+%            \item[Micro32       :] 32 bits, 6 étages.
+%            \item[OpenFire      :] 32 bits, 3 étages. Dérivés du MicroBlaze
+%            \item[aeMB          :] 32 bits, 3 étages. Dérivés du MicroBlaze
+%            \end{description}
+%          }
+%          {
+%            \begin{description}
+%            \item[OpenRISC 1200 :] Présence icache, dcache, immu, dmmu. Taille des caches, des opérandes, du banc de registres. Matériel spécifique : div, rotate, mul, mac.
+%            \item[Leon 2 et 3   :] Présence de div, mul, mac, floating point. Taille du banc de registres . Nombre de load delai. Configuration avancé du cache et de la MMU (fetch, decod, execute, memory, write) (fetch, decod, register access, execute, memory, exception, write)
+%            \item[OpenSparc     :] Présence de la Stream Processing Unit (cryptographie), 1 seul thread par coeur.
+%            \item[Micro32       :] Présence icache, dcache, debug. Taille des caches. Matériel spécifique : div, rotate, mul pipeline, extension de signes.
+%            \item[OpenFire      :] 3 étages (Fetch, Decod, Execute). Faiblement configurable (largeur des données, espace d'addressage, presence de mul et de cmp). Aucun support de caches
+%            \item[aeMB          :] 3 étages (Fetch, Decod, Execute). Support de caches. Pas configurable (Juste la largeur de l'espace d'addressage)
+%            \end{description}
+%          }
+%
+%\slide     {
+%            \printgraph{GENERAL_Art_of_State-Comparaison}{0.8}
+%          }
+%          {
+%          }
+%\subsection{Solution proposée}
+%\slidetitle{Solution proposée}
+%          {
+%            \begin{itemize}
+%            \item Partir d'une micro-architecture HighPerf.
+%            \item Ajout de la gestion du multi-thread.
+%            \item Rendre paramétrable les ressources internes.
+%            \item Mappage des instances de ce générateur de processeur sur les ressources limitées d'un FPGA.
+%            \end{itemize}
+%          }
+%          {
+%            Pentium 4, MipsR10000, Power5
+%          }
+%
+%\subsection{Métrique}
+%\slidetitle{Métrique}
+%          {
+%            \begin{itemize}
+%            \item Obtenir le meilleur compromis Performance / Complexité.
+%              \begin{itemize}
+%              \item Performance : nombre de cycles nécessaire pour éxecuter les Benchmarks.
+%              \item Compléxité  : surface occupée du FPGA.
+%              \end{itemize}
+%            \item Obtenir le meilleur partage des ressources entre les contextes matériels. (Gain Performance / Coût surface).
+%              \begin{itemize}
+%              \item Gain en performance : rapport entre la performance MT sur la performance ST.
+%              \item Coût en surface     : rapport entre la surface     MT sur la surface     ST.
+%              \end{itemize}
+%            \end{itemize}
+%          }
+%          {
+%            benchmark : SPECINT2k, Dhrystone
+%
+%            FPGA : virtex5LX 330
+%          }
+%
+%\section{Morpheo}
+%\ContentsCurrent
+%
+%\subsection{Micro Architecture}
+%\slidetitle{Micro Architecture : Overview}
+%          {
+%            \printgraph{MORPHEO_micro_architecture-overview}{0.48}
+%          }
+%          {
+%            3 grandes parties :
+%            \begin{description}
+%            \item[Front end :] Amène des paquets d'instructions en séquence, et les décodes. Calcules les addresses suivantes (spéculation) et maintiens l'état des threads (idle, wait, run ...)
+%            \item[Out Of Order Engine :] Renome les registres (annulations des dépendances RAW, WAW et WAR). Re Order Buffer : mettre à jour l'état du contexte dans l'ordre d'arrivé des threads.
+%            \item[Execution Loop :] Boucle ``Read, execute, Write''. Ainsi que les bypass. Instructions peuvent ce lancer dans le désordres.
+%            \end{description}
+%          }
+%
+%\slidetitle{Micro Architecture : Front end}
+%          {
+%            \printgraph{MORPHEO_micro_architecture-front_end}{0.7}
+%          }
+%          {
+%          }
+%
+%\slidetitle{Micro Architecture : Out Of Order Engine}
+%          {
+%            \printgraph{MORPHEO_micro_architecture-out_of_order_engine}{0.7}
+%          }
+%          {
+%          }
+%
+%\slidetitle{Micro Architecture : Execution Loop}
+%          {
+%            \printgraph{MORPHEO_micro_architecture-execute_loop}{0.7}
+%          }
+%          {
+%          }
+%
+%\subsection{Méthodologie}
+%\slidetitle{Service proposé}
+%          {
+%            \printgraph{MORPHEO_service}{0.75}
+%          }
+%          {
+%            libMorpheo :
+%            \begin{itemize}
+%            \item Simulation systemC
+%              \begin{itemize}
+%              \item TestBench Vhdl
+%              \item Statistiques lors de la simulation
+%              \end{itemize}
+%            \item Vhdl : synthétisable sur FPGA
+%            \item Positions: Point d'entrée d'un outil de visualisation architectural (Stage M1)
+%            \end{itemize}
+%          }
+%
+%\slidetitle{Méthodologie - Boucle d'Iteration}
+%          {
+%            \printgraph{MORPHEO_methodologie}{0.3}
+%          }
+%          {
+%            \begin{enumerate}
+%            \item SystemC
+%              \begin{enumerate}
+%              \item Ecriture du modèle systemC
+%              \item Ecriture d'un TestBench pour le systemc - goto 1.1
+%              \end{enumerate}
+%            \item VHDL
+%              \begin{enumerate}
+%              \item Ecriture du vhdl
+%              \item Validation de la stricte compatibilité entre le systemC et le Vhdl - goto 2.1 ou 1.1
+%              \end{enumerate}
+%            \item FPGA
+%              \begin{enumerate}
+%              \item Synthèse sur FPGA - goto 2.1, 1.1
+%              \item Mappage sur FPGA
+%              \end{enumerate}
+%            \end{enumerate}
+%          }
+%
+%\subsection{Perspective}
+%\slidetitle{Comment remplir nos journées?}
+%          {
+%            Il "reste" à faire ...
+%          }
+%          {
+%          }
 \slide{}{}

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Graph/simulation_all.dat

-                      r16
+                      r23
+.46 # x04_w08-01_e08-01
+.37 # x04_w08-04_e08-01
+.37 # x04_w08-04_e08-07
+.94 # x04_w08-07_e08-01
+.27 # x04_w08-07_e08-15
+.51 # x04_w08-08_e08-01
+.4  # x04_w08-08_e08-07
+.38 # x04_w08-11_e08-01
+.64 # x04_w08-11_e08-07a
+.41 # x04_w08-11_e08-07b
+.63 # x04_w08-11_e08-15
+.94 # x04_w08-15_e08-01
+.88 # x04_w08-15_e08-07
+.92 # x04_w08-15_e08-15
+.46 # x04_w08-01_e08-01  X4-1_1_4-8
+.37 # x04_w08-04_e08-01  X4-1_2_2-8
+.37 # x04_w08-04_e08-07  X4-1_2_2-4
+.94 # x04_w08-07_e08-01  X4-1_4_1-8
+.27 # x04_w08-07_e08-15  X4-1_4_1-2
+.51 # x04_w08-08_e08-01  X4-2_1_2-8
+.4  # x04_w08-08_e08-07  X4-2_1_2-4
+.38 # x04_w08-11_e08-01  X4-2_2_1-8
+.41 # x04_w08-11_e08-07b X4-2_2_1-4
+.63 # x04_w08-11_e08-15  X4-2_2_1-2
+.94 # x04_w08-15_e08-01  X4-4_1_1-8
+.88 # x04_w08-15_e08-07  X4-4_1_1-4
+.92 # x04_w08-15_e08-15  X4-4_1_1-2

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Graph/simulation_all.p

-                      r16
+                      r23
 set yrange [0:4]
+set xtics rotate by -25 ('x04\_w08-01\_e08-01 '  0 , \
+                         'x04\_w08-04\_e08-01 '  1 , \
+                         'x04\_w08-04\_e08-07 '  2 , \
+                         'x04\_w08-07\_e08-01 '  3 , \
+                         'x04\_w08-07\_e08-15 '  4 , \
+                         'x04\_w08-08\_e08-01 '  5 , \
+                         'x04\_w08-08\_e08-07 '  6 , \
+                         'x04\_w08-11\_e08-01 '  7 , \
+                         'x04\_w08-11\_e08-07a'  8 , \
+                         'x04\_w08-11\_e08-07b'  9 , \
+                         'x04\_w08-11\_e08-15 '  10, \
+                         'x04\_w08-15\_e08-01 '  11, \
+                         'x04\_w08-15\_e08-07 '  12, \
+                         'x04\_w08-15\_e08-15 '  13  \
+                         )
+set xtics rotate by -25 ('X4-1_1_4-8'  0 , \
+                         'X4-1_2_2-8'  1 , \
+                         'X4-1_2_2-4'  2 , \
+                         'X4-1_4_1-8'  3 , \
+                         'X4-1_4_1-2'  4 , \
+                         'X4-2_1_2-8'  5 , \
+                         'X4-2_1_2-4'  6 , \
+                         'X4-2_2_1-8'  7 , \
+                         'X4-2_2_1-4'  8 , \
+                         'X4-2_2_1-2'  9 , \
+                         'X4-4_1_1-8'  10, \
+                         'X4-4_1_1-4'  11, \
+                         'X4-4_1_1-2'  12  )
 plot "simulation_all.dat" notitle

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Makefile

-                      r17
+                      r23
 #--------------------------------------------------------------------------------
 TYPE_DOC                = ("doc" "ppt")
+TYPE_DOC                = ("doc" "ppt" "poster")
 DEFAULT_LANG            = fr
 …
 DIR_SCHEMA_JPG          = Schema_jpg
 DIR_TEX                 = Source
+#--------------------------------------------------------------------------------
+# Directory
+#--------------------------------------------------------------------------------
+ENV_LATEX               = $(EXPORT) TEXINPUTS=$(DIR_INCLUDE):$$TEXINPUTS
+LATEX_WITH_ENV          = $(ENV_LATEX); $(LATEX)
 #--------------------------------------------------------------------------------
 …
                         @$(ECHO) "Génération du fichier $*.dvi"
                         @#touch $(patsubst %.tex,%.ind,$<)
                         @$(LATEX) $<
                         @$(LATEX) $< > /dev/null
+                        @$(LATEX_WITH_ENV) $<
+                        @$(LATEX_WITH_ENV) $< > /dev/null
                         @#$(MAKEINDEX) $(patsubst %.tex,%.idx,$<)
                         @citation=`$(GREP) "citation" $*.aux`; \
 …
                           $(BIBTEX) $* ; \
                         fi
                         @$(LATEX) $< > /dev/null
                         @$(LATEX) $< > /dev/null
+                        @$(LATEX_WITH_ENV) $< > /dev/null
+                        @$(LATEX_WITH_ENV) $< > /dev/null
 #--------------------------------------------------------------------------------

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Package/presentation-internal_seminary_overview.sty

-                      r17
+                      r23
 %\def\review{\number\day/\number\month/\number\year\xspace}
 \title{Séminaire interne :\newline Processeur libre, haute performance et hautement paramètrable}
+\title{Séminaire interne :\newline Processeur libre, haute performance et paramètrable}
 \institute{Equipe SOC - Laboratoire d'information de Paris VI - France}
+\institute{Département SOC - Laboratoire d'information de Paris VI - France}
 \author{Mathieu Rosière}

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Schema/MORPHEO_micro_architecture-execute_loop.fig

-                      r17
+                      r23
 #FIG 3.2  Produced by xfig version 3.2.5-alpha5
+#FIG 3.2
 Landscape
 Center
 …
 1 0 50 -1 -1 10 0.0000 4 105 510 7920 6030 memory\001
 1 0 50 -1 -1 10 0.0000 4 105 255 7920 5895 read\001
 1 0 50 -1 -1 10 0.0000 4 120 345 7920 6165 queue\001
+1 0 50 -1 -1 10 0.0000 4 105 345 7920 6165 queue\001
 -6
 10260 6390 10980 6840
 …
 6840 7560 6840 7560 6390 8280 6390 8280 6840
 1 0 50 -1 -1 10 0.0000 4 105 255 7920 6570 read\001
 1 0 50 -1 -1 10 0.0000 4 120 345 7920 6750 queue\001
+1 0 50 -1 -1 10 0.0000 4 105 345 7920 6750 queue\001
 -6
 8640 6390 9360 6840
 …
 1 0 50 -1 -1 10 0.0000 4 105 690 9000 6570 reservation\001
 1 0 50 -1 -1 10 0.0000 4 105 435 9000 6750 station\001
--6
-7380 7200 13860 7920
-2 2 1 0 7 50 -1 -1 3.000 0 0 -1 0 0 5
-7200 13860 7200 13860 7920 7380 7920 7380 7200
-4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
-7740 13680 7380 7560 7380 7560 7740 13680 7740
-1 0 50 -1 -1 10 0.0000 4 135 480 10620 7605 register\001
 -6
 2 2 1 0 7 50 -1 -1 3.000 0 0 -1 0 0 5
 …
 0 1.00 60.00 120.00
 5760 10620 5130
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+7740 13680 7380 7560 7380 7560 7740 13680 7740
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+8280 13680 7920 7560 7920 7560 8280 13680 8280
+2 2 1 0 7 50 -1 -1 3.000 0 0 -1 0 0 5
+7200 13860 7200 13860 8460 7380 8460 7380 7200
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+7335 12780 7920
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+7380 8505 7920
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+7380 8415 7920
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 1 2
+0 1.00 60.00 120.00
+0 1.00 60.00 120.00
+8100 7200 8100
 1 0 50 -1 -1 10 1.5708 4 105 360 9945 6615 select\001
 1 0 50 -1 -1 10 1.5708 4 105 360 11385 6300 select\001
 1 0 50 -1 -1 10 0.0000 4 120 345 12240 6435 queue\001
+1 0 50 -1 -1 10 0.0000 4 105 345 12240 6435 queue\001
 1 0 50 -1 -1 10 0.0000 4 105 345 12240 6255 write\001
 1 0 50 -1 -1 10 0.0000 4 90 465 13320 6255 execute\001
 1 0 50 -1 -1 10 0.0000 4 120 345 13320 6435 queue\001
 0 0 50 -1 -1 10 0.0000 4 150 405 8820 5355 bypass\001
+1 0 50 -1 -1 10 0.0000 4 105 345 13320 6435 queue\001
+0 0 50 -1 -1 10 0.0000 4 135 405 8820 5355 bypass\001
 1 0 50 -1 -1 10 0.0000 4 105 420 10620 5085 Dcache\001
 2 0 50 -1 -1 10 0.0000 4 90 465 13995 6660 execute\001
 0 0 50 -1 -1 10 0.0000 4 75 435 7245 6345 rename\001
+1 0 50 -1 -1 10 0.0000 4 135 480 10620 7605 register\001
+1 0 50 -1 -1 10 0.0000 4 105 630 10620 8145 status list\001
+0 0 50 -1 -1 10 0.0000 4 150 855 7290 8415 register_state\001

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Schema/MORPHEO_micro_architecture-out_of_order_engine.fig

-                      r17
+                      r23
 #FIG 3.2  Produced by xfig version 3.2.5-alpha5
+#FIG 3.2
 Landscape
 Center
 …
 -2
 2
-4590 5400 5310 5850
-4 0 1 0 11 50 -1 20 4.000 0 0 7 0 0 5
-5850 4590 5850 4590 5400 5310 5400 5310 5850
-1 0 50 -1 -1 10 0.0000 4 105 315 4950 5670 RAT\001
--6
 7020 3600 7740 4050
 7020 3600 7740 4050
 …
 1 0 50 -1 -1 10 0.0000 4 105 315 7380 3150 State\001
 -6
+6210 5985 6930 6435
+5130 5400 5850 5850
+4 0 1 0 11 50 -1 20 4.000 0 0 7 0 0 5
+5850 5130 5850 5130 5400 5850 5400 5850 5850
+1 0 50 -1 -1 10 0.0000 4 105 315 5490 5670 RAT\001
+-6
+6750 5985 7470 6435
 4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
 6435 6210 6435 6210 5985 6930 5985 6930 6435
 1 0 50 -1 -1 10 0.0000 4 105 375 6570 6345 RAW\001
 1 0 50 -1 -1 10 0.0000 4 105 375 6570 6165 Check\001
+6435 6750 6435 6750 5985 7470 5985 7470 6435
+1 0 50 -1 -1 10 0.0000 4 105 375 7110 6345 RAW\001
+1 0 50 -1 -1 10 0.0000 4 105 375 7110 6165 Check\001
 -6
 3 0 1 0 7 50 -1 0 3.000 1 0.0000 7652 5222 30 30 7652 5222 7682 5218
+1 0 1 0 7 50 -1 -1 4.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+6210 6210 6210
+4 0 1 0 11 50 -1 20 4.000 0 0 7 0 0 5
+5040 4590 5040 4590 4590 5310 4590 5310 5040
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+5850 5670 5850 5670 5400 6390 5400 6390 5850
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+5850 6750 5850 6750 5400 7470 5400 7470 5850
+3 0 1 0 7 50 -1 0 3.000 1 0.0000 7665 5764 30 30 7665 5764 7695 5760
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
 0 1.00 60.00 120.00
+5850 4950 6210
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+6210 7830 6210
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+6210 7110 5850
+6210 7830 6210
 4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
 6435 7830 6435 7830 5985 8550 5985 8550 6435
 …
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
 0 1.00 60.00 120.00
-5625 6390 5625
-1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
-0 1.00 60.00 120.00
-4050 7110 5400
-1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
-0 1.00 60.00 120.00
-4815 5310 4815
-1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
-0 1.00 60.00 120.00
 3825 7740 3825
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
 0 1.00 60.00 120.00
-4320 4230 4320
-1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
-0 1.00 60.00 120.00
 6210 7650 4050
-2 2 1 0 7 50 -1 -1 3.000 0 0 7 0 0 5
-6570 4410 6570 4410 4410 8730 4410 8730 6570
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 1 2
 0 1.00 60.00 120.00
 …
 1 0 1 0 7 50 -1 -1 3.000 0 0 -1 1 0 3
 0 1.00 60.00 120.00
+5220 5130 5220 5130 5400
+5220 5670 5220 5670 5400
+1 0 1 0 7 50 -1 -1 4.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+6210 6750 6210
+4 0 1 0 11 50 -1 20 4.000 0 0 7 0 0 5
+5040 5130 5040 5130 4590 5850 4590 5850 5040
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+5850 6210 5850 6210 5400 6930 5400 6930 5850
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
 0 1.00 60.00 120.00
 5040 4770 5400
+5850 5490 6210
 1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
 0 1.00 60.00 120.00
+5850 6030 6210
+1 0 50 -1 -1 10 0.0000 4 105 315 4950 4770 RAT\001
+1 0 50 -1 -1 10 0.0000 4 150 450 4950 4950 Update\001
+1 0 50 -1 -1 10 0.0000 4 105 270 6030 5580 Free\001
+1 0 50 -1 -1 10 0.0000 4 105 255 6030 5805 List\001
+1 0 50 -1 -1 10 0.0000 4 105 390 7110 5580 Status\001
+1 0 50 -1 -1 10 0.0000 4 105 255 7110 5775 List\001
+4320 4770 4320
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+5040 5310 5400
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+5850 6570 6210
+2 2 1 0 7 50 -1 -1 3.000 0 0 7 0 0 5
+6570 4950 6570 4950 4410 8730 4410 8730 6570
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 3
+0 1.00 60.00 120.00
+4050 7110 4815 5850 4815
+4 0 1 0 31 50 -1 20 4.000 0 0 7 0 0 5
+5850 7830 5850 7830 5400 8550 5400 8550 5850
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+5760 7830 5760
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 3
+0 1.00 60.00 120.00
+4815 7110 5490 7830 5490
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 0 2
+0 1.00 60.00 120.00
+5625 6930 5625
+1 0 1 0 7 50 -1 -1 0.000 0 0 -1 1 1 2
+0 1.00 60.00 120.00
+0 1.00 60.00 120.00
+5625 8910 5625
 1 0 50 -1 -1 10 0.0000 4 105 480 8190 6165 Rename\001
 1 0 50 -1 -1 10 0.0000 4 120 345 8190 6345 queue\001
+1 0 50 -1 -1 10 0.0000 4 105 345 8190 6345 queue\001
 2 0 50 -1 -1 10 0.0000 4 75 435 8865 5940 rename\001
-0 0 50 -1 -1 10 0.0000 4 150 405 4275 4230 update\001
-0 0 50 -1 -1 10 0.0000 4 105 345 4275 6165 decod\001
 0 0 50 -1 -1 10 0.0000 4 105 360 7695 4770 insert\001
+2 0 50 -1 -1 10 0.0000 4 90 465 8865 3780 execute\001
+1 0 50 -1 -1 10 0.0000 4 105 315 5490 4770 RAT\001
+1 0 50 -1 -1 10 0.0000 4 135 450 5490 4950 Update\001
+1 0 50 -1 -1 10 0.0000 4 105 270 6570 5580 Free\001
+1 0 50 -1 -1 10 0.0000 4 105 255 6570 5805 List\001
+0 0 50 -1 -1 10 0.0000 4 135 405 4815 4230 update\001
+0 0 50 -1 -1 10 0.0000 4 105 345 4815 6165 decod\001
 2 0 50 -1 -1 10 0.0000 4 105 345 7065 4770 retire\001
+2 0 50 -1 -1 10 0.0000 4 90 465 8865 3780 execute\001
+1 0 50 -1 -1 10 0.0000 4 105 390 8190 5535 Status\001
+1 0 50 -1 -1 10 0.0000 4 105 255 8190 5670 List\001
+1 0 50 -1 -1 10 0.0000 4 135 540 8190 5805 Manager\001
+2 0 50 -1 -1 10 0.0000 4 150 855 8865 5355 register_state\001

trunk/IPs/systemC/processor/Morpheo/Documentation/Source/Schema/MORPHEO_service.fig

-                      r17
+                      r23
 #FIG 3.2  Produced by xfig version 3.2.5-alpha5
+#FIG 3.2
 Landscape
 Center
 …
 -2
 2
+1 0 1 0 29 50 -1 20 0.000 0 1 0 0 4575.000 2100.000 4350 2400 4575 2475 4800 2400
+1 0 1 0 2 48 -1 40 0.000 0 0 0 0 5025.000 2700.000 4800 2400 5025 2325 5250 2400
 3675 4050 4725 4650
 1 0 1 0 2 50 -1 20 0.000 0 1 0 0 3975.000 4200.000 3750 4500 3975 4575 4200 4500
 …
 1 0 1 0 31 50 -1 20 0.000 0 0 7 0 0 4
 4500 6150 4050 7050 4050 7050 4500
--6
-4350 1950 5250 2550
-1 0 1 0 29 50 -1 20 0.000 0 1 0 0 4575.000 2100.000 4350 2400 4575 2475 4800 2400
-1 0 1 0 2 48 -1 40 0.000 0 0 0 0 5025.000 2700.000 4800 2400 5025 2325 5250 2400
-1 0 1 0 29 50 -1 20 0.000 0 0 7 0 0 4
-2400 4350 1950 5250 1950 5250 2400
-1 0 50 -1 -1 10 0.0000 4 105 255 4800 2325 .gen\001
-1 0 50 -1 -1 10 0.0000 4 120 675 4800 2100 G\351n\351rateur\001
 -6
 5550 1950 6450 2550
 …
 4 0 1 0 4 50 -1 20 0.000 0 0 7 0 0 5
 4050 4950 4050 4950 4500 5850 4500 5850 4050
+1 0 50 -1 -1 10 0.0000 4 150 570 5400 3225 Morpheo\001
+1 0 1 0 29 50 -1 20 0.000 0 0 7 0 0 4
+2400 4350 1950 5250 1950 5250 2400
+1 0 50 -1 -1 10 0.0000 4 135 570 5400 3225 Morpheo\001
 1 0 50 -1 -1 10 0.0000 4 105 435 4200 4275 VHDL\001
 1 0 50 -1 -1 10 0.0000 4 105 435 4800 5475 VHDL\001
 …
 1 0 50 -1 -1 10 0.0000 4 105 585 6000 5325 Statistics\001
 1 0 50 -1 -1 10 0.0000 4 105 585 6600 4200 Positions\001
 1 0 50 -1 -1 10 0.0000 4 120 255 6600 4425 .pos\001
+1 0 50 -1 -1 10 0.0000 4 105 255 6600 4425 .pos\001
 1 0 50 -1 -1 10 0.0000 4 105 465 7500 3225 Viewer\001
 1 0 50 -1 -1 10 0.0000 4 135 555 5400 4275 SystemC\001
+1 0 50 -1 -1 10 0.0000 4 105 255 4800 2325 .gen\001
+1 0 50 -1 -1 10 0.0000 4 105 615 4800 2100 Generator\001

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 23 for trunk/IPs/systemC/processor/Morpheo/Documentation

Legend:

Download in other formats: