Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log

rapport.tex @ 19

Last change on this file since 19 was 15, checked in by guillaumeb, 16 years ago
ajout du rapport
File size: 11.2 KB

Line
1	\documentclass [12pt, a4paper, twoside] {report}
2
3
4	\usepackage{lettrine}
5	\usepackage[utf8]{inputenc}
6	\usepackage[T1]{fontenc}
7	\usepackage{palatino}
8	\usepackage{fancyhdr}
9	\usepackage{float}
10	\usepackage{subfigure}
11	\usepackage{wrapfig}
12	\usepackage{graphicx}
13	\usepackage[french]{babel}
14	\usepackage{amsmath} %
15
16	% correct bad hyphenation here
17	\hyphenation{}
18
19	\setlength{\topmargin}{0cm}
20	\setlength{\headheight}{1cm}
21	\setlength{\textheight}{23cm}
22	\setlength{\textwidth}{16cm}
23	\setlength{\oddsidemargin}{0cm}
24	\setlength{\evensidemargin}{0cm}
25	\setlength{\columnsep}{0.125in}
26	\setlength{\columnseprule}{0.5pt}
27	\setlength{\footskip}{1cm}
28
29	\sloppy
30	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
31	\begin{document}
32	\begin{titlepage}
33	{\begin{center} \huge \textsf {UniversitÃ© Pierre et Marie Curie} \end{center}}
34	\vspace{0.4cm}
35	{\begin{center} \huge \textsf {MastÃšre de sciences et technologies} \end{center}}
36	\vspace{0.4cm}
37	{\begin{center} \large \textbf{Mention Informatique - SpÃ©cialitÃ© STL\\2008 -- 2009} \end{center}}
38	\vspace{0.4cm}
39	{\begin{center} \huge \textsf {SpÃ©cialitÃ© : APR } \end{center}}
40	\vspace{0.4cm}
41	{\begin{center} \Huge \textbf{Simulation d'architectures multic\oe urs pour la parallÃ©lisation et l'optimisation de programmes} \end{center}}
42	\vspace{0.4cm}
43	{\begin{center} \huge \textsc{Rapport de PrÃ©soutenance} \end{center}}
44	\vspace{0.4cm}
45	{\begin{center} \large \textsf {date exposÃ© 2009 } \end{center}}
46	\vspace{0.4cm}
47	{\begin{center} \Large \textsc{PrÃ©sentÃ© Par} \end{center}}
48	{\begin{center} \huge \textsc{Guillaume Bau} \end{center}}
49	\vspace{0.4cm}
50	{\begin{center} \Large \textsc{Encadrants} \end{center}}
51	{\begin{center} \Large \textsc{Karine Heydemann} \end{center}}
52	{\begin{center} \Large \textsc{Nathalie Drach} \end{center}}
53	{\begin{center} \large \textsf{Laboratoire d'accueil : LIP6 - DÃ©partement SystÃšmes embarquÃ©s sur puce } \end{center}}
54	\end{titlepage}
55
56	\author{}
57
58	%\pagestyle{plain}
59
60
61	\newpage
62	\pagestyle{headings}
63	%\fancyhf{}
64	%\fancyhead[R]{\slshape \thepage}
65
66	\setcounter{page}{1}
67	\pagenumbering{Roman}
68	\tableofcontents
69
70	\newpage
71
72	\listoffigures
73
74	\newpage
75
76	\setcounter{page}{1}
77	\pagenumbering{arabic}
78
79
80
81	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
82	% DÃ©finition et analyse du problÃšme
83	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
84	\chapter{Introduction}
85	\section{PrÃ©sentation}
86	Les nouvelles architectures de microprocesseurs sont de plus en plus complexes
87	et de plus en plus variÃ©es. L'approche des limites physiques, notamment en
88	frÃ©quence, des microprocesseurs a poussÃ© les concepteurs a crÃ©er des
89	architectures multic\oe urs, afin de dÃ©livrer plus de puissance, et ce, non
90	seulement dans les PC, mais de plus en plus dans les systÃšmes embarquÃ©s tels
91	que les tÃ©lÃ©phones rÃ©cents, baladeurs multimÃ©dia, etc.
92
93	Ces architectures multic\oe urs peuvent adopter des structures diffÃ©rentes, par
94	exemple, diffÃ©rents niveaux de cache, certains caches partagÃ©s entre les c\oe
95	urs\ldots
96
97	Afin de tirer parti des performances, les compilateurs doivent
98	intÃ©grer ces diffÃ©rences, et proposer des algorithmes d'optimisations adaptÃ©s Ã
99	ces architectures. De mÃªme, les programmeurs pourront dÃ©sirer optimiser leurs
100	applications pour un micro-processeur en particulier.
101
102	La simulation du \textit{CPU} permet de rÃ©soudre ce problÃšme, puisqu'elle
103	permet un \textit{profiling} trÃšs avancÃ©, en simulant le fonctionnement de
104	toute l'architecture, en recueillant des statistiques d'utilisation, un
105	diagnostic aussi complet que le souhaite l'utilisateur.
106
107	Cependant, la simulation d'une architecture complÃšte est trÃšs lente, et source
108	de nombreuses approximations, voire d'erreurs, du fait de l'impossibilitÃ© de
109	simuler un processeur transistor par transistor. En effet, les rÃ©sultats
110	expÃ©rimentaux de simulateurs prÃ©cis au cycle (\textit{cycle accurate}) montrent
111	que la simulation est trÃšs approximative. Les simulateurs les plus rÃ©pandus,
112	lorsqu'ils permettent de simuler une architecture multic\oe ur, se montrent
113	d'autant plus lents que le nombre de c\oe urs Ã simuler est Ã©levÃ©.
114
115	Afin de palier aux dÃ©fauts de ce type de simulation, on se propose de ne
116	simuler qu'un modÃšle trÃšs simplifiÃ© d'architecture, dans laquelle on se
117	focalise sur la hiÃ©rarchie mÃ©moire. On peut ainsi Ã©tudier le comportement de la
118	mÃ©moire pour optimiser cet aspect indÃ©pendamment des autres.
119
120	\section{Ãtat de l'art}
121	Les simulateurs sont des logiciels extrÃ©mement complexes et sont trÃšs longs
122	Ã dÃ©velopper. Parmi les plus connus, SimpleScalar est assez rapide mais
123	est incapable, sans extension de simuler un systÃšme multiprocesseur. C'est,
124	de plus, un logiciel monolithique et donc difficile Ã modifier.
125	Au contraire, unisim est conÃ§u autour d'un framework trÃšs ouvert, il facilite
126	la rÃ©utilisation de code et la modularitÃ©, et peut simuler un systÃšme
127	multi-processeur. Cependant, c'est un simulateur \textit{cycle accurate} qui
128	simule tous les aspects documentÃ©s d'une architecture, ce qui ne correspond
129	pas Ã nos attentes, et aurait requis des modifications importantes.
130	Enfin, Simics est rÃ©putÃ© trÃšs rapide, est capable de gÃ©rer de nombreuses
131	architectures y compris des architectures multic\oe ur, mais c'est un logiciel
132	propriÃ©taire que nous n'avons pas Ã disposition.
133
134
135	\section{Objectifs}
136	Les objectifs de ce projet sont de crÃ©er un simulateur pour une architecture
137	multic\oe ur, reposant sur un modÃšle trÃšs simplifiÃ© dans lequel la hiÃ©rarchie
138	mÃ©moire sera prÃ©dominante.
139
140	Le simulateur doit prendre en charge une hiÃ©rarchie de cache entiÃšrement
141	paramÃ©trable :
142	\begin{itemize}
143	\item on pourra dÃ©finir une hiÃ©rarchie de deux, trois, \ldots \ niveaux de caches.
144	\item on pourra choisir de partager les cache d'un niveau entre plusieurs c\oe urs
145	ou bien les sÃ©parer.
146	\item les latences induites par le chargement d'une donnÃ©e dans un cache seront
147	spÃ©cifiÃ©es manuellement, et donc la gestion Ã©lectronique sous-jancente ne
148	sera pas simulÃ©es.
149	\end{itemize}
150
151	Ãtant donnÃ© un programme sÃ©parÃ© en plusieurs sous-programmes,
152	chacun s'exÃ©cutant sur un c\oe ur, on estimera le nombre de hits et miss
153	obtenus dans chacun des niveaux de cache, ainsi qu'une estimation du temps
154	total d'exÃ©cution du programme.
155
156
157	On Ã©valuera ensuite la pertinence des informations obtenues par cette
158	simulation en tant que mesure approximative des performances du programme
159	simulÃ©.
160
161	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
162	% Proposition d'une solution de principe
163	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
164	\chapter{Solution de principe}
165	\section{PrÃ©sentation}
166	La modÃ©lisation du cache s'effectue avec des modules SystemC. Un module
167	reprÃ©sentant le micro-processeur est chargÃ© d'Ã©xÃ©cuter un programme exÃ©cutable
168	ou plusieurs programmes exÃ©cutables.
169
170	Le modÃšle simplifiÃ© ne comprendra pas de directives internes permettant le
171	lancement de thread et de verrous. Il ne tiendra pas compte des dÃ©pendances
172	entre instructions.
173
174	Le modÃšle simplifiÃ© ne tiendra compte que du cache de donnÃ©es; on ne prendra
175	donc pas compte du cache d'instruction, on n'effectuera pas de prÃ©diction de
176	branchement.
177
178	On cherche Ã se limiter au strict minimum au niveau de la gestion des
179	instructions, cependant, il n'est pas envisageable de ne simuler que les
180	instructions \textit{load} et \textit{store} : il faut simuler le comportement
181	correct du programme.
182
183	DiffÃ©rentes stratÃ©gies pour rÃ©soudre ce problÃšme seront Ã©tudiÃ©es durant
184	la seconde pÃ©riode du stage, parmi celles-ci, on peut suivre les pistes
185	suivantes :
186	\begin{itemize}
187	\item une instrumentation d'un exÃ©cutable natif existant, d'une maniÃšre
188	similaire Ã \textit{Valgrind}.
189	\item une Ã©mulation des autres instructions d'un processeur dÃ©terminÃ©.
190	\item \ldots
191	\end{itemize}
192
193	L'implÃ©mentation sera effectuÃ©e en SystemC, tout en essayant de limiter
194	les fonctionnalitÃ©s de SystemC qui sont les plus coÃ»teuses en temps d'exÃ©cution
195
196	\section{DÃ©tails}
197	Le simulateur est dÃ©composÃ© en plusieurs module SystemC :
198	\begin{itemize}
199	\item un module reprÃ©sentant un processeur qui traite les instructions et
200	envoie des requÃªtes au cache qui lui est connectÃ©
201	\item un module reprÃ©sentant un cache L1 qui doit Ãªtre connectÃ© au processeur
202	et Ã un autre cache ou la mÃ©moire
203	\item un module reprÃ©sentant un cache L2 ou L3, qui doit Ãªtre connectÃ©
204	a un autre cache (L1 ou autre), et Ã la mÃ©moire
205	\end{itemize}
206
207	Chacun des caches gÃšre une file d'attente de requÃªtes en entrÃ©e et en sortie :
208	la file limite le nombre de requÃªtes en cours de traitement dans le cache de
209	niveau supÃ©rieur.
210
211	Une liste interne, la \textit{ProcessingQueue} permet de simuler le dÃ©lai de
212	chargement d'une donnÃ©e dans le cache.
213
214	\begin{figure}[!h]
215	\center
216	\includegraphics[scale=0.4]{rapport/intern_communication.png}
217	\caption{Module reprÃ©sentant un cache L1}
218	\end{figure}
219
220
221
222	Un exemple de modÃ©lisation de cache pourrait Ãªtre celui-ci :
223
224	\begin{figure}[!h]
225	\center
226	\includegraphics[scale=0.5]{rapport/config_sample.png}
227	\caption{Exemple de configuration de cache}
228	\end{figure}
229
230	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
231	% Identification des taches Ã accomplir
232	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
233	\chapter{TÃ¢ches Ã accomplir et Planning}
234	\section{TÃ¢ches Ã accomplir}
235
236	Les principales tÃ¢ches Ã accomplir sont essentiellement l'Ã©tude prÃ©cise du cadre
237	de simulation du processeur et une implÃ©mentation.
238
239	Les pistes envisagÃ©es sont le dÃ©veloppement d'une instrumentation d'exÃ©cutable
240	d'une maniÃšre similaire Ã valgrind et l'Ã©mulation. L'instrumentation d'exÃ©cutable
241	demande d'avoir Ã sa disposition le processeur que l'on simule, ce qui limite
242	lÃ©gÃšrement l'intÃ©rÃªt d'une simulation. L'autre solution est l'Ã©mulation, mais
243	elle requiert de se concentrer sur un jeu d'instruction particulier pour Ãªtre
244	rÃ©alisÃ©e en un temps raisonnable.
245
246
247
248	\section{Planning}
249
250
251	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
252	% Procedure de recette
253	%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
254	\chapter{ProcÃ©dure de recette}
255	\section{Validation du simulateur}
256	Les rÃ©sultats seront partiellement validÃ©s automatiquement : une petite suite
257	de tests permet de valider des petits programmes afin de vÃ©rifier les donnÃ©es
258	recueillies par le simulateur, afin de les confronter Ã des rÃ©sultats obtenus
259	par le calcul, par exemple :
260	\begin{itemize}
261	\item le nombre de \textit{hits} et de \textit{miss}
262	\item le temps d'Ã©xecution total estimÃ© d'un programme.
263	\end{itemize}
264	\
265
266
267	Plusieurs configurations possibles seront testÃ©es :
268	\begin{itemize}
269	\item les diffÃ©rentes associativitÃ©s (mapping direct, associativitÃ© complÃšte,
270	N-Way )
271	\item diffÃ©rents niveaux de caches, qui pourront Ãªtre partagÃ©s entre plusieurs
272	c\oe urs ou bien indÃ©pendants.
273	\end{itemize}
274
275	\section{Validation des rÃ©sultats}
276	Des comparaisons des rÃ©sultats et des performances avec d'autres simulateurs
277	comme unisim permettront d'une part de mesurer le gain en performance de
278	ce simulateur, mais aussi d'estimer la prÃ©cision des mesures se focalisant sur
279	l'aspect mÃ©moire, et de constater dans quelle mesure les performances
280	d'une application sont reprÃ©sentÃ©es par l'utilisation optimale ou non de
281	l'aspect mÃ©moire.
282
283	\end{document}

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: trunk/doc/rapport.tex @ 19

Download in other formats: