

# Inhalt

|                                                                                                                               |           |
|-------------------------------------------------------------------------------------------------------------------------------|-----------|
| <b>Einführung</b>                                                                                                             | <b>1</b>  |
| <b>1. Parallele Rechnerarchitekturen</b>                                                                                      | <b>3</b>  |
| <b>1.1. Vektorrechner</b>                                                                                                     | <b>3</b>  |
| <b>1.2. Multiprozessoren</b>                                                                                                  | <b>4</b>  |
| <b>1.2.1. Speicherkopplung mit global gemeinsamem Speicher<br/>(Beispiele Alliant FX/8, Encore Multimax, Sequent Balance)</b> | <b>5</b>  |
| <b>1.2.2. Speicherkopplung mit global verteiltem Speicher (Beispiel DIRMU 25)</b>                                             | <b>7</b>  |
| <b>1.2.3. Nachrichtenkopplung (Beispiel SUPRENUM)</b>                                                                         | <b>9</b>  |
| <b>1.3. Kommunikationsmechanismen in Multiprozessoren</b>                                                                     | <b>12</b> |
| <b>1.3.1. Programmiermodell bei nachrichtengekoppelten Systemen</b>                                                           | <b>13</b> |
| <b>1.3.2. Kommunikation in nachrichtengekoppelten Systemen</b>                                                                | <b>13</b> |
| <b>1.3.3. Programmiermodell bei speichergekoppelten Systemen</b>                                                              | <b>14</b> |
| <b>1.3.4. Kommunikation in speichergekoppelten Systemen</b>                                                                   | <b>14</b> |
| <b>2. Sequentialle Lösung von großen, linearen Gleichungssystemen<br/>mit dünn besetzter Koeffizientenmatrix</b>              | <b>17</b> |
| <b>2.1. Definitionen</b>                                                                                                      | <b>17</b> |
| <b>2.2. Direkte Verfahren</b>                                                                                                 | <b>19</b> |
| <b>2.2.1. Datenstrukturen</b>                                                                                                 | <b>19</b> |
| <b>2.2.2. Pivotisierung</b>                                                                                                   | <b>21</b> |
| <b>2.3. Iterative Verfahren</b>                                                                                               | <b>22</b> |
| <b>2.3.1. Eingitterverfahren</b>                                                                                              | <b>23</b> |
| <b>2.3.2. Mehrgitterverfahren</b>                                                                                             | <b>24</b> |
| <b>2.4. Semi-iterative Verfahren</b>                                                                                          | <b>26</b> |
| <b>2.4.1. Methode der konjugierten Gradienten</b>                                                                             | <b>26</b> |
| <b>2.4.2. Vorkonditionierung</b>                                                                                              | <b>27</b> |
| <b>3. Parallelisierung der Algorithmen</b>                                                                                    | <b>31</b> |
| <b>3.1. Datenabhängigkeitsanalyse</b>                                                                                         | <b>32</b> |
| <b>3.2. Vektorisierung</b>                                                                                                    | <b>34</b> |
| <b>3.2.1. Direkte Verfahren</b>                                                                                               | <b>34</b> |
| <b>3.2.2. Iterative Verfahren</b>                                                                                             | <b>35</b> |
| <b>3.2.3. Semi-iterative Verfahren</b>                                                                                        | <b>36</b> |

---

|                                                                                  |    |
|----------------------------------------------------------------------------------|----|
| <b>3.3. Nebenläufigkeit</b>                                                      | 37 |
| 3.3.1. Aufteilung des Lösungsgebiets                                             | 38 |
| 3.3.2. Direkte Verfahren                                                         | 38 |
| 3.3.3. Iterative Verfahren                                                       | 40 |
| 3.3.4. Semi-iterative Verfahren                                                  | 41 |
| <b>3.4. Kommunikationstopologien</b>                                             | 42 |
| 3.4.1. Prozessorkonfigurationen für DIRMU 25                                     | 43 |
| 3.4.2. Kommunikationstopologien für SUPRENUM                                     | 43 |
| <b>4. Implementierung der Algorithmen auf unterschiedlichen Multiprozessoren</b> | 49 |
| <b>4.1. Geschwindigkeitsgewinn und Effizienz</b>                                 | 49 |
| <b>4.2. Effizienzverluste bei parallelen Algorithmen</b>                         | 53 |
| <b>4.3. Implementierung auf Multiprozessoren mit global gemeinsamem Speicher</b> | 55 |
| 4.3.1. FORCE - eine parallele Programmiersprache                                 | 55 |
| 4.3.2. Ergebnisse für Multiprozessoren mit global gemeinsamem Speicher           | 58 |
| 4.3.2.1. Direkte Verfahren                                                       | 58 |
| 4.3.2.2. Semi-iterative Verfahren                                                | 58 |
| 4.3.2.3. Iterative Verfahren                                                     | 61 |
| <b>4.4. Implementierung auf Multiprozessoren mit verteiltem Speicher</b>         | 62 |
| 4.4.1. Modula-2 auf DIRMU 25                                                     | 63 |
| 4.4.2. Implementierungen auf DIRMU 25                                            | 63 |
| 4.4.2.1. Direkte Verfahren                                                       | 64 |
| 4.4.2.2. Iterative Verfahren                                                     | 65 |
| <b>4.5. Implementierung auf SUPRENUM</b>                                         | 67 |
| 4.5.1. Concurrent Modula-2 für SUPRENUM                                          | 67 |
| 4.5.2. MIMD Fortran für SUPRENUM                                                 | 68 |
| 4.5.3. SUPRENUM Simulationssystem                                                | 69 |
| 4.5.4. Ergebnisse für SUPRENUM                                                   | 70 |
| 4.5.4.1. Direkte Verfahren                                                       | 70 |
| 4.5.4.2. Semi-iterative Verfahren                                                | 73 |
| 4.5.4.3. Iterative Verfahren                                                     | 77 |
| <b>4.6. Zusammenfassung der Ergebnisse</b>                                       | 80 |
| <b>5. Bewertung der Ergebnisse</b>                                               | 81 |
| <b>5.1. Algorithmische Konsequenzen</b>                                          | 81 |
| 5.1.1. Entwicklung von neuen, parallelen und vektorisierbaren Algorithmen        | 81 |
| 5.1.2. Formulierung von Algorithmen für parallele Rechnerstrukturen              | 83 |

---

|                                                                             |            |
|-----------------------------------------------------------------------------|------------|
| <b>5.2. Konsequenzen für die Rechnerarchitektur</b>                         | <b>83</b>  |
| 5.2.1. Reduktion der Kosten für lokale Kommunikation                        | 84         |
| 5.2.2. Hardwareunterstützung bei globalen Kommunikationsvorgängen           | 88         |
| 5.2.3. Entwicklung eines Benchmark-Konzepts für Multiprozessoren            | 89         |
| <b>5.3. Parallele Entwicklungsumgebungen</b>                                | <b>89</b>  |
| 5.3.1. Simulationssysteme                                                   | 90         |
| 5.3.2. Parallele Debugger                                                   | 90         |
| 5.3.3. Diagnoseunterstützung                                                | 91         |
| <br>                                                                        |            |
| <b>6. Eine parallele, architekturunabhängige Programmierumgebung</b>        | <b>93</b>  |
| <b>6.1 Existierende Ansätze für parallele Programmiersprachen</b>           | <b>93</b>  |
| 6.1.1 VSM - Virtual Shared Memory                                           | 93         |
| 6.1.2 Virtuelle Kanäle                                                      | 94         |
| 6.1.3 Hilfsmittel für den INTEL Hypercube                                   | 95         |
| 6.1.4 Autoparallelisierer für Algorithmen auf SUPRENUM                      | 96         |
| <b>6.2 Die parallele Programmierumgebung PPRC</b>                           | <b>97</b>  |
| <b>6.3 Feldkonfiguration: PPRC Programm für ein iteratives Verfahren</b>    | <b>103</b> |
| <b>6.4 Baumkonfiguration: PPRC Programm für das globale Skalarprodukt</b>   | <b>107</b> |
| <b>6.5 PPRC im Unterschied zu den existierenden Ansätzen</b>                | <b>113</b> |
| <b>6.6 Implementierung von PPRC auf Multiprozessoren</b>                    | <b>113</b> |
| 6.6.1 Implementierung der Konfigurationsmanager                             | 114        |
| 6.6.2 Implementierung der Basiskommunikationsroutinen (give_info, get_info) | 115        |
| 6.6.3 Implementierung von komplexen Kommunikationsroutinen                  | 116        |
| <b>6.7 PICL und PPRC</b>                                                    | <b>116</b> |
| <b>6.8 PPRC: Zusammenfassung und Ausblick</b>                               | <b>117</b> |
| <br>                                                                        |            |
| <b>7. Ausblick</b>                                                          | <b>119</b> |
| <b>7.1. Massiv parallele Systeme</b>                                        | <b>119</b> |
| 7.1.1 Connection Machine                                                    | 119        |
| 7.1.2 MEMSY                                                                 | 121        |
| <b>7.2. The Roads to El Dorado</b>                                          | <b>123</b> |
| <br>                                                                        |            |
| <b>8. Literaturverzeichnis</b>                                              | <b>125</b> |
| <br>                                                                        |            |
| <b>Index</b>                                                                | <b>135</b> |