Big Data für IT-Entscheider (eBook)
XII, 234 Seiten
Carl Hanser Fachbuchverlag
978-3-446-43392-2 (ISBN)
- Was verbirgt sich fachlich und technisch hinter dem Begriff 'Big Data'?
- Welche Business Cases bietet 'Big Data' Ihrem Unternehmen?
- Wie sammeln und vermehren Sie Daten beziehungsweise wie können Sie wertvolle Informationen aus ihnen gewinnen?
- Mit welchen mathematischen und technologischen Mitteln können die großen Datenmengen beherrscht werden?
- Sie erhalten einen Ausblick, in welche Richtung sich 'Big Data' entwickeln wird - und Sie können sich darauf einstellen.
Dass die Menge der Geschäftsdaten in allen Branchen rasant wächst, ist kein Geheimnis. Wie sich diese riesigen Datenmengen erzeugen und vermehren, in den Griff bekommen und für den Geschäftserfolg optimal einsetzen lassen, beschäftigt viele. In diesem Buch werden verschiedenste Szenarien und Anwendungsfälle für 'Big Data' beschrieben. Aufgezeigt werden die damit verbundenen Business Opportunities und Chancen genauso wie die Risiken. Das Thema wird dabei aus unterschiedlichsten Perspektiven betrachtet. Case Studies zeigen, wie New-Economy-Unternehmen und Startups der Moderne sich diesem Thema bereits jetzt stellen und wo sie hinwollen.
Dieses Buch vermittelt Ihnen außerdem einen Überblick über die Technologien rund um 'Big Data'. Beispielhafte Tool-Ketten werden gezeigt, die allesamt zur Wertschöpfungskette beitragen bzw. diese direkt abbilden. Als Entscheider finden Sie hier die wichtigsten Informationen, um einschätzen zu können, was Sie für Ihr Unternehmen benötigen, mit welcher Art von 'Big Data' Sie sich auseinandersetzen sollten und welche Skills Ihre IT-Mitarbeiter haben müssen.
Pavlo Baron ist Autor zahlreicher Artikel, Speaker auf verschiedenen Konferenzen und Autor der Bücher 'Pragmatische IT-Architektur', 'Fragile Agile' und 'Erlang/OTP'. Er arbeitet als Lead Architect bei codecentric. Seine beruflichen Interessen und Leidenschaften sind verteilte Systeme, Hochskalierbarkeit, Machine Learning, Natural Language Processing und somit 'Big Data'.
Pavlo Baron ist Autor zahlreicher Artikel, Speaker auf verschiedenen Konferenzen und Autor der Bücher „Pragmatische IT-Architektur", „Fragile Agile" und „Erlang/OTP". Er arbeitet als Lead Architect bei codecentric. Seine beruflichen Interessen und Leidenschaften sind verteilte Systeme, Hochskalierbarkeit, Machine Learning, Natural Language Processing und somit „Big Data“.
Inhalt 6
Vorwort 12
1 Management Summary 14
2 Was? 20
2.1 Mein klassisches Business ist konkurrenzlos, nicht wahr? 21
2.1.1 Der heimliche Markteroberer: Amazon 21
2.1.2 Der klare Fall: Google 24
2.1.3 Der zunehmende Lebensinhalt: Facebook 26
2.1.4 Nachrichtenquelle Nr. 1: Twitter 28
2.2 Die wilden Kleinen 29
2.2.1 Das unscheinbare Orakel: Prismatic 30
2.2.2 Der stille Mitlauscher: Boundary 31
2.3 Big Data ist das neue Öl, nicht wahr? 31
2.4 Technologie steht im Vordergrund, nicht wahr? 33
2.5 Die Essenz von Daten ist angewendete Information 34
2.6 Die „Big Data“-Schmerzen und -Symptome 35
2.6.1 Die 3 V's – ganz einfach, oder? 36
Velocity 36
Volume 37
Variety 37
2.6.2 Das lokale Denken: Business-Verbesserung 38
Bessere Angebote durch mehr Wissen 39
Menschen zusammenbringen 40
2.6.3 Das kostenbewusste Denken: Kostenreduktion 41
Geld mit günstiger Maschinerie und geeigneten Technologien sparen 41
Kosten durch Analyse drücken 42
2.6.4 Die Wachsamkeit: Die Gefahren aus dem bösen Internet 43
Enterprise-Level Stalking 43
Fraud Detection 44
2.6.5 Das globale Denken: Weltverbesserung 45
Öffentlichen Verkehr endlich funktionsfähig machen 45
Precogs implementieren 46
3 Wie? 48
3.1 Typische falsche Hoffnungen 49
3.1.1 Große Daten sind wie alle anderen Daten, nicht wahr? 50
3.1.2 Tools machen es für mich, nicht wahr? 51
3.1.3 Meine Prozesse müssen sich nicht ändern, nicht wahr? 52
3.2 Angewandte Wissenschaft ist der entscheidende Marktvorteil 53
3.2.1 Mathe pauken 53
3.3 Ihr Staff – die einzig sinnvolle Investition 55
3.3.1 Ich kann Big Data mit normalen Entwicklern, nicht wahr? 56
3.3.2 Also, alle Entwickler zurück in die Schule schicken? 59
3.3.3 Die neuen Berufsgruppen 60
3.3.4 Polyglott, auf jeder Ebene 61
3.4 „Big Data“-Schmerzen lassen sich erzeugen 63
3.4.1 Alles protokollieren, was Nutzer tun 63
3.4.2 Nutzer solange wie möglich beim Online-Angebot halten 65
3.4.3 Nutzer anregen, mehr zu tun und Daten zu hinterlassen 67
3.4.4 Soziale Netzwerke anzapfen 68
3.4.5 Crowdsourcing 71
3.4.6 Wissen, wer wo ist 72
3.5 IT-Strategie im „Big Data“-Licht 74
3.5.1 Daten bzw. Informationen sind gemeinsame Sprache von Business und IT 74
3.5.2 Daten sind Ihr Gold 76
Wie werden Daten klassischerweise behandelt? 77
Wie werden große, chaotische Daten behandelt? 79
Wie leitet man Informationen aus vielen und chaotischen Daten ab? 82
Wie hält man Unmengen chaotischer Daten sauber? 84
Wie kombiniert man mehrere Datenquellen? 84
3.6 Was bedeutet es, datenzentriert zu arbeiten? 86
3.6.1 Statistiken lügen nicht 86
3.6.2 Der entscheidende Unterschied zwischen schnell und gleich 87
3.6.3 Die Macht der Suche 90
3.6.4 Die Macht der Empfehlung 92
3.6.5 Die Macht des Bildes 93
3.7 IT-Instrumente richtig nutzen oder richtige Instrumente nutzen 95
3.7.1 Commodity Hardware nutzen 96
3.7.2 Alles aus der Technik herauspressen 98
3.7.3 Dort in den Wolken 98
3.7.4 Die Open Source Welt hat klar die Nase vorn 100
3.8 „Big Data“-Perspektiven 102
3.8.1 Wie speichert man große Datenmengen? 102
Der schwierige Weg der RDBMS 102
Tipps und Tricks 104
Der Preis der Verteilung 106
Und noch ein paar Randthemen 108
3.8.2 Wie bereitet man große Datenmengen auf? 110
3.8.3 Wie stellt man große Datenmengen bereit? 111
3.8.4 Wie analysiert man große Daten in Echtzeit? 113
3.8.5 Wie visualisiert man große Datenmengen? 115
3.9 Von der Hand in den Mund 116
3.10 Segen für Europa, Fluch für Big Data: Datenschutz 118
4 Womit? 122
4.1 Willkommen im Zoo der „Big Data“-Technologien 130
4.2 Einige theoretische Grundlagen 130
4.2.1 Verteilte Systeme bzw. verteilte Data Stores 130
Hashing und Delta-Tracking 132
Replikation und Redundanz 134
Objekte versionieren 139
Sharding 143
Herr der Ringe 147
Anti-Entropy und Garbage Collection 149
Infrastrukturinformationen aktuell halten 151
CAP – nicht die Kappe 151
Eventual Consistency 153
4.2.2 Caching bzw. In-Memory-Datenhaltung 157
4.2.3 Graphen – ein Sonderfall 161
4.3 Analytics sind das A und O. Aber womit machen? 162
4.4 Was ist NoSQL? 164
4.4.1 Key/Value Stores 165
4.4.2 Document Stores 168
4.4.3 In-Memory Stores 169
4.4.4 Graphen, mal wieder ein Sonderfall 170
4.4.5 ... und noch weitere Hundert Stores 172
4.4.6 Und was ist mit der Cloud? 172
4.5 Was ist NewSQL? 173
4.6 Wo kommen klassische RDBMS ins Spiel 174
4.7 Was ist MapReduce? 175
4.8 Und welche Programmiersprache ist nun die beste für „Big Data“? 179
4.8.1 Kann/muss ich alles mit Java machen? 179
4.8.2 Ist JavaScript nicht etwa nur für Script-Kiddies? 180
4.9 Analyse von Logs 180
4.10 Time-Series-Daten 182
4.11 Umgang mit Commodity Hardware 183
4.12 Wie kann ich es richtig flott machen? 185
4.12.1 Was ist (Fast-)Echtzeit? 185
4.12.2 Die superschnelle Technik 186
4.13 Suche, Index und Secondary Index 188
4.14 Die Antwort der Dinosaurier: die Appliances 189
4.15 Kann ich das alles mit einem einzigen Tool machen? 190
4.16 Visualisierung 192
4.17 Wohin mit meinen aktuellen Errungenschaften? 194
4.17.1 Wohin mit meiner Enterprise-Architektur? 194
4.17.2 Wohin mit meinem Enterprise-Datenmodell? 195
4.17.3 Wohin mit meinem MDM? 195
4.17.4 Wohin mit meinem Enterprise-Technologie-Stack? 197
4.17.5 Wohin mit meiner SOA? 198
4.17.6 Wohin mit meiner BI-Lösung? 199
4.17.7 Wohin mit der Cloud? 201
4.18 Ist „Big Data“ also Hadoop mit einem Schuss MongoDB? 203
5 Way Forward 206
5.1 Aktuelle Trends 207
5.1.1 NoSQL und der Rest der Welt 207
5.1.2 Hadoop und der Rest der Welt 209
5.1.3 Hauptspeicher und Plattenspeicher werden immer billiger 210
5.1.4 Die Monster wachen auf 211
5.2 Wie starte ich mit Big Data? 213
5.3 Ich habe schon Big Data. Wie mache ich weiter? 214
5.4 ROI, TCO und dergleichen und worauf es ankommt 216
5.5 Wo und wie kann ich mich weiter informieren? 218
5.6 Persönlicher Blick in die ferne Zukunft 221
Stichwortverzeichnis 224
| Erscheint lt. Verlag | 4.4.2013 |
|---|---|
| Verlagsort | München |
| Sprache | deutsch |
| Themenwelt | Mathematik / Informatik ► Informatik ► Netzwerke |
| Schlagworte | content delivery networks • Datenmanagement • Hadoop • NoSQL • Sharding • Web 2.0 |
| ISBN-10 | 3-446-43392-9 / 3446433929 |
| ISBN-13 | 978-3-446-43392-2 / 9783446433922 |
| Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
| Haben Sie eine Frage zum Produkt? |
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich