Ad hoc Apache Log Analyse mit Webalizer per Kommandozeile

Webalizer ist neben "awstats" ein Urgestein zur Analyse des Verlaufs von Webseitenzugriffen. Webalizer wertet Webserver-Log-Dateien aus; letztere müssen dafür eines unter mehreren normierten Formaten (z.B. das clf-Format; s. https://en.wikipedia.org/wiki/Common_Log_Format) aufweisen.

Ergebnis der Auswertung sind HTML-Seiten und Grafiken, die man z.B. über einen Webserver abrufen kann. Man installiert das Tool deshalb normalerweise auf einem zentralen Analyse-Webserver. Über periodische cron-Jobs

  • sammelt man sich dann regelmäßig aktuelle Log-Dateien anderer, zu analysierender produktiver Webserver zusammen,
  • transferiert die Logs dann zu der zentralen webalizer-Installation auf dem Analyse-Server,
  • lässt dort die Analyse durchführen
  • und ruft dann nach Bedarf die aufbereiteten Ergebnis-HTMLs auf.

Hört sich kompliziert an. Tatsächlich kann man sich als Anfänger schon mal im Gestrüpp der Konfigurationsoptionen und des Webserver-Setups verheddern. Die meisten Manuals und "docs" konzentrieren sich auf das obige Szenario - und verstellen so leider ein wenig den Blick auf das Wesentliche. In vielen Fällen geht es nämlich auch viel einfacher:

"webalizer" lässt sich auch auf der Kommandozeile einsetzen und ein Webserver ist überhaupt nicht nötig, wenn man mal ad hoc eine Log-Auswertung durchführen möchte oder muss.

Vor kurzem hatte ich einen solchen Fall - und fand das interessant genug, diesen kleinen Blog-Post zu schreiben.

Die Aufgabenstellung

Vor ein paar Tagen wandte sich ein Bekannter aus Norwegen, dessen Webseite plötzlich über fast 48 Stunden nicht mehr erreichbar war, an meine Frau. Als Ursache ergab sich schließlich, dass der dortige Weg-Hosting-Provider, der interessanterweise über einen sekundären Provider in den USA hosten lässt, Parameter zur Begrenzung der Bandbreite der Webserver-Zugriffe gesetzt hatte. (Off Topic: Dieses gestaffelte Hosting (man spricht auch von "Web-Hotels" - ist in Norwegen Gang und Gebe - ohne dass die Kunden erfahen würden, dass ihre Daten in die USA wandern. Aber da der Durchschnittsnorweger nach meiner Erfahrung an Datenschutz kaum interessiert ist, ist das dort auch kein Thema.)

Gedacht war die Bandbreitenbegrenzung nach erhaltener Auskunft wohl als einfache Sicherheitsmaßnahme; akut führte das Überschreiten der relativ geringen Grenzwerte aber zum Ausfall der Website über fast 2 Tage hinweg.

Nun hätte man ja vielleicht erwarten können, dass sich der norwegische Provider auch um die Ursache der offenbar gestiegenen Bandbreitenanforderungen kümmern würde. Auf Anfrage hatte unser Bekannte aber nur die lapidare Auskunft erhalten, es handele sich wohl um einen "normalen Anstieg des Datenverkehrs auf der Webseite". So etwas macht mich immer misstrauisch. Es ist zwar nicht unser Job, die Webseite zu überwachen, aber wir haben uns dann im Auftrag des Bekannten mal die Apache Log-Dateien vom Provider zuschicken lassen.

Ich war gerade unterwegs und hatte nur meinen Laptop dabei, als die Log-Dateien eines ganzen Jahres per Mail eintrafen. Für eine erste Analyse genügten dann tatsächlich ein

  • Internetzugang (inkl. DNS-Server-Zugang),
  • "webalizer" auf der Kommandozeile
  • und ein Browser.

Einen Internetzugang erhielt ich über das Hotel, in dem ich abgestiegen war. Die bescheidenen Voraussetzungen sind natürlich nützlich, wenn man mal aus der Ferne Ursachenforschung betreiben soll und keinen Zugang zum betroffenen Webserver hat.

Webalizer auf der Kommandozeile

Man hat also einen Haufen von Log-Dateien vorliegen und will die auswerten. Wie geht man vor?

  • Schritt 1: Zunächst muss man sich webalizer natürlich aus einem Paket-Repository seiner Linux-Distribution installieren. Dabei treten nach meiner Erfahrung keine Besonderheiten auf.
  • Schritt 2: Um die Arbeit etwas zu organisieren, sollte man sich ein "Log-Verzeichnis" zur Aufbewahrung der Log-Dateien bzw. ein "Zielverzeichnis" für die von webalizer erzeugten Output-Dateien anlegen. Bezeichnen wir die Pfade für unseren Fall mal mit "Path_To_Logs/logs_nw" bzw. "Path_To_Results/webalizer_nw". Für systematische Arbeiten sollten die Verzeichnisse natürlich sprechende Namen bekommen.
  • Schritt 3: Es schadet nie, einen kurzen filternden Blick in die man-Seiten eines neuen Kommandos zu werfen. Wir lassen uns durch die Vielfalt der dortigen Optionen zu webalizer aber nicht verwirren. Die Kommandostruktur ist einfach:
    "webalizer [Optionen] Pfad_zu_einer_Log-Datei".

    Nun zu den Optionen:

    • "-v" für "verbose" ist für das Experimentiern mit Linux-Kommandos immer gut.
    • Ferner erschient es logisch, dass wir die Ergebnisse irgendwie bezeichnen müssen; wir entdecken hierzu die Optionen "-n" und "-t" .
    • Dann ist klar, dass wir mehrere Dateien hintereinander auswerten müssen, ohne die Ergebnisse vorheriger Arbeit verlieren zu wollen. Wir finden hierzu die Option "-p" für "Incremental".
    • Das Output-Verzeichnis muss bekannt gegeben werden; hierzu dient die Option "-o".

    Für alles andere verlassen wir uns im Moment mal optimistisch auf Standardwerte.

  • Schritt 4: Wir bemühen schließlich die Kommandozeile - in meinem Fall mit:

    ich@mytux:~>webalizer -v -p -n norway-domain -t nw-since-2016 -o Path_To_Results/webalizer_nw   Path_To_Logs/logs_nw/NAME_OF_LOG_FILE

"NAME_OF_LOG_FILE" ist oft von der Form "Domain-Bezeichnung_Monat-Jahr.gz" - z.B.: anracom.com-Jan-2016.gz". Ja, gezippte Dateien sind zulässig; webalizer kümmert sich intern selbst um den Aufruf von "gunzip".

Das war's auch schon. Nun kann man auf der Kommandozeile seine vielen Log-Files händisch aufrufen. Oder aber ein kleines Script schreiben, das den Aufruf der verschiedenen Logdateien und die nötige Variation des Zeitanteils im Dateinamen für einen erledigt.

Während der Auswertung (mit der Option "-v") erhält man auf der Standardausgabe (im Terminalfenster) typischerweise viele Meldungen zur Reverse-DNS-Analyse.

Ergebnisdarstellungen

Sieht man in das Zielverzeichnis und auf die dort erzeugten Dateien, so bietet sich einem ausschnittsweise etwa folgendes Bild

Es gibt also viel Grafik-Dateien, weitere Hilfsdateien und eine "index.html"-Datei. Letztere können wir aber im Browser unserer Wahl (meist über einen Menüpunkt "Datei öffnen") direkt aufrufen.

Die Ergebnisse der Auswertungen werden uns danach in Form einfacher Tabellen und Grafiken im Browserfenster präsentiert. In meinem Fall ergab sich etwa folgende Einstiegsseite:

Extrem auffällig ist hier sofort der ungewöhnlich hohe Wert an transferierten Daten - insbesondere im Februar 2017. Schauen wir uns das mal genau an, indem wir auf den Link für Februar klicken; ich zeige nachfolgend nur Ausschnitte aus der detaillierten Seite für selbigen Monat:

Diese Grafik spricht schon mal dafür, dass die Hauptzugriffe nicht aus einer mitteleuropäischen Zeitzone erfolgen. Faktisch zeigen weitere Graphen, die ich hier nicht abbilde, dass viele Besucher in den USA lokalisiert waren.

Es lohnt sich, danach eine Blick auf die vielen anderen Grafiken zu werfen, die einem webalizer zu anderen Zusammenhängen bzgöl. erfasster Zugriffsdaten anbietet. Als ich mir etwa die Zuordnung der Datentransfermenge zu Ursprungsadressen ansah, ergab sich Folgendes:

Aha, da erkennen wir, dass die großen Dateitransfers von einigen wenigen Hosts erzeugt werden. Eine genauere nachfolgende Analyse führt dann etwa über die Ermittlung der zugehörigen IP-Adressen (z.B. mit ping oder gezielten DNS-Abfragen) und ein systematisches Durchsuchen von Blacklists im Internet.

So erhalten wir für den Hauptbösewicht "ec2-52-3-105-23.compute-1.amazonaws.com" (IP: 52.3.127.144), der sich auf er Website des Bekannten schon in früheren Monaten hervorgetan hatte, einen Eintrag bei https://www.abuseipdb.com/ und http://ipaddress.com/blacklist-check/:

Und auch hier ist der ungebetene Gast des norwegischen Bekannten zu finden: https://myip.ms/view/blacklist/872644496/52.3.127.144 und http://whatismyipaddress.com/blacklist-check

Fazit: This guy is up to no good!

Generell gilt, dass bei anonymen Bot-/Crawler-Systemen, die unter Amazon AWS gehostet sind und die Daten von Webseiten komplett herunterladen, Vorsicht geboten ist.

Unser Plagegeist gehört ferner zu einem Bot-Netz namens "ltx71":
https://udger.com/resources/ua-list/bot-detail?bot=ltx71
https://myip.ms/view/web_bots/1239532/Known_Web_Bots_ltx71_http_ltx71_com.html

Was Gutes ist über "ltx71" im Internet nicht in Erfahrung zu bringen. Die "Homepage" beinhaltet nur 2 Sätze: Ja, wir crawlen das Netz, aber für Sicherheitszwecke. Echt? Menschheitsfreunde? Auch ansonsten findet man auffallend wenig:
http://review.easycounter.com/ltx71-scam-report
http://www.diamantnetz.de/wzn/a_infos/botdestages.php
http://scamanalyze.com/check/ltx71.com.html
http://www.scamaider.com/is-ltx71.com-safe-legal.html

Der größte Traffic zu ltx71 kommt ferner angeblich von russischen Systemen. (Sagen Analyseseiten zu Domainen). Was immer das bedeutet ... Zudem umgehen ltx71-Crawler blockierende Anweisungen in einer evtl. angelegten "robots.txt"-Datei einer Zieldomäne. Alles nicht gut!

Bzgl. der Analyse verfährt man dann genauso mit den anderen, von webalizer ausgewiesenen dubiosen Datengreifern. In unserem Fall stellte sich heraus, dass ein weiterer Besucher auch zu ltx71 gehört.

Für mich gilt in einer solchen, nicht völlig klaren Situation die Leitlinie: Es gibt keine Freunde im Internet.

Schon gar nicht, wenn deren Systeme meine teuer bezahlten Ressourcen für dubiose Zwecke verbrauchen würden.

Gegenmaßnahmen?

Wir konnten unserem norwegischen Bekannten jedenfalls Bericht erstatten und erste Hinweise geben. Kümmern muss sich nun sein Provider.

Nur der Vollständigkeit halber: Sperren könnte man die dubiosen Crawler-Bots zunächst mal über Einträge in einer ".htaccess"-Datei im Hauptverzeichnis auf dem Webserver nach dem Muster

order allow,deny
deny from 52.3.127.144
deny from 52.23.169.223
deny from 52.207.224.143
deny from 54.225.29.79
deny from 52.3.105.23
deny from 54.172.241.121
deny from 104.197.241.64
allow from all

Das wird auf Dauer bei einem Botnetz aber nicht viel helfen; es werden im nächsten Monat mit Sicherheit andere IP-Adressen auftauchen. Dann muss man zu anderen Mitteln greifen, die aber nicht Gegenstand dieses Posts sein sollen.

Jedenfalls kann man Betreibern von Websites, deren Ressourcen in ungewöhnlicher Weise mit Beschlag belegt werden, nur raten, sich die Logs der betroffenen Websites regelmäßig und genau anzusehen. Dabei kann der sehr einfache durchzuführende Einsatz von webalizer bereits erste wertvolle Erkenntnisse zeitigen.

Links

http://www.webalizer.org/
http://www.techrepublic.com/article/analyzing-web-sites-with-webalizer/
https://lf.net/support/techinfo/webserver/webalizer.php
http://www.linux-community.de/Internal/Artikel/Print-Artikel/LinuxUser/2011/04/Zugriffsdaten-auswerten-mit-Webalizer
https://privatstrand.dirkschmidtke.de/2011/05/10/webalizer-auf-logfiles-loslassen/

Fasching, Webhosting bei 1&1 und mein Tränenbecken – I

1&1 war und ist einer der Platzhirsche in Deutschland, was Web-Hosting angeht. Durch den Zukauf von Strato durch den Mutterkonzern hat sich die Marktdominanz noch erhöht. Auch dieser Blog läuft im Rahmen eines Web-Hosting-Pakets bei 1&1. Das PC-Magazin hat diesen Provider als Hoster im Jahr 2016 ausgezeichnet. 1&1 wirbt selbst viel mit einem guten Kundenservice.

Da ist es doch schön, wenn man die Wirklichkeit, wie sie ein Endkunde erlebt, auch mal mit dem werbewirksamen Anspruch des Unternehmens vergleichen kann. Hierzu bot sich mir in den letzten Tagen eine praxisnahe Gelegenheit - im Auftrag einer Kundin "K" von 1&1, die wir in Web-Angelegenheiten immer wieder betreuen.

Die Geschichte ist einfach zu gut, um sie für sich zu behalten. Sie hinterließ bei mir trotz des munteren Faschingstreibens in den letzten Tagen sehr gemischte Gefühle. Immer wieder fühlte ich mich in eine Art Tragik-Komödie versetzt - auch wenn 1&1 nun endlich eine Lösung für besagte Kundin gefunden zu haben scheint. Die Fastenzeit hat offenbar auch ihr Gutes ...

Ich konzentriere mich in diesem Erfahrungsbericht zunächst auf das erlebte Kernproblem meiner Kundin - nämlich die unzureichende Webseiten-Performance - und faktische Ergebnisse von 8 Eskalationsversuchen meiner Wenigkeit.

Das Problem

Kundin "K" hat im letzten Herbst ihre Webseite von uns auf WordPress samt Kadence/Pinnacle-Theme umstellen lassen. Wir haben diese PHP-basierte Technologie verschiedentlich für Kunden im Einsatz. U.a. bei einem weiteren Webhosting-Kunden von 1&1, aber nicht nur dort. Getestet haben wir die erreichbare Performance ursprünglich auf eigenen Webservern unter Stressbedingungen, unter einem 12 Jahre alten Hosting-Vertrag bei Strato und unserem eigenen, ähnlich alten Vertrag bei 1&1. Bislang alles problemfrei.

Nach der Installation lief die Web-Site der Kundin zunächst auch wie erwartet. Antwortzeiten zum Abnahmezeitpunkt zwischen 1.2 und 3 Sek pro Seite - je nach Tageszeit.

Seit dem Jahreswechsel stellte besagte Kundin - nach Beschwerden ihrer eigenen Kundenklientel - jedoch fest, dass die Performance ihrer Site seit Januar immer schlechter wurde und zeitweise "unter aller Sau" war (Zitat; ein später konsultierter 1&1 Berater fand diesen Ausdruck durchaus angemessen).

Punktuelle Zugriffe Mitte/Ende Januar und Mitte Februar aus dem Ausland bestätigten den subjektiven Befund der Kundin. Auf Anforderung der Kundin haben wir das letzte Woche dann genauer überprüft. Während typischer Hauptlastzeiten mussten wir tatsächlich zeitweise Antwortzeiten im deutschen Internet zwischen 10 Sek und 30 Sek pro Webseite feststellen.

Eigene Tests unter einer 1&1-Testdomäne - um Faktoren bessere Antwortzeiten

Wir haben dann selbstverständlich die Site der Kundin für Tests mit identischen PHP-Programmen und (bis auf Links) identische Datenbanktabellen in einen anderen alten 1&1-(!)-Vertrag und auf damit assoziierte Web- und Datenbankserver bei 1&1 gespiegelt. Die Tests ergaben völlig andere Ergebnissen und eine um Faktoren bessere Performance!

Die Kundin hat dieses Ergebnis leider mit großer Verbitterung zur Kenntnis genommen. Sie wollte ihren Vertrag mit 1&1 daraufhin umgehend kündigen und den Anbieter wechseln. Was wegen Mindestvertragslaufzeiten aber zu keiner kurzfristigen Lösung geführt hätte.

Wir selbst vermuteten zunächst eine zu hohe Last auf den 1&1-Datenbankservern. Weitere Tests, die wir im Laufe der Zeit systematisch anstellten, haben diese These jedoch klar widerlegt.

Blieb eigentlich nur eine Überlastung der Webserver oder eine massive Benachteiligung der Kundin im Kampf um die Hosting-Ressourcen bei 1&1 als Erklärungsansatz übrig ...

Dazu muss man wissen, dass die Kundin seit 14 Jahren bei 1&1 knapp 12 Euro/Monat für 3 Domänen ohne SSL-Zertifikat abdrückt und sich durchaus als Stammkundin fühlt. In ihrer Jugend war das noch was wert.

Kontakt zum 24/7-Service von 1&1

Ich wandte mich letzte Woche dann im Auftrag unserer Kundin an 1&1 und hatte seitdem 8 mal Kontakt (zur Hotline und Hosting-Beratern) - mit steigender Eskalationstendenz meinerseits und wachsender Hilflosigkeit der Ansprechpartner (bis auf den letzten). Alle Ansprechpartner konzidierten immerhin ein größeres Problem - der eine oder andere schien geradezu geschockt von den schlechten Antwortzeiten zu sein; erst recht, wenn er dann als Kontrast die Zeiten der gleichen Anwendung auf unserer ebenfalls bei 1&1 gehosteten Testdomäne sah.

Besonders berührt hat das einen 1&1-Mitarbeiter, den wir am Faschingsdienstag um ca 23:00 Uhr konsultierten. Zu diesem Zeitpunkt hatten wir zähneknirschend und ohne jeden Erfolg bereits alle vorhergehenden Ratschläge von 1&1-Mitarbeitern (inkl. einer Vertragsumstellung) befolgt - ohne Erfolg. Der Support-Mitarbeiter hätte angesichts der Fakten gerne die "Techniker" involviert. Leider war trotz 24/7-Service bei der Technik um 23:00 Uhr niemand mehr erreichbar. Alaaf ...

Meine Frau vergnügte sich zu diesem Zeitpunkt zu Recht vor dem TV und auf Facebook. Ich musste mir deshalb mein Tränenbecken aus dem Glasschrank selber holen. In weiser Voraussicht ließ ich es auf meinem Schreibtisch stehen.

1&1 empfiehlt der Kundin stereotyp eine Vertragsumstellung - aber dadurch wird zunächst nichts besser

Als Ursache des Dramas wurde von den ersten 5 Ansprechpartnern vor dem 28.02. ein zu alter Vertrag (mit Speicher- und Performance-Einschränkungen) vermutet bzw. unterstellt. Das ist für das erste Gespräch am 23.02. mit einem 1&1-Vertretern eine außerordentlich freundliche Darstellung des Gesprächsverlaufs! Hier half auch mein Freund - das Tränenbecken - nicht mehr; vielmehr musste im Anschluss der "porcelain god" selbst angerufen werden, um mich wieder in Faschingslaune zu versetzen.

Alle nachfolgenden Berater waren dagegen sehr freundlich und ausgesprochen service-minded. Auch wenn das bis heute Mittag keine Wendung zum Besseren zeitigte, möchte ich bei dieser Gelegenheit doch die Ruhe und Besonnenheit der meisten Ansprechpartner (alles Männer) ausdrücklich loben! Die hatten es angesichts der Fakten ja nun wirklich nicht leicht und stießen regelmäßig an ihre Grenzen.

Geredet haben die Mitarbeiter aus dem Support und auch die Hosting-Berater dann viel über Hauptspeicheranforderungen moderner Web-Anwendungen, tolle SSDs in den aktuellen Datenbankservern und die schlimmen Begrenzungen alter 1&1-Verträge. Ich will das hier gar nicht weiter kommentieren. Ich kenne den relativ geringen Hauptspeicherbedarf der PHP-Applikation WordPress mit diversen Plaugins ganz gut; und der Nutzen von SSDs auf einem gut gepufferten und parametrierten MySQL-Datenbankserver entfaltet sich auch erst unter ganz bestimmten Anforderungen. Ich arbeite da zeitweise mit ganz anderen Kalibern an PHP-Anwendungen.

Die technischen Limits zur Ausführung von PHP-Anwendungen, die für den alten Vertrag der Kundin angeblich angewendet würden, konnte aber keiner der Berater zitieren oder belegen. Natürlich konnte auch nicht bestätigt werden, dass die aktuelle Anwendung die gesetzten Limits überschreiten würde. Ein Berater gab auf Rückfrage vielmehr zu, dass er nicht mal Zugriff auf die alten Vertragskonditionen hätte (interne Serverstörung!).

Vielleicht wäre ja aber ein konfigurierbarer Cloud-Server für unsere Kundin das Richtige?? Na, super! Geringfügige Mehrkosten ... Ach so ... Und wer kümmert sich dann um den Cloudserver und dessen Sicherheit? Und was kostet das dann? ..."Oh - ja, Ihre Kosten hatte ich gerade nicht auf dem Radar ..." Tja... und bevor ich es angesichts der Vielfalt aktueller 1&1-Angebote vergesse : Wieso genau lief und läuft dieselbe Applikation gehostet unter einem anderen aber ebenso alten Vertrag nochmal so viel besser? Weil ich drei Euronen pro Monat mehr zahle, die allein von den 4,99 Euro für ein SSL-Zertifikat aufgefressen werden?

Jeder der 1&1-Berater wurde von uns über die unterschiedlichen Laufzeitergebnisse zwischen der Domäne der Kundin und einer Testdomäne unter einem anderen ebenso alten Vertrag informiert. Die letzten 4 Berater wurden ferner über die Ergebnisse von Cross-Tests zwischen den verschiedenen Vertragsdomänen und und über Datenbanktests unterrichtet, die den Datenbankserver der Kundin als Ursache ausschlossen. Wir haben die 1&1-Berater ferner darauf hingewiesen, dass in Perioden geringer Last (Faschingssonntag, morgens) auch Antwortzeiten < 2 Sek angeboten wurden - und das die festgestellten schlechten Antwortzeiten offenbar an Zeiten hoher Grundlast für die Webserver gekoppelt waren. Und wir stellten immer wieder die Frage, ob es denn nicht sein könne, dass irgendwo bei 1&1 eine zu hohe Last vorläge und ob denn nicht ein Umzug auf einen anderen ihrer (Web-) Server etwas bringen könne ... ?

Mein Tränenbecken füllte sich dann interessanterweise auf magische Weise regelmäßig von selbst, wann immer ich das Stichwort "Stammkundin seit 14 Jahren" in Gesprächen mit dem 1&1-Support anzubringen versuchte. Besonders schnell geschah das, als ein 1&1-Gesprächspartner alte 1&1-Webhosting-Verträge mit alten Telekom-Verträgen verglich. Da würde man für schlechtere Leistung ja auch mehr zahlen als bei einem neuen Vertrag! Gott sei Dank war ein Blumentopf in der Nähe, als mein Freund - das Becken - überquoll. Ach, Deutschland, mein geliebte Servicewüste! Es ist Fasching und ich weiß - ich bin wieder daheim.

Kommentar der 1&1-Technik

Auch die 1&1-"Technik" ( 2nd-level Support ???) wurde dann mal eingeschaltet; das lapidare Resultat entsprechender Anstrengungen kam dann am Faschings-Sonntag per Mail:

Als mir diese Mail von "K" übermittelt wurde, dachte ich spontan an das Land der "alternativen Fakten". Wie schnell das doch über den großen Teich schwappt.... Meine Gattin muss wohl mein Gesicht gesehen haben - sie reichte mir das Tränenbecken unaufgefordert. Die vorhergehenden Spekulationen um Verträge und die prägnante, wie tiefgehenden Problemanalyse durch die 1&1-Technik taten das ihre ...

Umstellung des Vertrags der Kundin

Nach etlichem Hin und Her (dazu mehr in einem anderen Blog-Beitrag) wurde der Vertrag der Kundin dann tatsächlich (bei Mehrkosten) auf ein aktuelles Paket "Unlimited Plus" umgestellt; dies geschah am 28.02. nach einem Sponsoringversuch durch eine geringfügige Gutschrift für bislang durch "K" in 2 Monaten erduldeten Qualen.

Zu den Erlebnissen während der praktischen Vertragsumstellung im nächsten Beitrag mehr; ich habe mir erneut mehrfach die Auffangschale unter tropfende Augen halten lassen. Eigentlich wollte sich unsere Kundin auf eine Vertragsänderung gar nicht mehr einlassen. Wir haben sie mühsam dazu motivieren müssen. "Alternative Chancen für die Schaffung neuer alternativer Fakten" würden heutzutage ja selbst Präsidenten eingeräumt - und den deutschen Verbraucherschutz könne sie ja immer noch einschalten.

Das traurige Ergebnis der Tarifumstellung war leider:
Von einer Verbesserung konnte weder am 28.02. noch am 01.03. die Rede sein. Am 01.03. wurde auf Anraten eines 1&1-Beraters dan zusätzlich die Datenbank auf einen neuen Datenbankserver des aktualisierten Vertrages verlagert. Effekt: Die Antwortzeiten wurden noch schlechter! Zufall oder System? Oder Faschings-Kater der 1&1-Server?

Das Tränenbecken musste erneut mehrfach ausgekippt werden. Erst recht nach dem darauf folgenden Telefonat mit "K".

Performance am heutigen Vormittag (02.03.)

Ich stelle nachfolgend den Stand der Performance am heutigen Vormittag in mehreren Tabellen dar. Diese Zeitreihen verdeutlichen das grundsätzliche Problem, das die Kundin seit Januar hatte, sehr gut; auch wenn hier nur die Spitze des Eisberges schlaglichtartig sichtbar wird.

Die obere Zeile in den nachfolgenden Tabellen entspricht jeweils der Web-Domäne aus dem aktuellen Vertrag "Unlimited Plus" der Kundin [K], die unter einer identisch konfigurierten "Testdomaine" [T] unter einem alten "Business 5.0"-Vertrag.

In beiden Fällen lief zunächst PHP 5.6 und dann (nach einer gezielten Umstellung) PHP 7 auf den gehosteten Web-Servern. Um die Dinge besser vergleichbar zu machen, erfolgte aus der Testdomäne heraus ein Zugriff auf einen Datenbankserver, der dem aktuellen Vertrag der Kundin zugeordnet ist.

Aufgerufen wurde dabei immer dieselben 3 Seiten in 2 Zyklen - abwechselnd für K und T.
Alle Werte in Sekunden !

Zeit 02.03.2017, 11:00 Uhr

K 7,0 3,2 4,4 7,6 3,0 2,7
T 1,1 0,8 0,6 0,9 0,6 0,5

Zeit 02.03.2017, 11:10 Uhr

K 5,9 4,5 6,3 5,9 11,0 6,3
T 0,9 1,9 2,1 2,0 1,1 0,6

Zeit 02.03.2017, 11:14 Uhr

K 11,3 11,3 4,8 7,6 8,9 10,5
T 1,6 1,0 0,7 0,7 0,9 1,3

Zeit 02.03.2017, 11:15 Uhr

K 5,3 9,3 12,8 11,8 8,4 5,4
T 4,3 0,9 1,1 1,0 1,0 1,2

Zeit 02.03.2017, 11:20 Uhr

K 16,0 5,8 9,4 10,2 13,6 14,6
T 0,9 0,9 0,6 0,9 0,8 0,7

Zeit 02.03.2017, 11:25 Uhr

K 15,0 15,5 23,5 21,3 21,4 12,3
T 1,6 1,7 1,0 0,8 0,5 5,6

Zeit 02.03.2017, 11:30 Uhr

K 6,5 8,0 6,6 10,0 8,0 12,1
T 1,5 0,7 2,1 0,9 0,8 0,6

Zeit 02.03.2017, 11:50 Uhr

K 8,5 8,1 7,6 7,8 5,4 5,6
T 0,6 1,2 0,9 0,7 0,6 0,8

Zeit 02.03.2017, 12:00 Uhr

K 15,2 13,3 16,6 11,4 9,2 15,2
T 0,6 1,2 1,2 0,9 0,8 1,0

Ein Kommentar ist eigentlich überflüssig. Antwortzeiten zwischen 6 und 23 Sekunden pro Webseite sind aus Kundensicht unakzeptabel. Erst recht, wenn man zu einer Vertragsumstellung mit Mehrkosten geradezu genötigt wurde.

Und auch "K" kam sich angesichts der Daten natürlich veralbert vor und fand das einen Tag nach Aschermittwoch ziemlich unangemessen. Ich habe ihr angeboten, ihr zeitweise meine Tränenschale auszuleihen.

Fastenzeit und Licht am Ende des Tunnels

Gestern - am Aschermittwoch - gegen Mittag habe ich dann nochmal bei 1&1 angerufen. Der Mitarbeiter der Hotline verstand das Problem sofort und verglich die 20 Sekunden Antwortzeit auch brav mit der entsprechenden Zeit unserer Testdomäne bei 1&1. Dann gab es ein paar (sehr intelligente) Fragen zur Querverbindung auf die Datenbank der Kundin. Nebenbei studierte er die Kommentare seiner Vorgänger - und bat mich irgendwann, ihm Kommentare dazu zu ersparen. Dann fiel das Wort "Überlast". Er kam dann mit einem Lösungsvorschlag, für den wir ihm aber 24 Stunden einräumen müssten. Es gab auch eine wenig transparente Bezeichnung des kostenfreien Lösungsansatzes - irgendwas mit "...-Flat" - im Effekt sollte das zu einer "echten" Verschiebung auf andere Server führen. Ach ne .... Der vorhergehende Vertragswechsel hatte einen solchen grundlegenden Wechsel dann wohl nicht bewirkt??? ... Hm, und komischerweise sei diese Option bei dem Test-Domänen-Vertrag gar nicht aktiviert ...

Es ist Aschermittwoch - und auch ohne die Berichte aus Passau gesehen zu haben, beginne ich zu beten ....

Erlösung

Heute zw. 12.00 und 13:00 Uhr scheint 1&1 dann gerochen zu haben, dass ich an diesem Blog-Artikel schrieb. Jedenfalls flog ich plötzlich aus der FTP-Verbindung zum 1&1-Webspace unserer Kundin raus und kam auch erst wieder rein, nachdem ich eine dynamische IP-Adressbestimmung des 1&1-FTP-Servers in unserer Firewall zuließ. Ein Hinweis auf eine substanzielle Änderung? Erhörung meiner Gebete vom Vortag? Also: neuer Test nach dem obigen Muster. Und plötzlich erhalten wir bereits den ganzen Nachmittag geradezu traumhafte Antwortzeiten. Aktueller Stand:

Zeit 02.03.2017, 17:15 Uhr

K 0,4 0,6 0,6 0,6 0,8 0,4
T 1,0 0,7 1,1 0,6 0,6 0,7

Ich bin jetzt so gerührt, dass ich wieder mein Tränenbecken bemühen muss. Mehr zu einer Bewertung des Vorgang aus ITSM-Sicht daher morgen.

SSD Raid Arrays unter Linux – III – negative Aspekte von Raid-5-Arrays

Im letzten Artikel dieser Serie

SSD Raid Arrays unter Linux – II - Optimiertes SW Raid oder Intel RST Fake Raid?

hatte ich am Beispiel des Intel Z170 RST Controllers ausgeführt, dass es auf einem reinen Linux-System für Raid-Setups nicht notwendig ist, einen Intel-Onboard-Fake-Raid-Controller zu bemühen. Man nimmt sich gegenüber einer SW-Raid-Variante Flexibilität; aber auch die erreichbare Performance ist kein Argument gegen einen reinen SW-Raid-Betrieb unter Linux. Bei Einsatz eines SW-Raid-Arrays für SSDs ist unter Linux allerdings ein wenig Umsicht angebracht. U.a. stellt sich die Frage nach der Wahl der Raid-Variante. In meinem Fall für 4 SSDs. Da liegen als grundsätzliche Alternativen etwa Raid-10 oder Raid-5 Arrays nahe.

In diesem Beitrag möchte ich zwei Argumente dafür anführen, dass die Wahl eines Raid-5-Arrays trotz des größeren verfügbaren (und teuren) SSD-Plattenplatz und guter Performance im sequentiellen Bereich nicht unbedingt die beste Entscheidung ist.

Was sprach im HD-Zeitalter gegen Raid-5- oder Raid-6-Arrays?

Zu nennen war hier aus meiner Sicht an erster Stelle der erhebliche Zeitbedarf zur Rekonstruktion eines degraded Raid-5- oder Raid-6-Arrays - z.B. aufgrund einer defekten Platte oder eines ernsten Fehlers im System (ja, letzteres kommt ab und zu auch unter Linux vor). Das galt im Besonderen, wenn man die Zeitanteile für Rekonstruktionsaufgaben im Raid-Controller oder in der Raid-SW zugunsten der produktiven Performance reduziert hatte.

Nun sind SSDs ja sehr viel rascher als konventionelle HDs. Aus diesem Grund sagten einige Sysadministratoren in Internet-Foren sogar eine Renaissance für Raid-5-Arrays im Kontext eines SSD-Einsatzes voraus. Das Argument ist auch in der Praxis nachvollziehbar. Setzt man die Priorität für eine Raid-5-Resynchronisierung auf Mittelwerte, so liegen die Zeiten für ein 1 TB-Array deutlich unter einer Stunde. Das ist aus meiner Sicht OK. Hinzu kommt die bessere Plattenplatznutzung im Vergleich zu einem Raid-10-System.

Das anderes Argument gegen Raid-5 war die meist schlechte Performance für Random I/O-Bereich und dies vor allem bei kleinen Größen der stückweise zu schreibenden Datenmengen. Write-Caches einiger echter HW-Raid-Controller haben hier geholfen; der Einsatz eines Schreibpuffers ist aber mit Risiken verbunden; Batteriepuffer der Controller waren meist obligatorisch. Um das Thema Performance Raid-5 gegenüber Raid-10 im Fall von SW-Raid unter Linux kümmere ich mich genauer in einem der kommenden Artikel. In diesem Artikel beleuchte ich zwei andere Aspekte - nämlich das Resynchronisationsverhalten bei degraded Arrays und dei Ausführung des FSTRIM-Befehls.

Raid 5 mit einem Intel Raid Fake Controller

In meiner grenzenlosen Naivität begann ich bei der Einrichtung meines SSD-Testsystem zunächst damit, mit Hilfe des onboard iRST-Controllers ein Raid 5-System zu etablieren, obwohl ja bekannt ist, dass eine gerade Anzahl von Platten und Raid 5 nicht sonderlich gut zueinander passen. Für Raid 5 sprachen aus meiner Sicht aber folgende Punkte:

  • Bessere Nutzung der (relativ teuren) Plattenkapazität als mit Raid 10.
  • Optimierung vieler (Fake-) Raid-Controller auf Raid 5.
  • Und nicht zuletzt verleiteten mich meine früheren relativ schlechten Erfahrungen mit Raid 10 auf 3ware-Controllern bei Random I/O zu einem Versuch, mal Raid 5 auszuprobieren.

Ich habe deshalb 4 x 500 GB-SSDs [Samsung EVO 850] zu einem Raid 5-Verbund zusammengeschaltet; dabei wurden ca. 460 GB pro Platte effektiv genutzt. Zum Aufsetzen nutzte ich die UEFI-BIOS-Bordmittel für den Intel-Controller (s. den vorhergehenden Post in diesem Blog). Die resultierende Performance war auch überzeugend:

Ein Read-Durchsatz im sequentiellen Bereich um die 1.45 GB/sec und hohe sequentielle Schreibraten im Bereich von 1.1 GB/sec ließen mich zunächst nicht an meinem Vorgehen zweifeln. Hinzu kam - im Vergleich zu Raid 10 - die relativ hohe verfügbare Plattenkapazität (> 1,36 GB bei 4 EVO 850 500GB SSDs).

Das Betriebssystem hatte ich im ersten Anlauf dummerweise auch im Raid-System selbst installiert. Das kostet, wie bereits im letzten Artikel festgestellt, ca. 10% an Performance. Ich habe die voreilige Entscheidung für Raid 5 dann aber aus einem anderen Grund als vordergründigen Performance-Einbußen bereut.

Resynchronisation des Raid-5-Systems nach Ausfall einer Platte

Dann geschah nämlich etwas, dass normalerweise nicht passieren sollte. Ich hatte ein SATA-Verbindungskabel nicht richtig gesteckt. Als das PC-Gehäuse dann mal bewegt wurde, löste sich das Kabel aus der SSD - mit dem Effekt, dass das Array beim nächsten Start in einen "degraded" Zustand überging. Kein Problem, dachte ich. Genau für solche Situationen hat man ja ein RAID-System. Ich ließ das Array danach wieder aufbauen - der Resynchronisierungsvorgang wurde mit der entsprechenden Funktionalität des Fake-Contorllers im BIOS gestartet und die eigentliche Ausführung dann im gestarteten Linux-System vorgenommen. Insgesamt dauerte das nicht so lange wie aufgrund vieler Internet-Artikel zu dieser Thematik und aufgrund eigener Erfahrungen mit Harddisks befürchtet. Ich habe die Zeit nicht gemessen, aber es dauerte, wie gesagt, sicher deutlich weniger als 1 Stunde.

Was mich dann allerdings schockte, war ein Blick auf den SSD-Zustand mit Hilfe des Kommandos smartctl. Ist Smart im Bios aktiviert, so ist eine Zustandsüberprüfung einzelner SSDs (zumindest auf meinem ASRock-Board) sowohl bei Einsatz eines SW-Raids als auch bei Einsatz des Fake-Raid-Controllers möglich.

Die durch den Ausfall betroffene SSD lief bei mir als Device "/dev/sdd". Die übrigen Devices des Raid-5-Arrays unter /dev/sda, /dev/sdb, /devsdc. Unter den vielen ausgewiesenen Smart-Daten stelle ich nachfolgend nur die Anzahl der "Total_LBAs_written" dar:

Total_LBAs_Written
sda : 604127952
sdb : 846533123
sdc : 603302987
sdd: 3763859973 !!

Nach vielen, vielen Testläufen und ca. 10 immer neuen initialen Raid10-Synchronisationen über 100 GB, 200 GB oder 400 GB-Raid-10-Arrays sieht das heute so aus:

Total_LBAs_Written
sda: 979783261
sdb: 1211867704
sdc: 995650995
sdd: 4121599736

Es ist offensichtlich, dass die eine Resync-Aktion für die Wiederherstellung des Raid-5(!)-Arrays über die gesamte Platte "/dev/sdd" hinweg geschrieben hat (Daten- und Paritätsinformationen). Gleichzeitig ging der Parameter "Wear_Leveling_Count" der vom Ausfall betroffenen Platte um 1 Prozentpunkt nach unten. Die Belastung der Platte durch den Raid-5-Resynchronisationsprozess ist also substanziell gewesen.

Die Wiederherstellung eines Raid10-Arrays erwies sich dagegen in Tests relativ harmlos. Dort werden lediglich abweichende, bereits genutzte Blöcke synchronisiert. Die Resynchronisation ist zudem erheblich schneller als bei Raid 5 abgeschlossen.

Wie ist das Schreiben für die Raid-5-Rekonstruktion im Vergleich zu normaler Plattenbelastung zu werten?

Zum Vergleich: Eine in einem anderen System seit 2 Jahren als Betriebssystemplatte mit virtuellen Maschinen im Dauereinsatz, aber nicht in einem Raid-Verbund befindliche Samsung EVO 840 Pro weist heute einen Wert von

Total_LBAs_Written
sdx: 7968906003

auf. Das ist also immer noch weniger als das Doppelte dessen, was mich eine einzige (!) Resync-Aktion einer Raid-5-SSD gekostet hat. Das liegt nun keineswegs am Einsatz des Fake-Raid-Controllers; die Steuerung und Datenverteilung erfolgt auch hier über Funktionen von Linux's SW-Raid-Verwaltungstools mdadm.

Wie oft muss man mit einem solchen Resync-Prozess rechnen? Erst vor kurzem hatte ich mal einen der zugegebenermaßen seltenen Hänger des KDE-Plasma-Desktops auf dem Testsystem. Das System hing danach vollkommen. Ich befürchtete schon das Schlimmste; der Filesystemzustand war zum Absturzzeitpunkt zwar fehlerhaft, der Plattenzustand über das Raid-Array hinweg aber konsistent. Aber dafür gibt es nun leider überhaupt keine Garantie - schon gar nicht im Falle eines Absturzes während eines intensiven Datentransfers (lesend und schreibend) zu einem Raid-5-System. Ein inkonsistenter Zustand der Platten im Raid-System nach einem ernsthaften Systemfehler ist aus meiner Sicht eher wahrscheinlich. Und dann würde zur Sicherheit vermutlich das gesamte Raid-5-System resynchronisiert werden.

Reichweite des TRIM-Befehls

Ein weiterer Punkt, der im Zusammenhang mit SSDs zu beachten ist, ist das Thema der sog. "Write Amplification" (s. https://en.wikipedia.org/wiki/Write_amplification). Flash-Speicher muss vor einem Neubeschreiben erst gelöscht werden; das führt u.U. zu Verschiebungen von Speicherinhalten und mehrfachen Schreiboperationen. Das reduziert potentiell sowohl die Performance als auch die Lebenszeit von SSDs.

Neben den reinen Nutzdaten müssen im Normalbetrieb auf allen Platten eines Raid 5/6-Verbunds Paritätsinformationen geschrieben werden. Write Amplification (durch Verlagerung von Blöcken auf SSDs) trägt also gerade im Fall von Paritäts-Raids zusätzlich zu einer stärkeren Abnutzung der SSDs bei - gerade in kleineren Arrays (< 8 disks). Theoretisch ist aber die Anzahl der insgesamt durchzuführenden Schreiboperationen auch bei Raid 10 ja nicht kleiner als bei Raid 5. Insofern erscheint mir das Thema der Write Amplification als solches allein noch kein Argument für oder gegen Raid 5 oder Raid 10 zu sein. Eine Konsequenz zur Aufrechterhaltung der Performance und zur Vermeidung von Zeitverlust durch Löschungen besetzter Blöcke bzw. Suchen nach freien Blöcken auf der Platte ist aber, dass die Information über freie Knoten mit dahinterliegenden direkt beschreibbaren Speicherelementen regelmäßig upgedated werden muss. Das Filesystem muss den SSD-Controller - gemeint ist hier der Controller auf der SSD und nicht der Fake-Raid-Controller - über freigewordene, ungenutzte Speicherelemente informieren. Der SSD-Controller muss mit den im Rahmen des (S)ATA-Protokolls übertragenen Information natürlich auch was anfangen können; letzteres ist heute weitgehend der Fall. Unter Linux erledigt das der "fstrim"-Befehl für gemountete Partitionen: einerseits erfolgt die Weitergabe der Information zu freien Knoten; andererseits werden dann von den SSD-Controllern sog. "discard"-Operationen für logisch freigegebene Speicherelemente durchführt. Fortschrittliche Controllers sehen zudem regelmäßige Lösch- und Speicher-Reorganisationsverfahren (SSD garbadge collection) auf den SSDs vor. Nun können Betriebssystem und Raid-(Controlling)-SW zwar in intelligenter Weise dazu beizutragen, um "Write Amplification" zu reduzieren. Hierfür sind meist Zwischenpufferungen von Operationen nötig. Siehe hierzu die interessanten Diskussionen unter http://www.webhostingtalk.com/showthread.php?t=1457939
http://cesg.tamu.edu/wp-content/uploads/2012/02/hotstorage13.pdf

Aber:
Das Thema der Speicherfreigabe und -reorganisation bleibt unabhängig von der Anzahl der Schreiboperationen für SSD-Raid-Arrays bestehen. Somit stellt sich für den Einsatz eines bestimmten Raid-Verfahrens für SSDs auch die Frage, ob der "FSTRIM"-Befehl für die verschiedenen Raid-Varianten eigentlich durch die potentiell betroffenen Layer

Linux-Filesystem (z.B. ext4) - Logical Volume einer LVM-Gruppe - Array über Raid-Partitionen - Partitionen verschiedener SSDs

zu den Controllern der beteiligten SSDs durchgereicht wird.

Leider ist das gerade für Raid-5- oder Raid-6-Arrays nicht der Fall - weder im Falle von SW-Raid noch im Falle des Einsatzes eines Intel Z170 Fake-Controllers. Ich erhalte bei entsprechenden Versuchen regelmäßig Meldungen, dass die zugrundeliegende Infrastruktur den fstrim-Befehl nicht unterstützen würde.

Auf meinen Test-Systemen konnte ich dagegen feststellen, dass der FSTRIM-Befehl an logische LVM-Volumes auf Raid-0-, Raid-1- und Raid-10-Arrays anstandslos durchgereicht wird - zumindest für ext4-Filesysteme. (Andere Filesysteme wie BTRFS habe ich nicht getestet; generell herrscht ja die begründete Meinung vor, dass EXT4 dem Verhalten von SSDs am besten entgegenkommt). Das gilt für reines SW-Raid unter mdadm wie auch den Einsatz des Onboard Fake Raid-Controllers von Intel. (Diese Aussagen kann ich genau genommen im Moment nur für Opensuse-Leap 42.1/42.2 (Kernel 4.4) und ein Debian Jessie-Test-Systeme mit Kernel 4.7 treffen.)

D.h. potentielle Einschränkungen der Performance sind zumindest bei ext4-Filesystemen auf Raid-5-Systemen vorprogrammiert, wenn nicht der Plattencontroller selbst die Garbage Collection und Speicherreorganisation übernimmt. Tatsächlich konnte ich für ext4-Partitionen nach Durchführung von Tests, bei denen mehr als 40 % eines Filesystems beschrieben wurden, regelmäßig Performanceverbesserungen nach Absetzen eines FSTRIM-Befehls feststellen. Zwar keine weltbewegenden Änderungen, aber doch im 10% - 20%-Bereich. Einschränkungen der Performance tauchen mit dem Auffüllen einer Partition also mit hoher Wahrscheinlichkeit auf.

Nun wird und wurde von SSD-Herstellern und Kommentatoren im Internet oft angeführt, dass gerade größere SSDs für den professionellen Einsatz selbst für eine regelmäßige Garbage Collection sorgen. Nun habe ich sowohl EVO 840 Pros und EVO 850 Pros mit 500GB Kapazität auf verschiedenen Systemen im Einsatz und setze ab und zu den fstrim-Befehl für eingerichtete Partitionen manuell ab. Die benötigten Zeiten zur Speicherreorganisation dauern für meine Gefühl relativ lange und betreffen manchmal etliche zig GB. Dabei werden offenbar auch echte Operationen auf den Disks durchgeführt. Das spricht aus meiner Sicht zumindest nicht für eine hohe Frequenz der automatischen Garbage Collection der SSD-Controller. Das mag bei anderen SSDs anders sein.

Aus meiner Sicht ist es daher empfehlenswert, vor dem produktiven Einsatz sicherzustellen, dass entweder die eingesetzten SSDs selbst eine Garbage Collection durchführen oder eben der FSTRIM Befehl im angestrebten Raid-Verbund funktioniert.

Warnung von Red Hat vor dem Einsatz von SW-Raid-5 mit SSDs

Eigentlich hätte man ja fast mit dem oben beschriebenen Resynchronisations-Verhalten nach einem Plattenausfall rechnen können: Wenn 1 Platte ausfällt, müssen auf der Ersatzplatte (in meinem Fall die ursprüngliche Platte) ja alle Dateninformationen untersucht, Paritätsinformationen neu berechnet und neu geschrieben werden. Es war naiv anzunehmen, dass man die Platte einfach wieder einhängen könne - und die meisten Informationen beim Resynchronisieren noch als valide erkannt werden würden.

Wie eine Recherche im Internet ergab, warnt Red Hat aus ähnlichen Gründen vor dem Einsatz u.a. von Raid 5 für SSDs; s.
https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/6/html/Storage_Administration_Guide/ch-ssd.html
https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Storage_Administration_Guide/ch-ssd.html
Zitat:

Red Hat also warns that software RAID levels 1, 4, 5, and 6 are not recommended for use on SSDs. During the initialization stage of these RAID levels, some RAID management utilities (such as mdadm) write to all of the blocks on the storage device to ensure that checksums operate properly. This will cause the performance of the SSD to degrade quickly.

Fazit

Legt man die obigen Erfahrungen zugrunde, so läuft die Entscheidung zwischen Raid 10 und Raid 6 im Normalbetrieb auf

  • eine Abwägung von Performance-Vor- und -Nachteilen,
  • eine Bewertung des effektiv verfügbaren Plattenplatzes
  • und eine Bewertung des SSD-Verschleißes, der im Fall der Resynchronisation eines Degraded Raid-5-Arrays auftritt,

hinaus.

Die Tatsache, dass alle Blöcke eines ausgefallenen Raid-5-Devices bei Resynchronisations-Prozessen neu geschrieben werden, ist für mich jedenfalls Grund genug, auf (SW-) Raid-5 zu verzichten. Das ist schlicht ein Kostenthema. Mag sein, dass neue SSDs länger halten als alte. Aber nach 3 Jahren bereut man es dann plötzlich, dass die Platten ggf. den hohen Belastungen in mehreren Synchronisations-Prozessen ausgesetzt waren. Mich beunruhigt es jedenfalls, wenn eine einzige Resynchronisation der Platte mehr abfordert als 1 bis 2 Jahre Normalbetrieb. Das Kostenargument betrifft aus meiner Sicht vor allem kleinere Unternehmen und Freelancer, die Linux-Arbeitsstationen und -Server einsetzen, deren finanzielle Ressourcen und Möglichkeiten zum Austausch ganzer SSD-Arrays begrenzt sind.

Hinzu kommen potentielle Performance-Einbußen durch ein fehlendes Weiterreichen des FSTRIM-Befehls an Filesysteme auf Raid-5-Arrays. Das relativiert die Performance-Vorteile beim Lesen, die ein Raid-5-System gegenüber einem Raid-10-System aufweist, etwas. Zudem gilt:

Wer aus irgendwelchen Gründen eine verbesserte Lese-Performance unter Raid 10 anstrebt, kann auch mal das Far- der ein Near/Far-Layout des Raid10-Arrays ausprobieren. Das Far-Layout geht allerdings zu Lasten der Schreibperformance - und dies besonderes für Random I/O. Aber Raid-5 ist gerade für häufigen Random I/O kleinerer zu schreibender Datenmengen wenig performant.

Ich komme auf Performance-Aspekte in weiteren Artikeln dieser Serie zurück.

Interessante Links

https://www.thomas-krenn.com/de/wiki/ATA_Trim
https://wiki.debian.org/SSDOptimization
http://cesg.tamu.edu/wp-content/uploads/2012/02/hotstorage13.pdf
https://en.wikipedia.org/wiki/Write_amplification
http://www.webhostingtalk.com/showthread.php?t=1457939
http://serverfault.com/questions/513909/what-are-the-main-points-to-avoid-raid5-with-ssd
https://lowendtalk.com/discussion/10000/don-t-build-ssd-in-raid5
https://www.reddit.com/r/sysadmin/comments/3m9req/how_would_you_configure_an_mdadm_raid_5_w_ssds/?st=ivpbg325&sh=a09d50fd
http://researchweb.watson.ibm.com/haifa/conferences/systor2011/present/session5_talk2_systor2011.pdf
http://superuser.com/questions/461506/intel-matrix-storage-manager-vs-linux-software-raid

Bzgl. der grundsätzlichen Einstellung von LVMs und des Absetzens von TRIM-Anweisungen im Kontext von LVM-Operationen siehe etwa:
http://blog.neutrino.es/2013/howto-properly-activate-trim-for-your-ssd-on-linux-fstrim-lvm-and-dmcrypt/

Near/Far-Layout füe Linux SW-Raid-10
http://www.ilsistemista.net/index.php/linux-a-unix/35-linux-software-raid-10-layouts-performance-near-far-and-offset-benchmark-analysis.html?start=1

Bitmaps
http://www.tutorialspoint.com/unix_commands/mdadm.htm