Serverstatus: Unterschied zwischen den Versionen
Sbiele (Diskussion | Beiträge) (→Didizierter Server) |
Sbiele (Diskussion | Beiträge) (→TraiNex-Applikations-Server) |
||
| (50 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
| Zeile 1: | Zeile 1: | ||
| + | __notoc__ | ||
| + | |||
| + | |||
| + | == '''Aktuelle Störungen''' == | ||
| + | 42-Störung ist behoben!<BR>Historie: | ||
| + | Der 42er-Server hat seit dem 25.5. periodische Probleme. Das Rechenzentrum und wir analysieren bereits. | ||
| + | Bisher ist wahrscheinlich, dass es KEIN Angriff ist. Zur Sicherheit werden die Systeme trotzdem evakuiert. | ||
| + | Ein Zusatzanalyseprogramm ist seit dem 27.5. im Einsatz. Am 28.5. um 1.00 Uhr (morgens) wurde ein Windows-Kernel-Problem identifiziert. | ||
| + | 28.5. gegen 21 Uhr: die Lage ist teilweise entschärft. Im Laufe des heutigen Feiertages werden noch Tests durchgeführt. | ||
| + | 29.5.: Server läuft scheinbar ohne Probleme. | ||
| + | 30.5.: Wieder periodische Ausfälle, weitere Analyse und Teil-Evakuierung läuft. | ||
| + | 31.5.: Rechenzentrum meldet defekte Platte im RAID-System. Kunden sind bereits zu 90% evakuiert. | ||
| + | 1.6.: RAID-Festplatte wird ausgetauscht und RAID setzt sich neu auf. | ||
| + | 2.6.: Festplattencontroller wird zusätzlich ausgetauscht. | ||
| + | 3.6.: Server läuft wieder normal. | ||
| + | |||
| + | |||
| + | <!--- | ||
| + | Derzeit sind keine größeren Störungen bekannt. Größer sind Störungen, wenn diese länger andauern als 120 Minuten . | ||
| + | ---> | ||
| + | |||
| + | |||
| + | <!--- | ||
| + | '''29.4.2025''': Zwei Systeme 42 sowie 25 sind ausgefallen und per Web nicht erreichbar. Das Rechenzentrum wurde informiert und analysiert das Problem zusammen mit uns. | ||
| + | Es scheint eine Problematik in der Netzwerkstruktur des Rechenzentrums zu sein. Gute Nachricht: die Server sind ansonsten normal im Betrieb, gestört ist nur die Internetverbindung.<BR> | ||
| + | '''18 Uhr:''' eine einfache HTML-Test-Seite ist nun wieder aufrufbar. Der Server wird im Internet also wieder gefunden. | ||
| + | Wir kümmern uns nun um die beschädigte Anbindung von ColdFusion.<BR> | ||
| + | '''22 Uhr:''' das Rechenzentrum konnte einen Zusatz-Fehler gegen 22 Uhr identifizieren. Ein Switch wurde neu aktiviert. Über Nacht läuft ein Wartungsprogramm. Morgen früh wird ein zusätzlicher Spezialist sich mit dem Problem befassen. Der 25er läuft bereits wieder seit 23 Uhr.<BR> | ||
| + | '''30.4.25:''' Wir gehen davon aus, dass auch der 42er bis 11 Uhr wieder läuft.<BR> | ||
| + | '''10 Uhr''': Auch der 42-Server läuft wieder im Normalbetrieb.<BR> | ||
| + | '''10.30 Uhr''': Die normale Geschwindigkeit ist erreicht.<BR> | ||
| + | Der Fehler ist behoben. Die Server werden die nächsten Tage genau beobachtet und nochmals geprüft.<BR> | ||
| + | Bisherige Analyse: Aufgrund einer mehrminütigen Überlastungsanfrage aus dem Ausland, die das Rechenzentrum getroffen hat, wurde ein RZ-Switch zur Sicherheit in einen Modus versetzt, der die Serverkommunikation unterbunden hat. Dieser Modus wurde aber nicht nach der Überlastung zurückgesetzt. Die TraiNex-Server haben deshalb in Folge niemals die Datenbanken korrekt erreicht sondern nur inkorrekt, was zu einer Überlastungsschleife geführt hat. Der Datenbankserver ist dadurch "eingefroren". Es wurden Maßnahmen getroffen, um dies zukünftig schneller zu erkennen. | ||
| + | ---> | ||
| + | |||
| + | |||
| + | |||
| + | <!-- | ||
| + | Es sind derzeit keine Störungen bekannt. | ||
| + | --> | ||
| + | |||
== Rechenzentrum == | == Rechenzentrum == | ||
| − | Sollte das Rechenzentrum einen Ausfall oder eine Wartung haben, so wird hier dazu informiert: https://www.myloc-status.de/de/ | + | Sollte das Rechenzentrum einen größeren Ausfall oder eine größere Wartung haben, wo mehrere Systeme betroffen sind, so wird hier vom Rechenzentrum dazu informiert: https://www.myloc-status.de/de/ <BR> |
| + | Ihr Server gehört dort zu einem Hostsystem, dessen Nummer (z.B. 045) Sie in TraiNex in den Details der technischen Verfügbarkeit der [[Logdatei]] finden oder erfragen können bei [[TrOn]]. | ||
| + | |||
| + | == Datenbank-Server == | ||
| + | Ihre Datenbank wird ggf. getrennt von der Applikation gehostet auf einem anderen Host-System im Rechenzentrum. Details dazu erfahren Sie bei [[TrOn]]. Wenn Sie 2 Hostsysteme haben, dann werden Ihnen beide Nummern in der Logdatei angezeigt. | ||
== Adobe Connect == | == Adobe Connect == | ||
Sollte AdobeConnect einen Ausfall haben, so wird hier dazu informiert: https://status.adobe.com/products/3011 | Sollte AdobeConnect einen Ausfall haben, so wird hier dazu informiert: https://status.adobe.com/products/3011 | ||
| − | == | + | == Mail-Server == |
| − | + | Der für den SMTP-Versand von TraiNex-Mails zuständige Mailserver wird im Hinblick auf Verfügbarkeit (Ping) sowie Blacklist-Einträgen überwacht. Details stellen wir Ihnen zur Verfügung im Bereich "technische Verfügbarkeit" in der [[Logdatei]]. | |
| − | [[Datei:Serv1.JPG|thumb|right|750px|BEISPIEL für aktuelle Verfügbarkeit: | + | == TraiNex-Applikations-Server == |
| + | [[Datei:Serv1.JPG|thumb|right|750px|BEISPIEL für aktuelle Verfügbarkeit: Rote Farbe würde ein Problem signalisieren]] | ||
[[Datei:Serv2.JPG|thumb|right|750px|BEISPIEL für Verfügbarkeitsverlauf]] | [[Datei:Serv2.JPG|thumb|right|750px|BEISPIEL für Verfügbarkeitsverlauf]] | ||
Wir testen aus Hamburg, Berlin, Düsseldorf und Bielefeld, ob Ihr Server erreichbar ist und ob sich die Seite schnell genug aufbaut.<BR> | Wir testen aus Hamburg, Berlin, Düsseldorf und Bielefeld, ob Ihr Server erreichbar ist und ob sich die Seite schnell genug aufbaut.<BR> | ||
| + | Sowohl Performance als auch Verfügbarkeits-Statistiken stellen wir Ihnen zur Verfügung im Bereich "technische Verfügbarkeit" in der [[Logdatei]]. | ||
| + | Sie können den Link zu der Serverüberwachung auch speichern, um jederzeit oder im Rahmen eines Ausfalls direkt die Verfügbarkeit zu sehen. | ||
'''Verfügbarkeit:'''<BR> | '''Verfügbarkeit:'''<BR> | ||
| − | Sollte | + | Sollte der Server länger als 90 Sekunden nicht verfügbar sein, so startet sich der Server automatisch neu. Dies dauert im Durchschnitt 8 Minuten.<BR> |
| − | Unsere Verfügbarkeit muss über 95% liegen und liegt tatsächlich durchweg über | + | Unsere Verfügbarkeit muss über 95% liegen und liegt tatsächlich durchweg über 98% im Monat.<BR> |
Eine Auswahl der Server-Überwachung können Sie abrufen innerhalb TraiNex unter Admin/Logdatei. Unser Zertifikat der Überwachung findet sich hier:<BR> | Eine Auswahl der Server-Überwachung können Sie abrufen innerhalb TraiNex unter Admin/Logdatei. Unser Zertifikat der Überwachung findet sich hier:<BR> | ||
| Zeile 25: | Zeile 73: | ||
Unter Umständen ist das TraiNex dann zeitweise nicht erreichbar. | Unter Umständen ist das TraiNex dann zeitweise nicht erreichbar. | ||
| − | In | + | In dringenden Fällen kann es zu unerwarteten Wartungsintervallen auch tagsüber und somit zu einer zeitweisen Nichterreichbarkeit kommen. Wir sind immer bemüht, diese Tages-Wartungen zu vermeiden bzw. im unerwarteten Fall möglichst kurz zu halten. Diese Tages-Wartungen sind selten. Pro Jahr kommt es z.B. meist an 3 Tagen des Jahres zu einem jeweils einstündigen Tages-Wartungsintervall. |
<!--- | <!--- | ||
| Zeile 42: | Zeile 90: | ||
==Letzte funktionale Änderungen== | ==Letzte funktionale Änderungen== | ||
| − | *Februar 2020: | + | *Februar 2020: Neben der Verfügbarkeits-Anzeige nun auch immer eine serverindividuelle Angabe prozentualer Performance-Probleme |
Aktuelle Version vom 16. Juni 2025, 06:46 Uhr
Aktuelle Störungen
42-Störung ist behoben!
Historie:
Der 42er-Server hat seit dem 25.5. periodische Probleme. Das Rechenzentrum und wir analysieren bereits.
Bisher ist wahrscheinlich, dass es KEIN Angriff ist. Zur Sicherheit werden die Systeme trotzdem evakuiert.
Ein Zusatzanalyseprogramm ist seit dem 27.5. im Einsatz. Am 28.5. um 1.00 Uhr (morgens) wurde ein Windows-Kernel-Problem identifiziert.
28.5. gegen 21 Uhr: die Lage ist teilweise entschärft. Im Laufe des heutigen Feiertages werden noch Tests durchgeführt.
29.5.: Server läuft scheinbar ohne Probleme.
30.5.: Wieder periodische Ausfälle, weitere Analyse und Teil-Evakuierung läuft.
31.5.: Rechenzentrum meldet defekte Platte im RAID-System. Kunden sind bereits zu 90% evakuiert.
1.6.: RAID-Festplatte wird ausgetauscht und RAID setzt sich neu auf.
2.6.: Festplattencontroller wird zusätzlich ausgetauscht.
3.6.: Server läuft wieder normal.
Rechenzentrum
Sollte das Rechenzentrum einen größeren Ausfall oder eine größere Wartung haben, wo mehrere Systeme betroffen sind, so wird hier vom Rechenzentrum dazu informiert: https://www.myloc-status.de/de/
Ihr Server gehört dort zu einem Hostsystem, dessen Nummer (z.B. 045) Sie in TraiNex in den Details der technischen Verfügbarkeit der Logdatei finden oder erfragen können bei TrOn.
Datenbank-Server
Ihre Datenbank wird ggf. getrennt von der Applikation gehostet auf einem anderen Host-System im Rechenzentrum. Details dazu erfahren Sie bei TrOn. Wenn Sie 2 Hostsysteme haben, dann werden Ihnen beide Nummern in der Logdatei angezeigt.
Adobe Connect
Sollte AdobeConnect einen Ausfall haben, so wird hier dazu informiert: https://status.adobe.com/products/3011
Mail-Server
Der für den SMTP-Versand von TraiNex-Mails zuständige Mailserver wird im Hinblick auf Verfügbarkeit (Ping) sowie Blacklist-Einträgen überwacht. Details stellen wir Ihnen zur Verfügung im Bereich "technische Verfügbarkeit" in der Logdatei.
TraiNex-Applikations-Server
Wir testen aus Hamburg, Berlin, Düsseldorf und Bielefeld, ob Ihr Server erreichbar ist und ob sich die Seite schnell genug aufbaut.
Sowohl Performance als auch Verfügbarkeits-Statistiken stellen wir Ihnen zur Verfügung im Bereich "technische Verfügbarkeit" in der Logdatei.
Sie können den Link zu der Serverüberwachung auch speichern, um jederzeit oder im Rahmen eines Ausfalls direkt die Verfügbarkeit zu sehen.
Verfügbarkeit:
Sollte der Server länger als 90 Sekunden nicht verfügbar sein, so startet sich der Server automatisch neu. Dies dauert im Durchschnitt 8 Minuten.
Unsere Verfügbarkeit muss über 95% liegen und liegt tatsächlich durchweg über 98% im Monat.
Eine Auswahl der Server-Überwachung können Sie abrufen innerhalb TraiNex unter Admin/Logdatei. Unser Zertifikat der Überwachung findet sich hier:
https://www.serverguard24.de/de/reports/certificate.html?k=j05h084d3
Wartungsarbeiten führen wir, um den laufenden Betrieb nicht zu stören, üblicherweise nachts durch zwischen 22.00 und 23.30 Uhr oder zwischen 0.15 und 2.00 Uhr morgens. Unter Umständen ist das TraiNex dann zeitweise nicht erreichbar.
In dringenden Fällen kann es zu unerwarteten Wartungsintervallen auch tagsüber und somit zu einer zeitweisen Nichterreichbarkeit kommen. Wir sind immer bemüht, diese Tages-Wartungen zu vermeiden bzw. im unerwarteten Fall möglichst kurz zu halten. Diese Tages-Wartungen sind selten. Pro Jahr kommt es z.B. meist an 3 Tagen des Jahres zu einem jeweils einstündigen Tages-Wartungsintervall.
Performance:
Eine Geschwindigkeits-Warnung gibt es, wenn der Server langsamer wird als:
Warnung Durchsatz: 10 kB/s
Warnung Verbindungszeit: 500 Millisekunden
Warnung Gesamtzeit: 600 Millisekunden
Kritisch Durchsatz: 10 kB/s
Kritisch Verbindungszeit: 500 Millisekunden
Kritisch Gesamtzeit: 600 Millisekunden
Letzte funktionale Änderungen
- Februar 2020: Neben der Verfügbarkeits-Anzeige nun auch immer eine serverindividuelle Angabe prozentualer Performance-Probleme