Grundlagen: Probabilistik - Analysen

Aus OptiYummy
Wechseln zu: Navigation, Suche

Zielstellung

Mittels statistischer Versuchsplanung (DoE) kann auf der Grundlage deterministischer Modelle das Verhalten von Stichproben im Streu-Bereich der betrachteten Input-Größen simuliert werden. Dabei werden größere Mengen an Daten produziert.

Zielstellung für die probabilistischen Analyse ist die Aufbereitung dieser DoE-Daten in einer Form, welche die Wirkung der streuenden Input-Größen auf das Systemverhalten möglichst anschaulich und umfänglich darstellt. Für unterschiedliche Aspekte des Systemverhaltens werden dazu Diagramme mit unterschiedlichsten Darstellformen genutzt.

Welche Informationen man welchen Diagrammen entnehmen kann, wird bei der Beschreibung der einzelnen Diagramm-Typen erläutert.

Reale Stichprobe

Unabhängig vom gewählten DoE-Verfahren müssen entsprechend des zugehörigen Versuchsplans verschiedene Parameter-Kombinationen im Streu-Bereich der betrachteten Input-Größen mit dem Modell des realen Objektes berechnet werden. Im klassischem Sinne entspricht dies der Messung an Exemplaren einer "realen Stichprobe" bzw. an speziell konfigurierten realen Versuchsobjekten.

Die folgenden Analyse-Möglichkeiten beziehen sich auf die Daten, welche mittels eines speziellen Versuchsplans am "realen" (Modell-)Objekt berechnet bzw. gemessen wurden.

DoE-Tabelle

Jede Zeile dieser Tabelle entspricht einem Exemplar der realen Stichprobe (= eine Stützstelle im Streu-Bereich):

  • Prinzipiell könnte man dort alle Datenwerte aufnehmen, welche bei der Berechnung / Messung der einzelnen Stützstellen anfallen.
  • In praktischen Anwendungen muss man sich jedoch auf Grund der Datenmenge auf eine Teilmenge aussagekräftiger Daten beschränken.
  • Man beschränkt sich meist auf die Werte der streuenden Input-Größen und der sich daraus ergebenden Output-Größen (z.B. Second Order Analyse ohne Interaktionen für die streuenden Luftspalte und die zugehörige Magnetkraft mit dem Modell eines Elektro-Magneten):
    Grundlagen Probabilistik - Analyse DoE-Tabelle.gif
  • Nur erfolgreiche Abtastungen erhalten den Status Ok. Dies hat insbesondere Bedeutung für die Moment-Methode, welche jede Abtastung für die Bildung der Taylorreihen-Ersatzmodelle benötigt.
  • Stützstellen mit dem Status Failed sind für die weitere probabilistische Analyse nicht benutzbar. Dies hat nur geringe Bedeutung z.B. für Sample-Verfahren, solange noch hinreichend viele erfolgreiche Abtastungen existieren.

Anthill-Plot

Der "Ameisenhaufen" stand Pate für die Bezeichnung dieser Darstellform (Punktdiagramm), welche auch als Streudiagramm (engl. Scatterplot) bekannt ist. Man unterscheidet nach Anzahl der Koordinatenachsen 2D- und 3D-Anthill-Plots. In Abhängigkeit davon, welche Variablen man die Koordinaten-Achsen zuordnet, existieren drei grundsätzliche Zielstellungen:

1. Stützstellen im Streu-Bereich der Input-Größen
Grundlagen Probabilistik - Analyse 3D Anthill.gif
Belegt man alle Koordinatenachsen mit einer Teilmenge der streuenden Input-Größen, so erhält man einen Eindruck, wo innerhalb des gesamten Streu-Bereiches "Exemplare" der realen Stichprobe generiert wurden.
Im Beispiel wurde die drei toleranzbehafteten Luftspalte eines Elektro-Magneten den Koordinatenachsen eines 3D-Anthill-Plots zugewiesen. Dargestellt sind die Stützstellen des Second Ordner Moment-Verfahrens.
2. Zusammenhang zwischen Input- und Output-Größen
Grundlagen Probabilistik - Analyse Anthill-Plot In- und Output.gif
Belegt man die Abszissenachsen mit einer Teilmenge der streuenden Input-Größen und die Ordinatenachse mit einer Output-Größe, so erhält man einen Eindruck zu Korrelationen zwischen Input- und Output-Größen bzw. zu Clusterbildungen zwischen.
Im Beispiel wird die in der Spule eines Elektromagneten induzierte Abschaltspannung vMax in Abhängigkeit von der Steifigkeit kP eines mit Blindenschrift zu prägenden Papiers dargestellt.
3. Abhängigkeiten zwischen Output-Größen
Grundlagen Probabilistik - Analyse Anthill-Plot Outputs.gif
Die Gütekriterien eines Systems als Teilmenge der Output-Größen sind meist voneinander abhängig. Einen Eindruck zu diesen Abhängigkeiten erhält man, wenn man alle Achsen des Anthill-Plots nur mit Gütekriterien belegt.
Diese Kriterien sind miteinander oft nicht verträglich. Beim Versuch die Werte einiger Kriterien zu minimieren, können sich die Werte anderer Kriterien vergrößern. Im Beispiel des E-Magneten führt z.B. eine Verringerung der Zykluszeit tZyklus zu einer Temperaturerhöhung dT_Draht des Spulendrahtes.

Histogramme

Histogramme stellen die Häufigkeitsverteilung der abgebildeten Größen innerhalb ihres Streubereiches dar. Diese Form der Darstellung ist nur sinnvoll für Sample-Methoden, um z.B. einen qualitativen Eindruck zu erhalten, in welchem Maße durch die Größe der realen Stichprobe die vorgegebene Verteilung der Input-Größen hinreichend nachgebildet wird:
Grundlagen Probabilistik - Analyse Histogramm Inputs.gif
Im Beispiel wird mit einer Stichprobengröße=50 die Normalverteilung der toleranzbehafteten Luftspalte eines E-Magneten zumindest andeutungsweise nachgebildet. Aus dieser diskreten Stichprobe ergibt sich dann eine Streuung der Output-Größen (im Beispiel die Magnetkraft F und der Koppelfluss Psi):
Grundlagen Probabilistik - Analyse Histogramm Outputs.gif

Korrelationen

Grundlagen Probabilistik - Analyse Korrelationsmatrix.gif

Es wird für die reale Stichprobe die Korrelation zwischen allen Input-Streuungen und Output-Größen in Form von linearen Spearman Korrelationskoeffizienten dargestellt. Der Koeffizient K bewegt sich in einem Bereich von -1 bis +1:

  • |K|=0 → keine Korrelation mit der Toleranzgröße
  • |K|=1 → starke Korrelation mit der Toleranzgröße.
  • Korrelationsmatrix: der Wert von K wird durch einen Farbwert gekennzeichnet.
  • Korrelationstabelle: entspricht in ihrer Struktur der Korrelationsmatrix.
    Grundlagen Probabilistik - Analyse Korrelationstabelle.gif
  • Dargestellt werden die Werte konkreten Korrelationskoeffizienten.
  • Damit erhält man für die echte Stichprobe nicht nur eine qualitative Orientierung zur Stärke der Korrelation, sondern auch die zugehörigen Korrelationswerte.

Interpretation:

  • Entlang der Diagonalen ist K=1 (Jede Größe bildet mit sich selbst eine Gerade y=x).
  • Eine starke Korrelation widerspiegelt sich in einem Anthill-Plot, indem die Lösungspunkte relativ dicht entlang einer gedachten Ausgleichsgeraden angeordnet sind:
    Grundlagen Probabilistik - Analyse Korrelation Scatterplot grosz.gif
  • Kleine Korrelationskoeffizienten werden im Anthill-Plot durch eine ausgedehnte Punktwolke repräsentiert. D.h., die Werte der Ordinaten-Größe werden überwiegend von anderen Größen bestimmt:
    Grundlagen Probabilistik - Analyse Korrelation Scatterplot klein.gif
  • Zwischen den unterschiedlichen Input-Streuungen eines Modells darf keine Korrelation existieren (K=0), wenn die Bildung der Zufallszahlen gut funktioniert. Auf Grund relativ kleiner Stichproben ist z.B. K<0.2.

Wichtig: Korrelation bedeutet nicht "kausale Abhängigkeit"! In Modellen technischer Systeme verbirgt sich dahinter aber meist eine Ursache-Wirkungs-Beziehung.

Virtuelle Stichprobe

Die folgenden Analyse-Möglichkeiten beziehen sich auf:

  1. die Antwortflächen, welche für die einzelnen Output-Größen agebildet wurden (Ersatzmodell) und
  2. die statistischen Daten, welche auf Grundlage dieses "virtuellen" Modells der Antwortflächen berechnet werden.

Antwortflaechen

  1. Residuum Plot
    Grundlagen Probabilistik - Analyse Residuum-Plot.gif
    • Die Genauigkeit der statistischen Aussagen in Bezug auf das Original wird überwiegend durch die Genauigkeit des Ersatz-Modells bestimmt, welches sich aus den approximierten Antwortflächen der Output-Größen zusammensetzt.
    • Die Residuen der Ausgleichsrechnung für eine vorliegende reale Stichprobe zeigen, wie genau die Ausgleichsfläche in die vorhandene "Punktwolke" der berechneten realen Exemplare passt.
    • Residuen sind absolute Differenzen zwischen den "echten" Modellberechnungen und den aus dem Ersatzmodell berechneten Punkten. Im Diagramm kann man den Betrag der maximalen Differenz erkennen. Die Residuen widerspiegeln somit die Qualität der Approximation an die berechnete Punktwolke wieder.
    • Im nebenstehenden Beispiel sind bei einem Mittelwert der Magnetkraft von 6.3 N Abweichungen von max. ca. 0.02 N wahrscheinlich vernachlässigbar.
    • Hinweis: Informationen zur Genauigkeit bzw. Sinnfälligkeit einer Ausgleichsfläche in den Zwischenräumen der Punktwolke sind durch Kenntnis der Residuen nicht zu gewinnen!
  2. 2D-Schnittdiagramm / 3D-Antwortfläche
    Grundlagen Probabilistik - Analyse Schnittdiagramm.gif
    • Die gebildeten Ersatzfunktionen besitzen in Abhängigkeit von der Anzahl der streuenden Input-Größen meist eine Dimension > 3 und sind damit der direkten Anschauung nicht mehr zugänglich.
    • Man behilft sich deshalb mit 2D- bzw. 3D-Schnitten, indem man den Großteil der Input-Größen auf einen konstanten Wert setzt und nur 1 bzw. 2 Input-Größen als Variable auf die Abszissen dieser sogenannten Schnittdiagramme legt.
    • Die betrachtete Output-Größe bildet die Ordinate des Schnittdiagramms.
    • Anhand der Schnittfunktionen erhält man zumindest einen qualitativen Eindruck zur Sinnfälligkeit der Funktionsverläufe zwischen den berechneten Stützstellen. Welligkeiten in den Lücken deuten z.B. auf eine zu hohe Ordnung des verwendeten Polynomansatzes hin.
    • Die dargestellten Funktionsverläufe in den einzelnen Schnittdiagrammen gelten nur für die aktuell eingestellten, "konstanten" Werte der anderen Input-Streuungen.
    • Im Beispiel sind die aktuellen Werte aller Input-Streuungen durch die senkrechten roten Linien markiert. Ändert man diese Werte z.B. durch Verschieben einer Linie mit dem Cursor oder durch Editieren des Nennwertes im virtuellen Entwurf, so erfolgt eine Neuberechnung der dargestellten Schnittverläufe.
    • Ändert man z.B. für den Elektromagneten den aktuellen Wert des Deckelspalts auf 20 µm von auf 30 µm, so ändern sich die Kurvenverläufe in den anderen Schnittdiagrammen zu kleineren Kraftwerten:
      Grundlagen Probabilistik - Analyse Schnittdiagramm Istwert.gif
    • Anhand der Schnittfunktionen erhält man zumindest einen qualitativen Eindruck zur Sinnfälligkeit der Funktionsverläufe zwischen den berechneten Stützstellen. Welligkeiten in den Lücken deuten z.B. auf eine zu hohe Ordnung des verwendeten Polynomansatzes hin:
      Grundlagen Probabilistik - Analyse Kriging-Interpolation.gif
    • Verwendet man anstatt eines einfachen Polynomansatzes z.B. den sogenannten Gaußprozess als Antwortfläche, so werden zusätzlich die Grenzverläufe des Erwartungsintervalls für den "richtigen" Funktionsverlauf berechnet und können im 2D-Schnittdiagramm dargestellt werden. Dieses Erwartungsintervall besitzt die Breite=0 direkt an den berechneten Stützstellen, weil der Gaußprozess diese Stützstellen sehr exakt trifft (Residuum praktisch Null).
    • Hinweis: Dieses Erwartungsintervall berücksichtigt kein Erfahrungswissen, welches meist einen stetigen Verlauf zwischen den berechneten Werten der Stichproben-Exemplare erwartet.
    • Bei der 3D-Antwortfläche handelt es sich praktisch auch um ein Schnitt-Diagramm. Allerdings wird die ausgewählte Output-Größe hier in Abhängigkeit von 2 Input-Streuungen dargestellt:
      Grundlagen Probabilistik - Analyse 3D Antwortflaeche.gif
    • Die dargestellte Übertragungsfunktion ist nur gültig für die aktuellen Werte aller anderen Input-Streuungen.Verringert man z.B. den aktuellen Wert des Luftspalts sDeckel_ von 20 µm auf 10 µm, so entsteht insgesamt eine etwas höhere Magnetkraft:
      Grundlagen Probabilistik - Analyse 3D Antwortflaeche neu.gif
  3. Koeffizenten-Chart & -Tabelle
    • Für jede Output-Größe wird eine individuelle Ersatzfunktion approximiert (z.B. Polynom), welche die Abhängigkeit von allen Input-Streuungen beschreibt. Auf die Koeffizienten jeder dieser Ersatzfunktionen kann man zugreifen (Koeffizient-Chart und Koeffizient-Tabelle). Damit könnte man sich bei Bedarf das approximierte Ersatzmodell in einer anderen Umgebung aufbauen:
      Grundlagen Probabilistik - Analyse Koeffizienten RSM.gif
    • Im Beispiel erkennt man die unterschiedliche Polynom-Ordnung für die Output-Größen F und Psi.
    • Hinweis: Einfacher als mit dem Daten-Export der Koeffizienten-Tabelle erhält man durch Modell-Export sofort einen C-, Modelica- oder Matlab-Quelltext des approximierten Ersatzmodells.

Sensitivitaeten

  1. Sensitivität-Chart
    • Für jede Output-Größe kann ein Pareto-Chart der Effekte aller Input-Streuungen auf diese Output-Größe generiert werden.
    • Unter Pareto-Chart versteht man ein Balkendiagramm (Histogramm), das anzeigt, in welchem Maße ein bestimmtes Ergebnis (Effekt) durch eine bestimmte Ursache (Streuung) hervorgerufen wurde. Die Balken sind nach der Größe des Effektes geordnet:
      Grundlagen Probabilistik - Analyse Sensitivitaet Chart.gif
    • Den Pareto-Charts kann man zwei wesentliche Informationen entnehmen:
      1. Welche Input-Streuungen haben einen vernachlässigbaren Einfluss auf die betrachteten Output-Größen?
        Im Beispiel hat der Restluftspalt des Deckels nur einen sehr geringen Einfluss auf die Magnetkraft.
        Damit könnte man z.B. für die Optimierung die Streuung dieses Luftspalts unberücksichtigt lassen. Das spart Rechenzeit!
      2. Existieren merkliche Interaktionen zwischen den Input-Streuungen?
        Wenn die aktuellen Ist-Werte der anderen Input-Streuungen den Einfluss der zu betrachtenden Input-Streuung auf das Verhalten der Output-Gößen merklich verändern, so gibt es Wechselwirkungen zwischen den Input-Streuungen.
        In den Pareto-Charts erkennt man das an dem Unterschied zwischen den Werten von Total- und Haupteffekt.
        Existieren (wie im Beispiel) keine merklichen Wechselwirkungen zwischen den Input-Streuungen, so kann man bei Verwendung der Momenten-Methode die probabilistische Simulation mit vereinfachten Ansätzen durchführen. Das spart Rechenzeit!
        • Haupteffekt:
          Er repräsentiert den Haupteinfluss der betrachteten Streugröße Xi auf die Ausgangsgröße Y. Definiert ist er als Quotient aus der Varianz der durch Xi verursachten Streuung der Ausgangsgröße Var(Y|Xi) und der Varianz der durch alle Streugrößen X verursachten Streuung Var(Y|X)
          SH = Var(Y|Xi) / Var(Y|X)
        • Totaleffekt:
          Er setzt sich zusammen aus dem Haupteffekt und den Interaktionen zwischen den einzelnen Streugrößen (Xi, Xj)
          ST = Var(Y|Xi) / Var(Y|X) + Var(Y|Xi,Xj)/Var(Y|X)
          Die Interaktion kann vereinfacht durch paarweise Kombination aller Streugrößen berücksichtigt werden, da die gleichzeitige Berücksichtigung sämtlicher Streugrößen zu einem nicht beherrschbaren Berechnungsaufwand führt. Jedes Paar (Xi, Xj) wird als ein Glied dieser Summenformel berücksichtigt. Der Wert dieses Gliedes ist jeweils Null, wenn es keine Interaktion innerhalb des Streugrößen-Paares gibt.
           
  2. Sensitivität-Tabelle
    • Diese Tabelle gibt einen kompletten Überblick über die Werte von Haupt- und Totaleffekt der Input-Streuungen auf alle Output-Größen.
    • Über den Kopf der Tabelle kann man die Zeilen nach den unterschiedlichsten Kriterien sortieren:
      Grundlagen Probabilistik - Analyse Sensitivitaetentabelle.gif
    • Zusätzlich zu den Haupteffekten der Input-Streuungen auf die Output-Größen wird in der Tabelle auch der Totaleffekt dargestellt, welche zusätzlich die Wirkung der Interaktionen berücksichtigt.
       
  3. Interaktion-Chart
    • In einem Interaktion-Chart wird paarweise der Effekt der Wechselwirkung zwischen den Input-Streuungen auf eine Output-Größe dargestellt:
      Grundlagen Probabilistik - Analyse Interaktion-Chart.gif
    • Damit stehen für die Optimierung Informationen zur Verfügung, in welchem Maße Input-Streuungen einen Anteil auf den Totaleffekt anderer Input-Streuungen besitzen.

Probabilistik (Verteilungen)

Die Verläufe der Verteilungsdichten und der Verteilungsfunktionen der Output-Größen werden auf Basis der virtuellen Stichprobe ermittelt. Dabei wird der betrachtete Streu-Bereich der jeweiligen Output-Größe standardmäßig z.B. in 50 Stützstellen unterteilt:
Grundlagen Probabilistik - Analyse Verteilung.gif

Die Verteilungstabelle enthält für alle Output-Größen die Werte der Verteilungsdichte und -funktion für alle Intervalle entsprechend der Zahl der Verteilungspunkte in der Versuchsplanung. Sie dient vor allem für den Datenexport, um diese Daten mit anderen Programmen weiter verarbeiten zu können.

Der Verlauf der Verteilungsdichte ist im Beispiel etwas unstetig. Dafür gibt es zwei Ursachen:

  1. Mit steigender Anzahl der Verteilungspunkte (=Intervalle) wird dir Kurve unstetiger. Ändert man im Beispiel die Anzahl auf 100 und berechnet die Probabilistik neu, so ergibt sich der folgende Verlauf:
    Grundlagen Probabilistik - Analyse Verteilung100.gif
  2. Mit steigendem Umfang der virtuellen Stichprobe wird die vom Ersatzmodell bewirkte Verteilungsdichte exakter berechnet. Deutlich wird dies, wenn man im Beispiel den Umfang der virtuellen Stichprobe um den Faktor 10 verringert, denn damit ergibt sich mit 100 Intervallen der folgende Verlauf:
    Grundlagen Probabilistik - Analyse Verteilung100 kleinere Stichprobe.gif