Wie kann man bei K-Means den "Elbow" berechnen?

Hey zusammen,

ich betreibe Clustering mit K-Means.

Nun weiß ich zuvor leider nicht wie viele Cluster vorhanden sind. Eine Lösung dafür ist die sogenannte Elbow Method. Leider basiert die Methode immer darauf einen Graphen zu Plotten und diesen wortwörtlich anzusehen.

Ich möchte den Elbow aber natürlich rechnerisch ermitteln. Jemand eine Idee?

Mein erster Versuch war die größte Differenz zwischen einen Punkt und dem nächsten zu berechnen, leider funktioniert das offenbar nicht so toll. Was ist also ein "Elbow" rechnerisch?

https://predictivehacks.com/k-means-elbow-method-code-for-python/

Hier so ein Elbow, bei dem würde die größte Differenz funktionieren. Der "Elbow" liegt bei 4:

Bild zum Beitrag

Bei diesem Beispiel liegt der Elbow allerdings bei 4 und die größte Differenz funktioniert hier nicht:

Bild zum Beitrag

Durch Hinsehen würde man aber schon sagen, dass 4 der "Elbow" ist. Ich nehme an, irgendwie kann man das auch berechnen, wenn man es "sehen" kann.

Wenn ich google Bemühe, dass werden zwar alle möglichen Implementierungen für die Methode vorgeschlagen. Aber alle arbeiten damit den Graphen zu plotten und anzusehen.

Gruß

3 Antworten

triopasi

Nutzer, der sehr aktiv auf gutefrage ist

im Thema programmieren

28.06.2020, 19:41

Du nimmst die Steigung.

Steigung = flach -> nach dem Knick.

Oder du verwendest einfach ein Verfahren bei dem die Anzahl der Cluster nicht vorgegeben werden muss.

Woher ich das weiß:Studium / Ausbildung – Informatikstudium

AldoradoXYZ

Beitragsersteller

28.06.2020, 19:54

Dann wäre im ersten Beispiel 8 der Elbow, was nicht stimmt.

triopasi

28.06.2020, 19:56

@AldoradoXYZ

Du musst halt einen sinnvollen Grenzwert für die Steigung finden. Steigung = 0 gibt es nur wenn k = Anzahl der Daten.

Halbrecht

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Mathematik

03.07.2020, 14:27

wie gesagt : lang her : man muss "echte" statistische Verfahren anwenden.

Ich empfehle daher erst mal

Bild zum Beitrag

https://en.wikipedia.org/wiki/Elbow_method_%28clustering%29

und

normalerweise macht man das mit einem Statistikprogramm. Aber du willst es selbst machen , was keine Kosten verursacht und du kannst es sogar verkaufen :))

und dieses wirst du schon kennen

https://de.wikipedia.org/wiki/K-Means-Algorithmus

AldoradoXYZ

Beitragsersteller

04.07.2020, 10:28

K-Means habe ich natürlich schon, der funktioniert auch wunderbar.

Interessant, dass bei der Elbow-Method auch dort geschrieben wird, dass man die Daten plottet und dann selbst wählt. Aber vielleicht geht das ja über einen prozentualen Schwellwert wie das in der Grafik erklärt wird.

Gruß

JCMaxwell

28.06.2020, 23:12

To determine the optimal number of clusters, we have to select the value of k at the “elbow” ie the point after which the distortion/inertia start decreasing in a linear fashion.

Was bedeutet das? Naja, das bedeutet, dass das Optimale k genau dann gegeben ist, wenn du von diesem Punkt aus alle weiteren Werte durch ein lineares Modell einigermaßen erklären kannst. Im Code würde ich das wie folgt lösen

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

def find_elbow(inertia, eps=10e-3):
	current = 0
	kmax = inertia.shape[0]
	ks = np.arange(kmax)
	for k in range(kmax):
		ks = np.arange(k, kmax).reshape(-1,1)
		vals = inertia[ks].reshape(-1,1)
		reg = LinearRegression().fit(ks, vals)
		err = mean_squared_error(vals, reg.predict(ks))
		if err < eps:
			return k
	return ks[-1]

def main():
	# We create some synthetic data
	inertia = [210., 150., 20.]
	kfirst, klast = len(inertia), 10
	# Generate data by interpolating between values
	yfirst, ylast = inertia[-1], 1.
	ks = np.arange(kfirst, klast+1)
	interpoalted = (ylast-yfirst)/(klast-kfirst) * (ks-kfirst) + yfirst
	interpoalted = interpoalted[1:]
	# Add some noise
	interpoalted += np.random.normal(0, 10e-3, interpoalted.shape[0])
	# Concat to previous values
	inertia += interpoalted.tolist()
	inertia = np.array(inertia)
	optimal_k = find_elbow(inertia)
	print(optimal_k)
	plt.plot(np.arange(len(inertia)), np.array(inertia), marker='o')
	plt.vlines(optimal_k, 0, np.max(inertia), linestyles='dashed')
	plt.show()

if __name__ == '__main__':
	main()

Diese Lösung geht im Wesentlichen durch alle ks und versucht eine Gerade durch die Punkte zu legen. Das erste k, für das der Fehler kleiner als ein gewisses Epsilon wird, wird von der Funktion zurückgegeben. Natürlich hat dieser Ansatz einige Schwächen, in jedem Fall kann es zu Skalenproblemen kommen (d.h. wenn die Werte bereits sehr klein sind). Außerdem ist die Wahl des richtigen Epsilons entscheidend, d.h. du handelst dir einen zusätzlichen Hyperparameter ein. Der Idee nach sollte das aber einigermaßen funktionieren, wenn man die Suche nach dem optimalen k denn unbedingt automatisieren möchte.

Ich habe das jetzt nur für diese künstlichen Beispiel getestet. Du kannst gerne mal probieren, deine eigenen Daten in den Algorithmus zu stecken.

AldoradoXYZ

Beitragsersteller

29.06.2020, 09:55

Ah nice, werde ich gerne testen.

Mein Ansatz (der super primitiv ist) findet aktuell bei 4 deutlich erkennbaren Klustern nur 2, verbindet also jeweils 2 Kluster.

Gruß

Halbrecht

03.07.2020, 05:03

@AldoradoXYZ

Kluster ? kommst du aus den nederlaands ?

AldoradoXYZ

Beitragsersteller

03.07.2020, 08:13

@Halbrecht

Etwas Sinvolles?

Halbrecht

03.07.2020, 11:19

@AldoradoXYZ

sinnvoll? gerne : hier : https://de.wikipedia.org/wiki/Cluster

AldoradoXYZ

Beitragsersteller

03.07.2020, 14:13

@Halbrecht

Hatte jetzt mehr auf Hinweise gehofft wie ich mein Problem lösen kann.

Aber gut

Gruß

Halbrecht

03.07.2020, 14:18

@AldoradoXYZ

Clusteranalyse ist lang her bei mir ..............genau wie Faktorenanalyse fand ich sie immer recht willkürlich ............

AldoradoXYZ

Beitragsersteller

03.07.2020, 14:19

@Halbrecht

Jetzt habe ich so schön k-mean implementiert (naja, eine Lib benutzt) und langsam bekomme ich das Gefühl ich müsste ein anderes Verfahren nutzen, eines welches auch die Anzahl optimiert

-.-°

Gruß

Ähnliche Beiträge

Mathe Graph - wo ist die Steigung am größten/ geringsten?

Hallo!

Wo ist die Steigung eines Graphen am höchsten/ geringsten und wie kann ich das berechnen?

Gibt es einen Zusammenhang zu den Wendepunkten?

...zum Beitrag

Wie kann ich Punkt 3 und Punkt 4 in einer Funktion in Python implementieren?

In der Aufgabe steht:

Schreiben Sie ein Programm mit den folgenden Funktionen:

umfangKreis(radius)

Berechnen des Umfangs eines Kreises.

flaecheKreis(radius)

Berechnen des Flächeninhalts eines Kreises.

umfangKreis(radius)

Berechnen der Summe aller Umfänge einer Menge von Kreisen.

flaecheKreis(radius)

Berechnen der Summe aller Flächeninhalte einer Menge von Kreisen.

Rufen Sie in den Funktionen für eine Menge von Kreisen die bereits implementierten Methoden für das Berechnen des Umfangs und der Fläche der einzelnen Kreise auf. Auf diesem Weg sparen Sie sich die abermalige Implementierung der benötigten Formeln. Kopieren Sie das erstellte Programm mit den Funktionen in einem neuen Ordner. Testen Sie alle Funktionen an geeigneten Testbeispielen in einem separaten Programm. Beachten Sie hierzu den Hinweis für den Suchpfad von Python.

Ich habe das Ganze jetzt erstmal so gelöst, dass ich zwei Programme in einem Ordner gespeichert habe, also einmal definition.py, wo ich die die Formeln für Umfang und Flächeninhalt eines Kreises definiere, und einmal main.py, wohin ich für Punkt 3 und 4 hin exportieren möchte. Allerdings verstehe ich nicht so ganz, was mit der Menge von Kreisen gemeint ist. Wie könnte ich hier weiter fortfahren?

...zum Beitrag

Wie löst man diese Aufgabe?

Gegeben ist die Funktion f mit

a)Berechnen Sie den Wert der Obersumme O8 im Intervall [0,4]
b)Berechnen Sie den Wert der Obersumme On mit n>0 im Intervall[0,4]
c) Zeigen Sie,dass der Grenzwert von On für n->unendlich dem Flächeninhalt der Dreiecksfläche unter dem Graphen von f entspricht

Wäre euch so dankbar,bin echt nicht faul aber die größte Mathenite

...zum Beitrag

Mathematik-Aufgabe der Oberstufe 11

Ich habe eine Frage zu einer Matheaufgabe: ,,Durch ein elektrisches Bauteil fließt bis zum Zeitpunkt t die elektrische Ladung Q (t) (in Coulomb) gemäß dem nebenstehenden Diagramm. Die momentane Änderungsrate Q´(t) entspricht der elektrischen Stromstärke I (t) (in Coulomb)." Des weiteren lautet die Fragestellung der Aufgabe b): ,,Zu welchem Zeitpunkt war die elektrische Stromstärke am größten? Wie groß war diese?"

Soll ich die Anforderungen der b) rechnerisch ermitteln oder vom Graphen ablesen? Da hier keine Funktion gegeben ist.

Vielen Dank im Vorraus!

...zum Beitrag

Nachweisen, dass eine Gerade g(x) eine Tangente an f(x) ist und Normale bestimmen

Hey ich schreibe bald Mathe und komme bei einer Aufgabe nicht weiter , Antworten mit Lösungsweg wären nett :))

gegeben ist die Funktion f mit f(x)= x²-6x+9 A) Weise rechnerisch nach, dass die Gerade zu g(x)= 2x-7 eine Tangente an den Graphen von f ist und berechne den Berührpunkt B .

B) Stelle die Gleichung der Normalen n zu der Tangente g auf.

C) Berechne, in welchem Punkt die Normale n den Gerade von f noch schneidet .

Danke schonmal :**

...zum Beitrag

Wie ermittel ich diese Funktionsgleiching (Klasse 11 Gym)?

In Mathe haben wir zur Übung ein Abrbeitsblatt bekommen, auf dem wir die Aufgaben a) und c) lösen sollen. a) habe ich nun ohne Probleme lösen können. Jedoch komme ich ich bei c) nicht weiter...

Wäre nett, wenn sich jemand finden würde, er mir zeigt wie man die Aufgabe löst ^^ über Tipps würde ich mich auch freuen. (Bei der Aufgabe handelt es sich um eine Abituraufgabe von 2012 in Schleswig Holstein):

Eine Gemeinde plant, ein ebenes Gelände so aufzuschutten, dass das Profil für Snowboad-Aktivitäten geeignet ist. Ein solches Profil wird dargestellt durch den Teil des Graphen der Funktion f mit f(x) = -0,0009x^4+0.18x^2der oberhalb der x-Achse liegt.
Eine Längeneinheit entspricht einem Meter. Runden Sie die Endergebnisse auf zwei Stellen nach dem Komma.

a)• Untersuchen Sie den Graphen der Funktion f auf Symmetrie.• Berechnen Sie die H¨ ohe der Hugel und bestimmen Sie die größte Steigung zwischen den Hochpunkten des Profils.

c)Nach außen fallen die Höhenzüge links und rechts sehr steil ab. Um auch Rodlern ein geeignetes Gelände zur Verfugung stellen zu können, soll an den rechten Hügel eine Bahn mit geringerem Gefälle aufgeschüttet werden. Diese soll sich nahtlos und ohne ”Knick“ im Punkt P (11 | f(11)) anschließen und auf dem ebenen Gelände nach rechts horizontal auslaufen. Das Profil der Rodelbahn soll durch den Graphen einer Funktion angenähert beschrieben werden.

• Skizzieren Sie die neue Situation für den rechten Hügel.

• Leiten Sie ausgehend von dem Ansatz p(x) = a·(x-b)2+c begründet den Funktionsterm einer Funktion p her, die den obigen Anspruchen genügt.

...zum Beitrag

Tiefpunkt mit einem Parameter berechnen (Funktionsschar)?

Ich schreibe bald eine Klausur über Funktionsscharen (Mathe LK) und brauche dringend Hilfe bei folgender Aufgabe :

Ein Seil für eine Bergseilbahn soll zwischen zwei Masten gespannt werden. Die Höhe (in Metern) des durchhängenden Seils über dem Meeresspiegel wird durch die Funktion fc mit fc(x) = 1+c/1500^2 x^3 - cx + 500 (0<= x <= 1500; c>= -1) beschrieben, wobei x die horizontale Entfernung in Metern vom Startpunkt angibt.

d) Zeigen Sie rechnerisch für welche Werte von c der Graph von fc einen Tiefpunkt im Intervall [0; 1500] hat.

Die Ableitung habe ich schon gebildet, nur weiß ich nicht wie weiter machen soll

fc’(x) = 3* (1+c/1500^2) x^2 - c

...zum Beitrag

Wie kann ich ohne Computer wissen, ob das Programmieren was für mich wäre?

...zum Beitrag

stärkste krümmung kurve?

Hallo :)

Ich hab eine Linie auf Millimeterpapier gezeichnet, bestehens aus 40 Werten. Wie komme ich auf die beiden Punkte mit der stärksten Krümmung? (Nicht geschätzt sondern genau).

Wobei es ist egal ob es zeichnerisch oder rechnerisch gelöst wird. Mit meinem Programm kann ich zwar den graph zeichnen (Punkte und danach einen Strich durch) allerdings ist es unmöglich es zu berechnen. Wenn ich eine Tangente an einer bestimmten stelle zeichnen möchte, kommt ein waagrechter strich, da es noch immer als punkt und nicht als kurve angesehen wird (Geogebra). Die Punkte sollten ca. bei 25 und 28 liegen.

Danke :)

...zum Beitrag

Python Highscore erstellen?

Hi Leute. Ich habe mir einen 1 x 1 Challenger mit Python programmiert. Der Nutzer bekommt 9 Fragen zum kleinen 1 x 1 gestellt und er bekommt sofort ausgewertet ob die Antwort richtig oder falsch ist.

Zudem habe ich eine for-Schleife eingebaut, damit nicht nur einer spielen kann sondern mehrere Nutzer in einem Durchlauf die Fragen beantworten können.

Meine Frage: Wie schaffe ich es, dass mein Programm am Ende einen Highscore ausgibt, wer die meisten Punkte hatte. Wenn jemand Lust und Zeit hat, kann er mir gerne sagen, wie ich so etwas einbaue.

VG Leo

...zum Beitrag

Lotto-Spiel programmieren, Aufgabe ist nicht klar?

Also ich muss in einer Informatik Portfolioarbeit ein Lotto spiel realisieren. Dabei ist bei der ersten Fragestellung folgendes angegeben:

Als Vorbereitung legen Sie eine externe und nicht ausführbare Klasse Zufall an, worin zwei Methoden zufallN(int n, int nmin, int nmax) und print_zufallN(int n) zu realisieren sind. Diese sollten in der Lage sein, n Zufallszahlen vom Datentyp int, je aus dem vorgegebenen Intervall [nmin, nmax] in eine Arrayliste einzufügen, diese Arrayliste in ansteigender Reihenfolge zu sortieren, die kleinste und grösste Zahl in der Liste sowie den Mittelwert aller Zufallszahlen zu berechnen und diese Informationen tabellarisch mit angemessener Formatierung und selbsterklärendem Begleittext auf die Konsole auszugeben.

Ich verstehe nicht, was die konkreten Aufgaben von zufallN() und print_zufallN() sein sollen und wie ich es mit den gegebenen Parameter dies angeben sollte.

In meiner Sicht ist es einfach nicht machbar, da die jeweiligen Informationen fehlen.

Kann mir bitte jemand weiter helfen?

...zum Beitrag

Vollkommene/Perfekte Zahl in einem Bereich herausfinden?

Hallo,
ich muss in Python ein Programm erstellen, welches überprüft, ob in einem Bereich des Nutzers eine Vollkommene Zahl ist. Ich habe einen Ansatz, aber er ist falsch und ich habe keine Idee mehr.
Der Link zu dem Problem und Code ist hier: https://pastebin.com/4SXUk8fG

MfG Leonardo

...zum Beitrag

wie berechne ich das Produkt eines Arrays?

Ich habe echt alle jetzt hinbekommen aber jetzt fehlt mir das Produkt ich wollte das so machen

int produkt = 0;

produkt *= Array[i]; system.out... (produkt);

aber da kommt immer ein Fehler in der console undzwar :** Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 2 at Array.main(Array.java:36) 0**

hier erstmal mein Code import java.util.Scanner;

public class Array {

public static void main(String[] args)
{
    // TODO Auto-generated method stub
    {
        Scanner input=new Scanner(System.in);
        int summe=0;
       

        System.out.print("Wie groß soll das Array sein?");
        int Arraygroeße=input.nextInt();

        int Array[]=new int[Arraygroeße]; // erstellt ein Array mit der
                                          // Größe
                                          // die man eingibt

        int i;
        for (i=0; i<Array.length; i++)
        {
            System.out.print("Feldwert an Stelle "+i+" eingeben: ");
            Array[i]=input.nextInt(); // soll den Wert einlesen den der
                                      // Nutzer
                                      // haben möchte bis das ganze Array
                                      // ausgefüllt ist
        }

        for (i=0; i<Array.length; i++)



            summe+=Array[i];
        System.out.println("Die Summe ist :"+summe);

        int max=Array[0];
        for (i=0; i<Array.length; i++)
            if (max<Array[i])
                max=Array[i];

        System.out.println("Größter Wert des Arrays ist "+max);

        int min=Array[0];
        for (i=0; i<Array.length; i++)
            if (min>Array[i])
                min=Array[i];

        System.out.println("Kleiner Wert des Array ist "+min);

        double mittel=0; // Mittelwert auf 0 setzen
        mittel=summe/Array.length; // Mittelwert berechnen durch Summe
                                   // geteielt durch die Anzahl der Zahlen
                                   // im Array
        System.out.println("Der Mittelwert beträgt:  "+mittel);
        
       
        input.close();

    }
  }
}

kann mir jemand bitte helfen wie ich das Produkt berechnen kann ? ( Java)

...zum Beitrag

Ableitung und Sekante?

Kann mir jemand bei den Aufgaben helfen bzw. mir erklären wie ich zur Lösung kommen kann? Wir benutzen im Unterricht die h-Methode.

Gegeben ist die Funktion 𝑓𝑓(𝑥)=12𝑥^2+2𝑥

a) Zeichne den Graphen von f und die Sekanten durch die Punkte 𝐴(0|𝑓(0)) und 𝐵(6|𝑓(6)).

b) Berechne die Steigung der Sekante.

c) Bestimme die Ableitungsfunktion von f.

d) Bestimme einen Punkt C des Graphen von f, in welchem die Tangente parallel zur Sekante AB verläuft. Ermittele die Gleichung der Tangente und zeichne diese.

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen