schlauste Art ähnliche Wörter zusammenzufassen(python)?

Hallo, ich habe die Aufgabe bekommen Kopierrechte, hier als BSP. copyR1-20, zusammenzufassen. Wenn ich mit meiner "Ähnlichkeitsfunktion" über die Liste gehe gibt diese mir die Liste für das entsprechende Kopierrecht zurück von 100, genau gleich bis 0 absolut verschieden. Nehmen wir also mal an meine Ähnlichkeitsfunktion macht Sinn und es kommen logische Werte raus. Gibt es hier ein Statistisches Verfahren um die ähnlichsten Kopierrechte in einer Gruppe zusammenzufassen?

Bislang schaue ich einfach Kopierrecht1 an, nehme alle Kopierrechte über mein Limit 86 hinzu und nenne das meine Gruppe. Das Führt jedoch zu Problemen, wenn z.B. Kopierrecht1 ähnlich zu Kopierrecht 2 und 3 ist, Kopierrecht 4 aber nur ähnlich zu Kopierrecht 2 ist. Hier weiß ich nicht wie ich die Gruppen bilden soll.

Also zu meiner Frage:

Ich soll das in Python implementieren.

Gibt es eine systematische Möglichkeit durch z.B. einen Clusteralgorithmus die besten Gruppen hier zu bilden? (Die Tabelle ist nicht ausgefüllt, sie geht natürlich noch weiter)

Vielen Dank im Vorraus

Bild zum Beitrag

1 Antwort

Vom Beitragsersteller als hilfreich ausgezeichnet

ralphdieter

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, Mathematik, Informatik

18.11.2021, 18:43

Ich weiß nicht, wonach Du genau suchst. Wann sind denn zwei Kopierrechte „ähnlich“?

Wenn Du ein festes Limit hast, definiert das einen Graphen, dessen Kanten dieses Limit überschreiten.

Du kannst im Graph nach maximalen Cliquen (=vollständige Teilgraphen) suchen. Kopierrechte einer Clique sind sich paarweise ähnlich, aber sie können sich beim Vergleich zu anderen Cliquen unterschiedlich verhalten. Maximale Cliquen können sich überlappen.
Du kannst den Graph in (disjunkte) Zusammenhangskomponenten zerlegen. Kopierrechte verschiedener Komponenten sind sich nicht ähnlich, aber innerhalb einer Komponente können sie ähnlich sein.

Ich habe den Eindruck, dass Du Dir Zusammenhangskomponenten als maximale Cliquen wünschst. Das wird im Allgemeinen nicht funktionieren.

billythekidd0

Beitragsersteller

18.11.2021, 19:49

Danke erstmal für die Nachricht, ich glaube ich habe das einigermaßen verstanden. Also so wie ich mir das bisher angeschaut habe würde ich behaupten ab dem Wert >86 ist ein Copyright ähnlich zu einem anderen.

So wie ich das jetzt verstanden haben machen Cliquen keinen Sinn bei meiner Betrachtung, da diese gemeinsame Teilmengen der Copyrights enthalten können. (Glaub "nicht disjunkt" heißt der Fachbegriff😅)

Die Zusammenhangskomponenten machen da ja schon mehr Sinn, da sie zwar nicht so "weit zusammengefasst" sind aber zumindest nicht doppelte Einträge verrechnen.

Für mich gilt lieber zu wenig zusammenzufassen als zu viel.

Hoffe soweit hab ich das verstanden. kannst du noch was du dem Graphen selbst sagen? Also als Knoten die Copyrights, als kannten die "Ähnlichkeit" und dann alle Kannten kleiner 87 löschen und die größten Zusammenhangskomponenten nehmen oder wie genau funktioniert das?

Mit Graphen bin ich halbwegs vertraut aber Zusammenhangskomponenten habe ich ewig nicht mehr benutzt.

ralphdieter

18.11.2021, 20:33

@billythekidd0

Also als Knoten die Copyrights, als kannten die "Ähnlichkeit" und dann alle Kannten kleiner 87 löschen

Genau so! Ich sehe es aber eher so, dass eine Kante existiert, wenn der Tabellenwert groß genug ist.

und die größten Zusammenhangskomponenten nehmen

Streich das „größte“. Entweder zerfällt der Graph in Einzelteile oder nicht.

Du kannst höchstens mit dem Limit spielen, um mehr oder weniger Teilgraphen zu bekommen. Bei ≥0 ist der Graph sicher nur ein Monolith. Bei 100 wirst Du viele einelementige Komponenten bekommen.

Das ist wie bei einer Inselgruppe: Je höher der Wasserstand (=Limit), desto mehr Inseln wirst Du sehen.

billythekidd0

Beitragsersteller

19.11.2021, 12:37

@ralphdieter

also ich habe mich jetzt nochmal genauer damit auseinander gesetzt. Zusammenhangskomponenten machen ja an sich auch wenig sinn, da es zu einer Verkettung führen kann bei dem der letzte Knoten der Kette absolut verschieden zu dem ersten Knoten ist.

Ich habe mir das jetzt so überlegt:

ich fange mit dem ersten Knoten an, speichere jeden umliegenden Knoten mit ner Kantenlänge größer 86, dann bei der zweiten Iteration muss das schon größer 92 sein, bei der dritten 95 und so weiter, damit es nicht vorkommt dass lauter "87er" aneinander hängen, die am ende unterschiedlich sind. Das kann man doch mit BFS lösen, also nach jeder Iteration das Limit der Kantenlänge erhöhen. Die besuchten Knoten speicher ich ab und werden nicht weiter berücksichtigt.

Das Problem was mir dabei aufgefallen ist ist aber, dass das Ergebnis sich verändert je nachdem bei welchem Knoten ich beginne. Also dass dann meine Gruppen anders gewählt werden. Gibt es da vielleicht eine Möglichkeit die global "beste" Version zu finden, also wo z.b. die spannweite zwischen dem ersten Knoten und dem letzten Knoten in der Gruppe im Mittel am Kleinsten ist? Oder die Lösung wo insgesamt am meisten Gruppen gebildet wird. Das klingt jetzt wie wildes überlegen, aber es fühlt sich einfach falsch an einen Algorithmus zu schreiben bei dem die Reihenfolge der Knoten das Ergebnis ändert.

Hoffe man hat verstanden was ich meine :)

ralphdieter

19.11.2021, 17:15

@billythekidd0

Zusammenhangskomponenten machen ja an sich auch wenig sinn, da es zu einer Verkettung führen kann

Äh nein. Der Witz dabei ist, dass Knoten aus verschiedenen Komponenten sicher nicht ähnlich sind. Auch wenn Du ähnliche Knoten irgendwie gruppieren willst, liegt jede Gruppe ganz sicher in nur einer Zusammenhangskomponente. Damit zerlegst Du also Dein Problem in kleinere Teilprobleme.

Das Problem beim Finden ähnlicher Knoten ist inhärent. Prinzipiell hat jeder Knoten eine Menge von Nachbarn, die ähnlich genug zu ihm sind. Dazu reicht eine direkte Kante (>Limit). Es gibt keinen Grund, die Nachbarn der Nachbarn zu untersuchen, denn wenn sie relevant sind, haben sie ja auch eine direkte Kante zum Knoten.

Diese Nachbarschaftsmengen überlappen sich gegenseitig. Nur wenn zufällig irgendwo eine „Insel“ existiert, haben deren Bewohner alle dieselben Nachbarmengen und bilden eine maximale Clique, die gleichzeitig auch eine Zusammenhangskomponente ist.

Du kannst das nicht durch einen Algorithmus erzwingen. Entweder hat der Graph diese Struktur oder eben nicht.

Mir ist immer noch nicht klar, was Du mit der Zerlegung erreichen willst. Es klingt so, als wolltest Du Gruppen, deren Mitglieder alle untereinander möglichst ähnlich sind, und die zu allen anderen Gruppen möglichst verschieden sind. Ich glaube, das geht nicht:

    A   B   C
A 100 100   0
B 100 100 100
C   0 100 100

Wie soll das gruppiert werden?

(Wenn Dir die Zahlen zu ünrealistisch vorkommen, nimm 70 und 90 statt 0 und 100)

billythekidd0

Beitragsersteller

19.11.2021, 19:03

@ralphdieter

A B C

A 100 90 70

B 90 100 90

C 70 90 100

wenn ich jetzt davon ausgehe, dann würde ich sagen bilden A,B und C eine Gruppe. Das macht jetzt erstmal wenig Sinn, weil A und C ja nur zu 70% übereinstimmen, aber irgendwie ist uns aufgefallen, dass unsere "Ähnlichkeitsfunktion", die btw auf den levenshtein algorithmus aufbaut, für das menschliche Auge sehr inkonsistente Ergebnisse auswirft. Also Ergebnisse mit 70% übereinstimmung müssen nicht zwangsweise sehr verschieden sein, aber Ergebnisse mit 90% übereinstimmung sind meistens schon sehr ähnlich.

Als Beispiel sollten diese Kopierrechte zu einem zusammengefasst werden:

Von Copyright1 ausgehend als Knoten würde die Funktion sagen es sei ähnlich zu 2 und 3,(höher 86) aber verschieden zu 4 (76), aber von Copyright 2 ausgehend sagt die Funktion es ist zu 95% gleich wie Copyright4.

Deshalb dachte ich es lohnt sich nicht nur die Nachbarknoten zu betrachten.

Ähnliche Beiträge

Python 3 Verkettete Listen mit Queue und Stack?

Hallo,

ich benötige Hilfe bei folgender Aufgabe:

Implementiere einen Stack unter Verwendung einer einfach verketteten Liste durch folgende Funktionen: StackInit, IsEmpty, IsFull, Push, Pop, Top, und PopTop. und Implementiere eine Queue unter Verwendung einer einfach verketteten Liste durch folgende Funktionen: QueueInit, IsEmpty, IsFull, Put, Get, und Front.

Wie kann ich hier vorgehen? Danke

...zum Beitrag

Zahlen sortieren Python ohne sort Funktion?

Hallo !

Ich muss ein Programm in Python schreiben, welches mir die Zahlen in einer Liste sortiert, dabei darf ich aber keine sort Funktion oder ähnliches verwenden.

Die Zahlen sollen vom kleinsten Wert bis zum Größen gehen.

list = [50,40,35,11]
counter = 0
while counter < len(list)-1:
    if int(list[0+counter]) < int(list[1+counter]):
        list[0] = list[0]
    else:
        list[0] = list[1]
    counter = counter + 1
    
print list

Das Ergebnis stimmt jedoch nicht, würde mich freuen wenn mir jemand weiter helfen könnte.

...zum Beitrag

Unterelemente in Python Listen?

Bei meiner Liste in Python sind Unterelemente in Elementen also z.B.: [{"a": "1", "b": "3"}, {"a": "5", "b": "8"}] Wie kann ich die Unterelemente (die Elemente in den geschweiften Klammern) ausgeben also z.B. nur "a": "1". Bisher kann ich nur das ganze Element mit liste[0] ausgeben also: {"a": "1", "b": "3"}.

...zum Beitrag

Wie setze ich in PyCharm hinter jeder Zeile ein Komma?

Hallo,

ich programmiere gerade ein wenig Python in PyCharm und habe eine Liste von Wörtern, die ich implementieren möchte. Das Problem ist nur, dass kein Komma hinter jedem Wort steht, weshalb ich die selber hinzufügen müsste. Die Liste hat aber fast 2.000.000 Einträge, weswegen das manuell nicht gehen würde. Ich habe mich in PyCharm umgeschaut, habe aber nichts gefunden.

Weiß jemand, wo oder ob man diese Funktion in PyCharm findet?

...zum Beitrag

Python für Minimum Maximum arithmetischem Mittel Standardabweichung?

Hallo,ich brauche Hilfe, es wäre sehr nett wenn mir jemand die Lösüng zeigen könnte, danke.

Die Ergebnisse einer Klausur liegen als Liste von Zahlen vor. Implementieren Sie die Berechnung von

Minimum Maximum arithmetischem Mittel Standardabweichung

der Listeneinträge und geben Sie die ermitteln Werte aus. Verwenden Sie anstatt echter Daten eine Liste von 100 gleichverteilten, ganzzahligen Zufallszahlen zwischen 1 und einschließlich 6.

...zum Beitrag

Python zufällige Listen auswählen und ausgeben?

Hallo! :D Bin ein Python-Beginner, hatte auch vorher nicht viel mit Programmieren am Hut.

Ich möchte ein bisschen rumspielen und habe nun das Problem, dass ich gerne mehrere Informationen gleichzeitig ausgeben möchte. Also brauche ich Listen. Dazu kommt, dass ich mit jeder Liste einen bestimmten Algorithmus durchgehen möchte. Da ich aber nicht für jede Liste alles Kopieren muss, brauche ich irgendwie eine Schleife, die den Algorithmus mit jeder Liste durchführt. Das Problem ist aber, dass ich jede Liste direkt auswählen muss und dem Computer nicht sagen kann, dass er so und so die Listen nehmen muss.

Um das konkret zu machen, habe ich ein anderes kleines Programm geschrieben, wo die Problematik einfacher zu verstehen ist (vielleicht).
Es soll eine zufällige Liste nehmen und ausgeben.

Ich möchte es aber nicht so wie im Bild machen, in dem ich wieder alles zurückübersetze (1=e usw.). Man stelle sich vor, ich habe 20 Listen, wo es am Ende auch hingehen wird, das möchte ich ehrlich gesagt effizienter machen.

Kann mir jemand einen Tipp geben? :(

Ich bedanke mich schon mal im voraus! :D

...zum Beitrag

Was sind eure Trigger?

Hi, ich bin auf einem Discord Server der als eine Art Selbsthilfe Gruppe dient.

Auf diesem Server sind sehr viele Leute mit verschiedenen Triggerthemen und wir haben im Team beschlossen eine Liste mit möglichen Triggern zu erstellen.

Damit diese Liste möglichst vollständig ist wollte ich einfach Mal hier fragen was bei euch den Themen sind, die euch so triggern das ihr in Angstzustände oder ähnliches verfallt.

...zum Beitrag

Python Liste mit Zahlen Mutieren/Verändern?

Hallo ich möchte nur einmal kurz wissen ob es eine einfache möglichkeit gibt eine liste, beispielsweise [1, 4, 65, 2, 21, 16] zufällig zu mutieren so dass sie danach etwa so aussieht: [1, 4, 64, 3, 21, 18]
Ich nehme mal nicht an dass es dafür eine eingebaute funktion gibt aber hat jemand ideen wie ich so eine funktion clever erstellen könnte?

...zum Beitrag

AI Moralische Grenzen?

Nehmen wir für den Moment an es gäbe eine KI welche mit Kinderpornographie (oder ähnlichen Bildern / Worten / Dingen deren Herstellung und dessen Verwendung Moralisch klar zu verurteilen sind). Wäre die Verwendung dieser KI Moralisch Akzeptierbar?

Einige Gesichtspunkte / Erklärungen hierzu:

Ein KI Modell beinhaltet nicht die Bilder auf welchen es trainiert wurde, nur die Statistische Gleichheit bzw. den Statischen Unterschied der Bilder bezogen auf den Schlüsselworten.
Wir nehmen für den Moment mal an das betrachten der KI Bilder führt nicht zu einem Größeren Verlangen echter Bilder Bilder.
Wir nehmen weiter an die Polizei könnte diese KI Bilder und echte Bilder sicher von einander unterscheiden. (z.B. Verdeckte Metadaten oder so)
Das Modell wurde vom Verwender über legalen und nicht zwielichtigen Weg erhalten. (Also er war auf keiner Kinder Porno Seite oder ähnliches)

...zum Beitrag

Werte innerhalb einer Liste tauschen -Python?

Nabend,

meine Frage ist wie ich nun in einer Liste Werte tauschen kann und das, wenn ein bestimmter Wert innerhalb der Liste ausgewählt wurde, der dann getauscht werden muss.

Also nehmen wir an wir haben in einer Liste [1,2,1,0,2,0] , nun ist der 5. Wert -in diesem Fall eine 2- ausgewählt worden. Diesen will ich nun mit einer möglichst kleinen Zahl innerhalb der Liste tauschen. Also z.B. mit der 0 vorher oder danach, welche ist eigentlich egal, aber vielleicht kann man der einfachtshalt wegen sagen, wenn es zweimal eine gleich-kleine Zahl gibt, dann die Zahl vor dem Wert zuerst?

Wie stelle ich das am Besten an?

...zum Beitrag

Welche Programmiersprache für Backend (Web)?

An alle Programmierer,

welche Programmiersprache verwendet ihr im Backend und welche würdet ihr empfehlen?

Ich weis das ist eine sehr diskutierte Frage, aber was würdet ihr empfehlen, um in Deutschland einen Job zu bekommen?

Wenn man mal auf YouTube schaut, sagen die meisten Java - nein, C# (.Net) - veraltet (sind aber auch amerikanische YouTuber, da läuft es gefühlt anders).

Die Empfehlung ist: nimm Python (Django oder Flask), Ruby, GO, etc. (eben die neuen Sprachen).

Vergleicht man das allerdings mit den aktuellen Job Angeboten z.B. Stepstone dann gibt es aktuell 14 Jobangebote in Deutschland für Django, also für mich ein klares nein diese Sprache weiter zu lernen (genau so für alle anderen Sprachen)...

Gefordert werden Java oder C# (oder auch PHP, aber die Firmen setzten dann meistens auf WordPress), das sind allerdings auch die Sprachen, die keiner aktuell empfiehlt, daher bin ich da im Zwiespalt.

Aktuell verwende ich im Backend Django mit AWS, Ubuntu 22.04, NGINX und Gunicorn. Allerdings verwendet keiner in Deutschland Django, daher mal die Frage: Was macht denn eigentlich wirklich Sinn zu lernen, was auch viele Unternehmen verwenden?

Denn laut den Jobangeboten ist Java an erster Stelle und dann kommt C# an zweiter Stelle, für alle weiteren gibt es dann kaum Angebote.

Mit Frontend Frameworks ist das ja ein ähnliches Problem, es gibt gefühlt wöchentlich neuen Frameworks, aber bei Bewerbungen werden Angular (die meisten Job Angebote), dann React.js, dann Vue.js gefordert. Über allen anderen Frameworks brauchen wir nicht reden, da gibt es so gut wie keine Angebote.

...zum Beitrag

Python Neue Url im gleichen tab öffnen?

Moin.

Wie mache ich das wenn Python eine neue URL öffnet die im gleichen tab geöffnet wird.

Also er soll aus einer liste URL nehmen öffnet sie und sobald eine neue geöffnet wird das sie im gleichen Tab geöffnet wird.

Falls ich noch irgendwelche infos braucht sagt bescheid. Danke

...zum Beitrag

Problem mit Slicing Index 0 in Python?

Hallo zusammen,

ich versuche aus einer gegebenen Liste mehrere Gruppen mit drei Werten auszulesen und dies mit einer schleife zu wiederholen, während der Slice um eine Position verschoben wird.

Zur Veranschaulichung, hier die Liste:

liste = [...., 10, 1, 4, 17, 9, 6, 15, 13, 20]

Ich möchte nun die letzten drei Gruppen mit je drei Werten auslesen.

hier das Ergebnis welches ich erwarte:

[9, 6, 15]

[6, 15, 13]

[15, 13, 20]

Aber mit meinem Code:

liste = [ 10, 1, 4, 17, 9, 6, 15, 13, 20]

# Schleife, um die letzten 3 Gruppen (Tripplet) mit je drei Werten auszugeben

for i in range(3):

Tripplet = liste[-5 + i:-2+i]

print(Tripplet)

erscheint nur diese Ausgabe:

[9, 6, 15]

[6, 15, 13]

[]

Wie ihr seht will ich mit negativen Indices arbeiten, da mir so die Länge der gegegenen Liste gleich ist. Das Problem ist nun, das der zweite Slicingindex in meiner Schleife im dritten Durchlauf NULL wird. Aber NULL ist anscheinend in Python als EndIndex nicht vorgesehen bzw. nicht als Negativer Index. So also nicht: [-3:0]

Ich müßte den Endindex weglassen um bis zum Ende der Liste zu slicen. also so: [-3:] Doch wie implementire ich das in einer Schleife?

Ich bin sehr gespannt auf eure Antworten.

Lg. Dennis

...zum Beitrag

Kennt ihr ähnliche lieder wie diese ?

Kennt ihr ähnliche lieder wie dieses aus der Playliste oder kennt ihr gute Gruppen oder Dj`s die auch solche Lieder machen?

Playliste: https://www.youtube.com/playlist?list=PLV7lqYtzjnynRCH6MlJSyIlddaWWH2Mnk

Freu mich über euere Antworten! Dankeschön :)

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen