Welcher Sortieralgorithmus ist unter welchen Umständen der schnellste?

Nabend.

Da ich mich ja mit der Programmierung beschäftige, habe ich versucht, einige Sortieralgorithmen in C++ nachzuprogrammieren (und mir danach die schnelleren Versionen aus dem Netz raus zu suchen). Dann wollte ich anhand einer Liste von 500.000 Elementen testen, welcher Algorithmus der Schnellste ist.

Getestet habe ich bisher std::sort, Quick Sort, Insertion Sort und Timsort. std::sort war bei der unsortierten Liste zwei Millisekunden schneller als Timsort, danach folgte Insertion Sort und Quick Sort war letzter. Wenn ich aber ein neues Element zu der sortierten Liste hinzugefügt habe, war Timsort der schnellste Algorithmus mit sage und schreibe 0 Mikrosekunden. Danach folgten Insertion Sort, std::sort und zu guter letzt war mal wieder Quick Sort fertig.

Wenn ich das ganze kurz zusammenfassen sollte, würde ich sagen, dass Timsort an dieser Stelle der beste Sortieralgorithmus ist, auch wenn er zwei Millisekunden langsamer bei der Sortierung einer komplett unsortierten Liste als std::sort ist. Zwei Millisekunden sind vernachlässigbar, vor allem, wenn std::sort bei der Sortierung der bereits sortierten Liste mit einem neuen Element 9 Millisekunden braucht, während Timsort nicht mal eine Mikrosekunde benötigt.

Gibt es Sortieralgorithmen, die noch schneller sind als die vier vorhin genannten? Oder welche anderen Szenarien könnte ich testen?

Gruß

5 Antworten

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, programmieren, Informatik

11.09.2016, 03:14

Wenn der Timsort beim zweiten Durchlauf schneller war (vor allem mit einer Laufzeit von 0ms), dann muss das Sortierergebnis vom ersten Durchlauf gecached worden sein.

Bezüglich der std::sort-Funktion kann ich mir gut vorstellen, dass bei der Implementierung alle Möglichkeiten ausgenutzt wurden, die C++/der Compiler anbieten, um die Performance zu verbessern. Man wird sicherlich mit Pointern und Templates gearbeitet haben und einer Kombination verschiedener Sortieralgorithmen.

Was du noch untersuchen könntest:

Listen statt Arrays
ein Aggregat mit jeweils 10, 100 und 1.000.000 Elementen
ein Aggregat mit einer ungeraden Anzahl an Elementen

Bezüglich schnellerer Sortierverfahren: Sortieralgorithmen sind von ihrem Einsatzgebiet abhängig. Ein Quicksort wird nicht seine volle Stärke ausspielen können, wenn er nur eine kleine Menge an Elementen sortieren soll oder sein Pivot-Element schlecht gewählt wird.

Orientieren würde ich mich wohl an der O-Notation (im average case). Für weitere Sortierverfahren kannst du hier schauen: https://de.wikipedia.org/wiki/Sortierverfahren

Außerdem kannst du, wie hier in anderen Antworten schon angemerkt, sicherlich noch an der Implementierung feilen. Achte darauf, was du für Vergleichsfunktionen verwendest, was für Datentypen, etc..

W00dp3ckr

11.09.2016, 01:36

Deine Frage entspricht nicht dem, was Du testest. Du vergleichst eigentlich Implementierungen auf einer gegebenen Architektur mit einem gewissen Compiler.
Wie auch mein Vorredner sagt, ist nur ein kleiner Teil der eigentliche Sortieralgorithmus, die Implementierung spielt eine große Rolle. Sind die Vergleichsalgorithmen überall gleich?

Was für ein Sortierverfahren nutzt eigentlich Dein std::sort ?

adenosi

11.09.2016, 09:55

Ich würde mir an deiner Stelle die Algorithmen der Sortierungen ansehen und diese dann selber nachzuprogrammieren.

Ebenfalls kann es sein das sich manche Algorithmen für bestimmte Fälle besonders gut eignen.

TeeTier

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

programmieren

11.09.2016, 05:29

Die Antwort ist ganz einfach: Es gibt keinen "schnellsten" Sortieralgorithmus.

Denn es hängt extrem vom Anwendungsfall ab:

Soll / muss / darf das Ergebnis stabil sein? (z. B. wenn du mehrfach hintereinander nach unterschiedlichen Kritieren sortieren möchtest)
Ist dir Geschwindigkeit oder Speicherverbrauch wichtiger? (Wird einmalig bei der Initialisierung eines Embedded-Computers sortiert, oder dauerhaft im Betrieb eines starken Desktops?)
Sind die vorliegenden Daten schon zu großen Teilen vorsortiert?
Sind die Daten evtl. oftmals schon sortiert, allerdings rückwärts?
Sind die Daten wirklich zufällig verteilt?
Werden Container von Zeigern, Referenzen oder ganzen Objekten sortiert?
Welche Art von Container liegt vor?
Hast du wahlfreien Zugriff auf die Elemente, oder kannst du dich nur "durchhangeln"?
Darf das Ergebnis vielleicht sogar Fehler enthalten, d. h. falsch sortierte Einträge enthalten? (Lach nicht, dafür gibt es tatsächlich Anwendungsfälle!)

Es gibt noch eine Million weitere Punkte, die zu berücksichtigen sind, und wie du siehst, kann es aufgrund der verschiedenen Anforderungen keinen besten Algorithmus geben. :)

Im Übrigen ist korrektes Profiling eine Kunst. Dabei gibt es unglaublich viele Dinge, die du nicht beachtest, und die dir dann falsche Ergebnisse liefern, die du vermeintlich für richtig hältst. Deine genannten Zahlenwerte machen einen solchen Eindruck!

Du solltest unbedingt die Last so erhöhen, dass du mindestens im zweistelligen Sekundenbereich bist, denn bei 9ms ist einfach viel zu viel Spielraum für "Dreckeffekte", die jede Aussage zu Nichte machen. :)

Naja, viel Spaß noch! Aber ohne vernünftige Vorgaben kann man nicht sagen, was das "Beste" ist. :)

PS: TimSort ist ja der Standard-Sortier-Algorithmus in Java und hatte vor ca. einem Jahr noch einen Bug, sodass u. U. einige Listen von Eingangsdaten fehlerhaft sortiert wurden. Das Lustige daran ist, dass es ewig keiner gemerkt hat und dann plötzlich alle: "Java sortiert falsch! Aaahhh!". :)

Such mal bei Google nach "java timsort bug" ... interessante Geschichte! ;)

DerCo

11.09.2016, 00:44

wenn nach dem hinzufügen eines Elements 0ms reichen, würde ich sagen, du hast den Kram im Cache - hast du den heap dealloziert nach der Routine? Sonst stimmen deine Ergebnisse alle nicht.

Was sortierst du eigentlich? Ein simples Array mit Randomdaten?

Was ist mit bubble sort? Schon probiert?

PeterLustig1999

Beitragsersteller

11.09.2016, 01:01

Ich habe mir mein unsortiertes Array kopiert, sortieren lassen und danach die sortierte Kopie wieder gelöscht. Gemessen habe ich nur die Zeit, die das reine sortieren gebraucht hat.

Ich sortiere ein simples Array mit Randomdaten, wie du bereits sagst. Des unsortierte Array speichere ich jedoch zwischen, sodass jeder Algorithmus quasi mit dem gleichen Array startet.

Weiterhin habe ich das Ganze mehrfach getestet und mich nicht nur auf ein Testergebnis beschränkt. Generell ist std::sort bei der ersten Sortierung ungefähr 2 ms schneller als Timsort, generell benötigt Timsort bei der zweiten Sortierung immer 0 mikrosekunden.

Bubble Sort habe ich noch nicht ausprobiert, könnte ich vielleicht einmal versuchen.

DerCo

11.09.2016, 01:17

@PeterLustig1999

naja das mit bubble war eher für die Vollständigkeit, Qsort ist, wenn ich mich richtig erinnere quasi so etwas wie der "Nachfolger"; insofern wird es sicher keine Top-Werte liefern.

Für eine spätere Anwendung wird es nicht nur entscheidend sein, wie viel Daten du hast, sondern auch wie komplex sie sind, also wie oft die schleifen laufen und wie tief die Rekursionen werden (schliesslich gibt es auch hier eine Grenze, bei der du in den "too many nested scopes"-Fehler rennst).

Für eine poplige Adresssortierung ist es schlicht irrelevant, was du nimmst, da hier ein paar Millisekunden mehr oder weniger nicht ins Gewicht fallen; Ganz anders sieht das aus, wenn du z.B. mit Suggests arbeitest (das ist das was Google macht, dass direkt bei der Eingabe der User Vorschläge ausgespuckt werden, die ja über Ajax geladen werden müssen).

Wieder etwas völlig anderes ist beispielsweise eine Programm um Daten zu ver/ent-schlüsseln.

Um es kurz zu machen; jeder Algorithmus hat seine Stärken und Schwächen und abgesehen davon, dass es eine gute Übung ist, wirst du in Zukunft deine Wahl abhängig von der Aufgabenstellung treffen müssen; da helfen dir deine jetzt ermittelten Testwerte nicht weiter.

DerCo

11.09.2016, 01:21

@DerCo

Bevor ich es vergesse: WO du richtig was gutmachen kannst, ist bei der klugen Auswahl der verwendeten Stringoperatoren.
Ein
strpos, ein substr oder, wenn möglich ein Byteshift, sind je nach
Stringaufbau und -länge verschieden schnell - hier lassen sich ggf.
sogar SEKUNDEN einsparen!

regex9

11.09.2016, 02:44

@DerCo

Ich habe mich schon gewundert. Der BubbleSort ist ein etwas langsames Sortierverfahren im Vergleich zu anderen (mit einem Laufzeitverhalten von O(n²)).

DerCo

11.09.2016, 00:48

Zu Teil 2 deiner Frage: Eine kluge Indizierung ist wertvoller als der coolste Algo, da du von vorneherein die betroffenen Datensätze extrem einschränken kannst; darum ist z.B. eine clevere Datenbank 1000mal mehr wert als das geilste Script.

Alleine über Restrukturierung einiger SQL-Datenbanken konnte ich die Scriptlaufzeiten bis zu 800% schneller machen; hab den alten Kram selbst verbrochen, aber man lernt ja immer wieder was neues und ab und zu lohnt das Nachschauen :)
Trotzdem wie gesagt: Indizierung ist extrem wertvoll; ich habe alle Emails seit 1997 (immerhin 20 Jahre) in meiner Datenbank; das sind knapp 300GByte - und durchsuche nach beliebigen Kriterien in 10-15 Sekunden; nach bestimmten Indexfeldern in unter 1 Sek.

Ähnliche Beiträge

wie lange braucht ein beliebiger Algorithmus mindestens zum erstellen eines binären suchbaums aus einer unsortierten Menge?

Wie lange braucht ein beliebiger Algorithmus mindestens zum erstellen eines binären Suchbaums aus einer unsortierten Menge von n vergleichbaren Elementen und warum?

...zum Beitrag

Warum ist der Quick Sort instabil?

ich habe morgen einen Vortrag über quick sort und stoße immer wieder darauf, dass es ein instabiler sortieralgorithmus ist. Kann mir das jemand erklären, was damit gemeint ist? Am besten auf Schüler Niveau :)

...zum Beitrag

Was bedeutet Stabilität bei Algorithmen?

Hallo zusammen,

ich stehe kurz vor meiner ersten Klausur "Grundlagen der Wirtschaftsinformatik 1" und beschäftige mich momentan mit Sortieralgorithmen.

Wir haben eine Aufgabe bekommen, die lautet: "Analysieren Sie, welche der erarbeiteten Sortieralgorithmen (Bubble-, Insertion-, Selection-, Quick-, Merge- und Shell-Sort) stabil sind."

Was bedeutet in diesem Kontext "stabil". Ich kann mir leider nicht wirklich etwas drunter vorstellen. Ich vermute, es hat vielleicht etwas mit der vorliegenden Reihenfolge zu run?!

Vielen Dank schonmal und liebe Grüße :-)

...zum Beitrag

Wie lösche ich ein Element in einer einer einfach verketteten Liste?

...zum Beitrag

Element aus unsortierter Liste mit CSS nach rechts verschieben?

Hallo Leute, wie kann ich das ,,ausloggen" mit CSS ganz nach rechts verschieben. Das soll das einzige Element sein.

...zum Beitrag

Sortieren von doppelt verketteter Liste?

Guten Tag,

ich soll einen simplen Algorithmus schreiben, der eine doppelt verkettete Liste, in der sich nur Nullen und Einsen befinden, sortiert (zuerst Nullen, dann Einsen).

Da ich schon ziemlich müde bin und mir immer gerne Leichtsinnsfehler passieren wollte ich fragen, ob vielleicht noch jemand ein paar kontrollierende Blicke auf meinen (Pseudo-)Code werfen kann.

Vielen Dank im Voraus!

function sort(List binList)
    begin
        pntr <- binList.head
        for (i=1, i<=n, i++){
            if(pntr.value = 0){
                pntr <- pntr.next
            }
            else{
                pntr.next.prev <- pntr.prev
                pntr.prev.next <- pntr.next
                pntr.next <- null
                pntr.prev <- tail
                tail <- pntr
            }
        }

...zum Beitrag

Java Bubble Sort Algorithmus programmieren wer kann mir helfen (bitte keine Lösung schreiben sondern nur Tipps geben)?

Die Aufgabenstellung lautet:

"Damit Sie sehen wie nervig das Sortieren eines Arrays wirklich sein kann wenn man es selbst programmieren muss: implementieren Sie einen einfachen Sortieralgorithmus in einer Methode namens 'bubblesort'. Diese Methode erwartet einen Parameter 'x' wie in der letzten Aufgabe, und verfährt auch genauso mit ihm. Die Sortierung wird wie folgt durchgeführt: angefangen beim zweiten Array-Element (also mit Index 1) prüfen Sie für alle Elemente, ob sie kleiner sind als ihr Vorgänger, und vertauschen sie sofort falls ja. Dies wird so lange durchgeführt, bis bei einem kompletten Durchlauf durch das Array (beginnend bei Index 1) keine Vertauschung mehr vorgenommen werden muss, in diesem Fall ist das Array sortiert. Falls das Array 0 oder 1 Elemente hat muss nichts getan werden da solche Arrays bereits sortiert sind (warum?). Tipp: die perfekte Gelegenheit eine do/while-Schleife zu benutzen!"

Mit freundlichen Grüßen

...zum Beitrag

Wie begründet man die Anwendung der Sortieralgorithmen auf gegebene Beispiele?

Hallo liebes Forum,
ich versuche mich gerade etwas an dem Thema Sortieralgorithmen.
Die Theorie von Insertion Sort, Quicksort, Mergesort, Heapsort, Selection Sort, Bubblesort ist mir bekannt, habe auch jeden schon mal selbst programmiert und etwas getestet, nur war mir die Anwendung nie richtig klar.
Besser gesagt, wie und wann werden die außerhalb der Theorie verwendet.

Mir ist klar, dass man Insertion Sort und Selection Sort wegen ihrer mäßigen Worst Case Laufzeit nur für geringe Datenmengen einsetzt, bzw Insertion Sort auch, wenn die Daten schon vorher stark sortiert wurden.

Quicksort, Mergesort und Heapsort, weißen für großen Datenmengen die besten Laufzeiten auf, wobei man bei Quicksort darauf achten muss, das die zu sortierenden Elemente nicht schon sortiert sind, denn sonst geht die Laufzeit im Worst Case katastrophal nach oben. Weiter ist wenn es um die Speicherkapazität des Systems geht, Heapsort und vielleicht auch Qicksort zu bevorzugen, denn dank des speicherns der Ergebnisse auf ein Hilfsarray ist Mergesort ziemlich Speicher verbrauchend.

Nun habe ich diese ehemalige Klausuraufgabe aus einer Uni gefunden wobei es natürlich keine richtige Musterlösungen gab, sondern nur ein Hinweis (steht in Klammern), ich aber gerne einmal wüsste, wie man es richtig lösen könnte.

Aufgabe:

"Wählen Sie den effizientesten Algorithmus um diese Probleme zu lösen, begründen Sie außerdem ihre Entscheidung mittels der Kriterien Laufzeit und Stabilität.
Eine kurze Begründung ist ausreichend! "

An einer Verkehrskreuzung wurde über 10 Tage hinweg die Anzahl der Autos gezählt, die links abbiegen. Die Tageswerte liegen zwischen 10 und 2000 Autos. (SelectionSort)
An hunderten Wetterstationen Weltweit werden seit 1950 Temperaturwerte gesammelt. Die Werte werden auf ganze Zahlen gerundet. Der niedrigste Wert ist -89°C und der höchste 70°C. Insgesamt sind es ca. 1 Mrd. Werte. (CountSort)
Im Sonnensystem des Sterns "Sonne" gibt es 8 Planeten. Ihr Abstand zur "Sonne" ist zwischen 58 Mio. Km und 4495 Mio. Km. Die Planeten sollen Danach sortiert werden. (BubbleSort)
Ein Online-Shop hat ein Bewertungssystem für Seine Produkte, auf der Startseite sollen alle Produkte absteigend nach der Anzahl ihrer Bewertungen angezeigt werden. Diese Anzahl liegt in einem Array von Structs als Wert vor. Die Startseite soll jede Minute aktualisiert werden, somit wird der Algorithmus 1x pro Minute laufen. Da der Shop noch sehr klein ist, kommen selten neue Bewertungen zu Produkten dazu. (InsertionSort)
Ein neuer Zufallsgenerator hat 1 Mrd. Zahlen mit max. 512 Bit generiert. Um zu prüfen, wie gleichmäßig die Zahlen verteilt sind, sollen sie sortiert werden. (MergeSort)

Über eure Hilfe wäre ich sehr Dankbar

Lara

...zum Beitrag

Finde die zwei kleinsten Elemente mit 1,5n - 2 Vergleichen?

Hallo allerseits,

heute habe ich in meiner Berufsschule die Aufgabe bekommen, in einem Array / Liste die zwei kleinsten Zahlen zu finden mit maximal 1,5n - 2 Vergleichen.
Mein erster Gedanke war, ein Sortieralgorithmus drüber laufen zu lassen und dann einfach die ersten beiden Elemente zu returnen. Das Problem ist, dass mir kein Algorithmus mit nur 1,5n -2 Vergleichen einfällt und ich keine andere effiziente Lösung finde.

Hat jemand eventuell eine gute Lösung? Gerne iterativ und rekursiv.

Danke!

...zum Beitrag

Kann mir jemand diesen Java-Code für das Bubble Sort Verfahren erklären?

Hi, kann mir jemand diesen Java Code für das Bubble Sort Verfahren in Bezug auf folgende Fragen erklären?

public class BubbleSort { 
public static void sortiere(int[] x) {
  boolean unsortiert=true;
  int temp;
  
  while (unsortiert){
     unsortiert = false;
     for (int i=0; i < x.length-1; i++) 
        if (x[i] > x[i+1]) {                      
           temp       = x[i];
           x[i]       = x[i+1];
           x[i+1]     = temp;
           unsortiert = true;
        }          
  } 
}

public static void main(String[] args) {
  int[] liste = {0,9,4,6,2,8,5,1,7,3};
  sortiere(liste);
  for (int i=0; i<liste.length; i++) 
     System.out.print(liste[i]+" ");    
   } 
}

Der Code entstammt von dieser Seite: http://www.java-uni.de/index.php?Seite=85 Dort wird er aber nicht erklärt.. - Was bedeutet der Befehl "boolean"? - Was meint man mit int temp? - Wie läuft die while-Schleife ab, wenn innerhalb davon eine for-Schleife und innerhalb davon verschiedene if-Bedingungen aufgelistet sind?

Ich hoffe jemand nimmt sich die Zeit. Wär Euch sehr dankbar. :)

...zum Beitrag

Sortieralgorithmus Flussdiagramm?

Hallo,

ich habe versucht folgende Aufgabe mittels einem Flussdiagramm darzustellen und wollte mal nachfragen ob das so funktioniert:

"Nach Eingabe einer Liste[n], welche n Zahlen enthält, soll das Programm die Zahlen der Liste von Position 1 bis Position n aufsteigend sortieren und anschließend die sortierte Liste wieder ausgeben."

Ich habe den Bubble-Sort Algorithmus verwendet.

MMN kommt die Liste korrekt sortiert heraus. Liege ich da richtig oder ist mir bei zeichnen des Diagramms ein Fehler unterlaufen?

MFG

...zum Beitrag

Windows Explorer Sortierung Ordner und Dateien?

Wenn ich im Windows Explorer die Liste der Dateien und Ordner sortiere, werden immer zuerst die Ordner und dann die Dateien angezeigt - oder eben anders herum.

Kann ich die Sortierung so einstellen, dass alle Elemente alphanumerisch sortiert werden - unabhängig ob es ein Ordner oder eine Datei ist?

Also so ähnlich:

A.datei
B.ordner
C.ordner
D.datei
E.datei
...

Wenn ja, wie? Ich habe mich leider sehr schwer getan, hier etwas zu finden.

...zum Beitrag

Warum sollte man Lineare Listen (arrays) als Datenstruktur verwenden?

Lineare Listen haben erstmal sehr viele Nachteile...

Die Datenstruktur ist nicht dynamisch (schwer zu erweitern)
Das Suchen in Arrays ist nur schwer in O(log(n)) möglich, da die binäre Suche sehr viel extraspeicher benötigt, und Sprungsuchen / Interpolationssuchen häufig nicht in O(log(n)) funktionieren
Sortierverfahren sind oftmals problematisch, da quicksort ggf. eine schlechte Worst-Case Komplexität hat.
Alle Elemente müssen nebeneinander im Speicher liegen, d.h. es gibt ein Limit wie groß ich ein Array machen kann.

Dagegen sind Bäume:

Dynamisch (sehr einfach zu erweitern, da man einfach nur Pointer hinzufügen muss)
Suche funktioniert aufbaubedingt IMMER in O(log(n))
Mit heapsort lässt sich immer im Worst-Case in O(n*log(n)) sortieren
Die Datenstruktur kann beliebig groß werden (man muss nur Pointer hinzufügen).

Meine Frage also, warum sollte man lineare Listen verwenden, und Warum lernt man x verschiedene Sortierverfahren von Insertion, Selection, Merge, Bubble & Quicksort für lineare Listen, wenn die einfachste Lösung ist einfach Bäume zu verwenden?

...zum Beitrag

Quicksort mit median pivotisierung?

Hey, ich habe den Quicksort Algorithmus folgendermaßen beschrieben bekommen:

Nun habe ich eine Methode lowerMedian(), die den Median einer Liste bestimmt. Wie genau muss ich diese Methode nun im Quicksort algorithmus einsetzen, damit dieser als Pivot Element immer den Median nimmt, die Laufzeit also O(log(n)) ist?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen