🔨 🧜🏾 ‼️ Reibungslose Sortierung 👩🏾‍🤝‍👩🏻 😷 🎼

Wir tauchen weiterhin in eine Vielzahl von Haufen ein.

Heute analysieren wir eine elegante Bestellmethode, bei der spezielle Haufen basierend auf den Zahlen von Leonardo verwendet werden.

Viele haben von dieser Sortierung gehört, aber nur wenige wissen genau, wie sie funktioniert. Heute werden wir sehen, dass nichts kompliziert ist. Die Methode wurde von der legendären Edsger Dijkstra erfunden. Neben den vielen hellsten Errungenschaften in der Theorie der Algorithmen ist er auch der Autor einer solch witzigen Aussage: „Studenten, die zuvor Basic studiert haben, ist es fast unmöglich, gute Programmierung zu unterrichten. Als potenzielle Programmierer haben sie eine irreversible geistige Verschlechterung erfahren. “ Ich hoffe, es ist keine Gotteslästerung, dass die Animation im Artikel mit VBA erstellt wurde :-)

EDISON.

, Android iOS.

! ;-)

Die Heap-Sortierung an sich ist sehr gut, da ihre zeitliche Komplexität unabhängig von den Daten O ( n log n ) beträgt . Um kein Array darzustellen, verschlechtert sich die Komplexität von Heapsort niemals auf O ( n ² ) , was beispielsweise bei einer schnellen Sortierung passieren kann. Die Kehrseite der Medaille ist, dass das Sortieren nach einem binären Haufen nicht beschleunigt werden kann, O ( n ) -Komplexität auch nicht erwartet werden kann (aber das gleiche schnelle Sortieren kann unter bestimmten Bedingungen solche Indikatoren erreichen).

Im Allgemeinen stand eine Frage auf der Tagesordnung: Ist es möglich, so zu erfinden, dass die zeitliche Komplexität des Sortierens nach einem Haufen einerseits nicht geringer ist alsO ( n log n ) , aber in einem günstigen Szenario (insbesondere wenn ein fast sortiertes Array verarbeitet wird) auf O ( n ) erhöht ?

Dieses Problem wurde von Edsger Dijkstra persönlich angesprochen, der herausfand, dass dies möglich ist.

Es wird davon ausgegangen, dass diejenigen, die diesen Artikel lesen, verstehen, wie das Sortieren nach Heap im Allgemeinen funktioniert. Sie wissen, was Sortierbaum ist und warum ein Sieben erforderlich ist. Wenn jemand Lücken in diesem Wissen hat, empfehle ich Ihnen, den vorherigen Artikel zu lesen , bevor Sie mit dem Lesen fortfahren .

Was ist los mit einem binären Heap?

Lassen Sie uns einen Blick darauf werfen, wie Heapsort ein fast geordnetes Array sortiert und warum dieser Algorithmus solche eingehenden Daten nicht schneller verarbeitet.

Klicken Sie auf die Animation, um zum Artikel „Sortieren nach der n-Pyramide“ zu gelangen.

Das erste, was Ihnen auffällt, ist, dass beim Sieben die Maxima ständig an die Wurzel des Heaps verschoben werden, die dem ersten Element des Arrays entspricht. Wenn das Eingabearray fast geordnet ist, bedeutet dies für den Algorithmus nur wenig Arbeit. Kleinere Elemente werden immer noch zuerst den Baum hinuntergehen, d. H. Gehen Sie näher an das Ende des Arrays heran, nicht an den Anfang.

Der zweite Verlangsamungsfaktor, der nicht so offensichtlich ist, ist, dass der Standard-Binärheap selbst immer ein ausgeglichener Baum ist. Bei ursprünglich bestellten Daten spielt dies eine negative Rolle. Wenn das ursprüngliche Array zufällige Daten enthält, werden diese gleichmäßig in einem ausgeglichenen Baum verteilt, und das mehrfache Sieben durchläuft alle Zweige ungefähr gleich oft. Bei fast geordneten Daten ist ein unausgeglichener Baum vorzuziehen. In diesem Fall werden die Daten in dem Teil des Arrays, der längeren Zweigen des Baums entspricht, seltener verarbeitet als in anderen.

Leonardo-Nummern

Um beide Probleme zu lösen, schlug Dijkstra vor, spezielle binäre Haufen zu verwenden, die auf Leonardo-Zahlen basieren.

Leonardo-Zahlen sind fast wie Fibonacci-Zahlen, aber nur besser.
Eine Reihe von Leonardo-Zahlen wird rekursiv angegeben:

L ₀ = 1
L ₁ = 1
L _n = L _{n - 1} + L _{n - 2} + 1

Die ersten 20 Leonardo-Zahlen:
1, 1, 3, 5, 9, 15, 25, 41, 67 109, 177, 287, 465, 753, 1219, 1973, 3193, 5167, 8361, 13529

Absolut jede ganze Zahl kann als die Summe von Leonardo-Zahlen mit unterschiedlichen Seriennummern dargestellt werden.

Dies ist in unserem Fall sehr nützlich. Array von nElemente können nicht immer als ein einzelner Haufen von Leonardo dargestellt werden (wenn n keine Leonardo-Zahl ist). Aber dann kann jedes Array immer in mehrere Subarrays unterteilt werden, die einer unterschiedlichen Anzahl von Leonardo entsprechen, d. H. Haufen unterschiedlicher Ordnung sein.

Hier ist ein Beispiel eines Arrays des 21. Elements, das aus drei Leonard-Haufen besteht. In jedem der Haufen entspricht die Anzahl der Knoten einer beliebigen Anzahl von Leonardo.

Wichtige Punkte zu wissen:

Jeder Leonardov-Stapel ist ein unausgeglichener Binärbaum.
Die Wurzel jedes Heaps ist das letzte (und nicht das erste, wie in einem regulären binären Heap) Element des entsprechenden Subarrays.
Jeder Knoten mit all seinen Nachkommen ist auch ein Leonard-Haufen kleinerer Ordnung.

Haufen bauen und abbauen

In der Wiederholungsformel für Leonardo-Zahlen ist

L _n = L _{n - 1} + L _{n - 2} + 1

sehr zufrieden mit der Einheit am Ende.

Und deshalb. Angenommen, wir haben zwei benachbarte Subarrays im Array, die Heaps entsprechen, die auf zwei benachbarten Leonardo-Zahlen aufgebaut sind. Mit dem Element unmittelbar nach diesen Subarrays können diese Subarrays zu einem gemeinsamen Heap kombiniert werden, der der nächsten Leonard-Nummer entspricht.

Wir gehen die Elemente im Array durch und bauen eine Reihe von Leonard-Haufen. Wenn Sie das Element verwenden, können Sie die beiden vorherigen Heaps kombinieren (dies ist nur dann möglich, wenn die beiden vorherigen Heaps zwei aufeinander folgenden Leonardo-Zahlen entsprechen), und dann kombinieren. Wenn eine Kombination nicht möglich ist (die beiden vorherigen Heaps entsprechen nicht zwei aufeinanderfolgenden Leonardo-Nummern), bildet das aktuelle Element einfach einen neuen Heap eines Elements, das der ersten (oder zweiten, wenn die erste zuvor verwendet wird) Leonardo-Nummer entspricht.

In der zweiten Stufe des Algorithmus erfolgt der umgekehrte Prozess - wir analysieren die Haufen. Wenn wir die Wurzel im Heap entfernen, erhalten wir zwei kleinere Heaps, die den beiden vorherigen Leonardo-Zahlen entsprechen. Dies kann geschehen, weil:

L _n - 1 = L _{n - 1}+ L _{n - 2}

In Fibonacci-Zahlen gibt es keine solche nützliche Einheit, daher verwenden wir den Fibonacci-Heap nicht.

Smooth Sort :: Smoothsort

Der endgültige Algorithmus:

I. Erstellen Sie eine Reihe von Leonard-Haufen aus dem Array, von denen jeder ein Sortierbaum ist.
- I.1. Durchlaufen Sie die Elemente des Arrays von links nach rechts.
- II.1. Überprüfen Sie, ob das aktuelle Element die beiden am weitesten links liegenden Heaps im vorhandenen Heap von Leonard-Heaps kombinieren kann:
  - II.1.a. Wenn ja, dann kombinieren wir die beiden am weitesten links liegenden Heaps zu einem. Das aktuelle Element wird zur Wurzel dieses Heaps. Wir durchsuchen den kombinierten Heap.
  - II.1.b. Wenn nicht, fügen Sie das aktuelle Element als neuen Heap (der bisher aus einem Knoten besteht) zum vorhandenen Heap von Leonard-Heaps hinzu.
II. , :
- II.1. . , .
- II.2. ( ) ( ).
- II.3. , . .
- II.4. ( ), .
- II.5. Nachdem das maximale Element an das Ende verschoben wurde, nahm der sortierte Teil des Arrays zu und der unsortierte Teil ab. Wiederholen Sie die Schritte II.1-II.4 für den verbleibenden unsortierten Teil des Arrays.

Beispiel für eine Python-Implementierung

import random

def smoothsort(lst):

    #    
    leo_nums = leonardo_numbers(len(lst))


    #       
    heap = []

    #   
    #       
    #       
    for i in range(len(lst)):
        if len(heap) >= 2 and heap[-2] == heap[-1] + 1:
            heap.pop()
            heap[-1] += 1
        else:
            if len(heap) >= 1 and heap[-1] == 1:
                heap.append(0)
            else:
                heap.append(1)
        restore_heap(lst, i, heap, leo_nums)

    #  
    for i in reversed(range(len(lst))):
        if heap[-1] < 2:
            heap.pop()
        else:
            k = heap.pop()
            t_r, k_r, t_l, k_l = get_child_trees(i, k, leo_nums)
            heap.append(k_l)
            restore_heap(lst, t_l, heap, leo_nums)
            heap.append(k_r)
            restore_heap(lst, t_r, heap, leo_nums)

#   ,     
def leonardo_numbers(hi):

    a, b = 1, 1
    numbers = []
    while a <= hi:
        numbers.append(a)
        a, b = b, a + b + 1
    return numbers

#        
def restore_heap(lst, i, heap, leo_nums):
    
    #      
    
    current = len(heap) - 1
    k = heap[current]

    while current > 0:
        j = i - leo_nums[k]
        if (lst[j] > lst[i] and
            (k < 2 or lst[j] > lst[i-1] and lst[j] > lst[i-2])):
            lst[i], lst[j] = lst[j], lst[i]
            i = j
            current -= 1
            k = heap[current]
        else:
            break

    # 
    
    while k >= 2:
        t_r, k_r, t_l, k_l = get_child_trees(i, k, leo_nums)
        if lst[i] < lst[t_r] or lst[i] < lst[t_l]:
            if lst[t_r] > lst[t_l]:
                lst[i], lst[t_r] = lst[t_r], lst[i]
                i, k = t_r, k_r
            else:
                lst[i], lst[t_l] = lst[t_l], lst[i]
                i, k = t_l, k_l
        else:
            break

#         ,
#     
def get_child_trees(i, k, leo_nums):

    t_r, k_r = i - 1, k - 2
    t_l, k_l = t_r - leo_nums[k_r], k - 1
    return t_r, k_r, t_l, k_l

#  
def main(n):
    lst = list(range(n))
    random.shuffle(lst)
    print(lst)
    smoothsort(lst)
    print(lst)

Zeitliche Komplexität

Wenn wir ein fast geordnetes Array als Eingabe nehmen, zeigt die Visualisierung, warum ein solches Array viel schneller verarbeitet wird.

Einsparungen entstehen nur durch Sieben. In fast geordneten Daten sinkt das Sieben flach in den Baum, auch nachdem sich die Haufen in der zweiten Stufe allmählich aufgelöst haben. In den anfänglich zufälligen Daten ist das Sieben teurer, da es oft in seinem Haufen auf die allerletzte Ebene fällt.

Lassen Sie uns die Gesamtzeitkomplexität schätzen.

In der ersten Phase iterieren wir über n Elemente und fügen sie den bereits links vorhandenen Heaps hinzu. Das Hinzufügen zum Heap selbst kostet ungefähr in O (1), aber für den Heap müssen Sie einen Siebvorgang durchführen. In geordneten Daten kostet ein flaches Sieben häufig O (1) für ein Element, das dem Heap hinzugefügt wird. Bei ungeordneten Daten wird das Sieben für jede Addition in O (log n ) berechnet., da das Sieben aufgrund von Zufälligkeiten oft bis zum Grund durch die Ebenen des Baumes gehen muss.

Daher ist in der ersten Stufe die beste Zeitkomplexität:
für fast geordnete Daten - O ( n ),
für zufällige Daten - O ( n log n ).

Für die zweite Stufe ist die Situation ähnlich. Wenn Sie das nächste Maximum austauschen, müssen Sie den Heap, an dessen Wurzel er sich befand, erneut sieben. Und die Siebmetriken für geordnete und ungeordnete Daten sind unterschiedlich.

In der zweiten Stufe ist die beste Zeitkomplexität dieselbe wie in der ersten:
für fast geordnete Daten - O ( n ),
für zufällige Daten - O ( n log n ).

Hinzufügen von Zeitkomplexität für die erste und zweite Stufe:
für fast geordnete Daten - O (2 n ) = O ( n ),
für zufällige Daten - O (2 n log n ) = O ( n log n ).

Im Allgemeinen ist die schlechteste und durchschnittliche Zeitkomplexität für eine reibungslose Sortierung O ( n log n ).
Dijkstra hat in seinen Berechnungen (mit denen ich Sie nicht langweilen werde) bewiesen, dass die beste Komplexität reibungslos zu O ( n ) tendiert, je geordneter die eingehenden Daten sind. Daher der Name - reibungslose Sortierung.

Zusätzliche Speicherkomplexität

Um die Daten in eine Reihe von Leonard-Haufen zu zerlegen, müssen Sie sich nur genau merken, welche Leonardo-Nummern bei jedem Schritt beteiligt sind. Wenn man diese Zahlen kennt, werden die Haufen selbst algorithmisch ausgerichtet. Diese Zahlenreihe wächst sehr schnell, sodass Sie selbst für große Arrays einen sehr kleinen Satz von Leonard-Zahlen benötigen.

Binomial-Heap-Sortierung :: Binomial-Heap-Sortierung

Es gibt eine Baumstruktur, die der von uns aussortierten sehr ähnlich ist - einen Binomialhaufen . Dies ist auch eine Reihe von Haufen unterschiedlicher Größe, bei denen die Anzahl der Knoten jeweils eine Zweierpotenz ist. Jedes Array mit einer beliebigen Anzahl von Elementen kann in diesen Heap erweitert werden, da jede natürliche Anzahl in die Summe von zwei verschiedenen Graden zerlegt wird.

Im Prinzip können Sie eine reibungslose Sortierung basierend auf Binomen durchführen:

Wird es schneller funktionieren? Kaum. Der Binomialheap ist nicht binär, und im letzten Artikel haben wir herausgefunden, dass das Erhöhen der Anzahl der Nachkommen nicht beschleunigt, sondern den Bildschirm verlangsamt . Außerdem können Sie feststellen, dass der Binomialheap längere Verzweigungen aufweist, weshalb benachbarte geordnete Bereiche des Arrays etwas langsamer miteinander verbunden sind.

Es ist nicht bekannt, ob der Dijkstra-Binomialhaufen allgemein als mögliche Grundlage für seinen Algorithmus angesehen wurde. Wie dem auch sei, der Leonardov-Haufen ist wahrscheinlich optimaler.

Trailer der nächsten Serie

Selbst wenn ein Binomialstapel nicht die beste Option für eine reibungslose Sortierung ist, sollten Sie ihn nicht vollständig verwerfen.

Wenn der Binomialbaum leicht modifiziert ist und völlig andere (sehr kühne) Ideen verwendet werden, um ihn zu umgehen, erhalten wir einen originellen und effektiven Algorithmus, der seine eigenen Vorteile hat. Worüber werden wir das nächste Mal sprechen?

Klicken Sie auf die Animation, um zum Artikel mit der nächsten Sortierung nach Heap zu gelangen.

Verweise

Die glatte / glatte

Leonardo-Zahl , Binomialhaufen / Binomialhaufen

Serienartikel:

Excel-Anwendung AlgoLab.xlsm
Sorte austauschen
Einfügungssortierungen
Nach Auswahl sortieren
- Heap Sorts: N-Pyramiden
- Heap Sorts: Leonardo Numbers
- Heap-Sortierung: schwacher Heap
- Bündelsorten: Kartesischer Baum
- Andere Heap-Sortierungen: Spiegelhaufen, Mini-Heap, Sieben von unten nach oben
- Heap Sorts: Jung Heap
Sortierungen zusammenführen
Nach Verteilung sortieren
Hybridsortierung

Die heutige reibungslose Sortierung wurde der AlgoLab-App hinzugefügt. Sowie einen Bonus - und das Sortieren mit einem Binomialstapel. Wer also die Daten auf den Heap-Heaps persönlich steuern möchte, aktualisiert die Excel-Datei mit Makros.

Reibungslose Sortierung