******************************************************************************************
* СОРТИРОВКА ВНУТРИ НАБЛЮДЕНИЙ: РЕАЛИЗАЦИЯ НЕКОТОРЫХ ПОПУЛЯРНЫХ СОРТИРОВОЧНЫХ АЛГОРИТМОВ *
******************************************************************************************
*Кирилл Орлов. kior@comtv.ru

*Ниже дан SPSS-синтаксис некоторых известных сортировочных алгоритмов.
*В данном случае алгоритмы применены для сортировки значений внутри наблюдений (кейсов).
*Замените число 13 на то число переменных, сколько вы собираетесь ввести в сортировку, и запустите
*тот синтаксис того или иного алгоритма.

*Следующие алгоритмы рассмотрены:
*ПРОСТЫЕ СОРТИРОВОЧНЫЕ АЛГОРИТМЫ: BUBBLE, SELECTION, INSERTION.
*АЛГОРИТМЫ ДЛЯ БЫСТРОЙ СОРТИРОВКИ БОЛЬШИХ ВЕКТОРОВ: SHELL's INSERTION, HEAPSORT, QUICKSORT.

*Что такое "устойчивый" сортировочный алгоритм:
*Если в данных (векторе) есть одинаковые значения, то "устойчивый" сортировочный алгоритм
*гарантирует, что порядок среди них будет соблюден, т.е. что значение, исходно бывшее в векторе
*более ранним (левым) чем другое, равное ему, значение, на выходе обязательно
*будет левее его. Не-"устойчивый" сортировочный алгоритм не гарантирует этого.
******************************************************************************************

*Создадим данные.
input prog.
vector v (13 f2).
loop #c= 1 to 20.
-loop #v= 1 to 13.
- comp v(#v)= rnd(rv.uniform(1,13)).
-end loop.
-end case.
end loop.
end file.
end input prog.
exec.


*************** BUBBLE (=EXCHANGE) алгоритм, УСТОЙЧИВЫЙ ВАРИАНТ ******************.

*Вары перебираются попарно и, когда надо, обмениваются значениями.
*Процедура повторяется до тех пор, пока больше обмена не требуется.
*Этот алгоритм считается самым медленным из простых сортировочных алгоритмов. "Устойчивый".

vector v= v1 to v13.
loop #it= 1 to 13. /*Максимум может потребоваться столько итераций процедуры, сколько варов
-comp #sorted= 1. /*Это сигнал, что вектор отсортирован, пока что допустим что он отсортирован
-loop #i= 2 to 13-#it+1. /*Пробегаем вары, беря пару: данный вар и предыдущий (можно бы и наоборот: данный и последующий - неважно)
                  /*Можно бы написать просто 'to 13', но 'to 13-#it+1' экономнее (дело в том что на каждой итерации наибольшее (при по убыванию - наименьшее) значение
                  /*всей серии обязательно окажется в хвосте, след-но, на след итерации этого хвоста уже можно не касаться - не проверять, нужен ли там обмен)
- do if v(#i)<v(#i-1). /*Если в данном варе значение ниже чем в предыдущем [для сортировки по убыванию - выше чем в нем]
-  comp #sorted= 0. /*То, пометив что сортировка требуется
-  comp #temp= v(#i). /*Обмениваем наши два вара значениями (temp это временное хранилище одного из значений)
-  comp v(#i)= v(#i-1).
-  comp v(#i-1)= #temp.
- end if.
-end loop.
end loop if #sorted. /*Процедуру (итерации) прекращаем, если, просмотрев так все вары (пары), не обнаружим больше необходимости сортировать
exec.

*Если в данных есть пропущ. значения, то они остаются на своих местах и служат как бы границами "подвекторов": сортировка будет
*только внутри подвекторов. Напр., кейс есть 5 4 . 5 6 4, на выходе будет 4 5 . 4 5 6.
*Если нужно чтобы этой "разбивки" не было и все missing сортировались в хвост вектора, к 'do if' условию добавь: 'or miss(v(#i-1))'.


*************** BUBBLE (=EXCHANGE) алгоритм, НЕ-УСТОЙЧИВЫЙ ВАРИАНТ ******************.

*Этот вариант синтаксиса bubble-сортировки несколько быстрее предыдущего, но он не "устойчивый".
*Тут пару варов составляют не смежные вары, а традиционные попарные "сочетания".
vector v= v1 to v13.
-loop #i= 1 to 13-1. /*Берем один вар
- loop #j= #i+1 to 13. /*Берем ему в пару другой вар
-  do if v(#j)<v(#i). /*Если значение в во 2-м меньше чем в 1-м (для сортировки по убыванию - выше чем в нем)
-   comp #temp= v(#j).
-   comp v(#j)= v(#i). /*Обмениваем наши два вара значениями (temp это временное хранилище одного из значений)
-   comp v(#i)= #temp.
-  end if.
- end loop.
-end loop.
exec.

*Если в данных есть missing, сортировка будет неправильной. Во избежание этого
*к do if условию добавь: 'or miss(v(#i))', и все missing отсортируются в хвост вектора.


******** SELECTION (=EXTREMUM) алгоритм, ВАРИАНТ С ОБМЕНОМ (НЕ-УСТОЙЧИВЫЙ) *********.

*Selection-алгоритм ищет в векторе экстремальное значение (минимальное или максимальное - в зависимости от
*того нужна ли сортировка во возрастанию или убыванию) и перемещает его в начало вектора,
*затем это же повторяется на оставшейся части вектора - и так далее пока весь он не отсортируется.
*Это самый интуитивно понятный алгоритм сортировки.
*Данная версия - не "устойчивая". Среди простых алгоритмов Selection алгоритм быстрее чем bubble-алгоритм,
*но медленнее чем insertion-алгоритм.
*(Хотя здесь напрашивается использование встроенных функций MIN (MAX), в действительности они были бы тут
*неэкономичны (при строгом подходе), т к подразумевают скрытую пробежку процессором вектора значений, - но нам и так
*придется делать пробежку, чтобы узнать позицию данного min или max значения. Так что получилась был лишняя пробежка).

vector v= v1 to v13.
loop #i= 1 to 13-1. /*Берем по значению
-comp #m= #i. /*m это будет позиция наименьшего (наибольшего, при сорт-ке по убыванию) значения; допустим пока что это и есть взятое значение
-loop #j= #i+1 to 13. /*Пробегаем оставшиеся справа значения
- if v(#j)<v(#m) #m= #j. /*сравнивая их с якобы-наименьшим (наибольшим) и запоминая номер из них меньшего [для убыв сортировки - большего, т е > вместо <]
-end loop. /*так что по выходе из пробежки m это точно номер наименьшего (наибольшего) значения
-comp #temp= v(#i). /*Теперь совершаем обмен: temp это временная выписка значения
-comp v(#i)= v(#m). /*Вот - на место i вставляем наименьшее (наибольшее) значение
-comp v(#m)= #temp. /*а бывшее на месте i вставляем на место где было наименьшее (наибольшее) значение
end loop. /*Берем следующее значение, стоящее на i+1, в качестве якобы-экстремума
exec.

*Если в данных есть пропущ. значения, они остаются на местах. Чтобы они отсортировались в хвост
*вектора, добавь к к условию if-команды, что стоит внутри лупа: 'or miss(v(#m))'.


******** SELECTION (=EXTREMUM) алгоритм, ВАРИАНТ СО СДВИГОМ (УСТОЙЧИВЫЙ) *********.

*Этот вариант основан на предыдущем, но вместо обмена 2-х значений - данного и экстремума - позициями
*он затевает дополнительную пробежку со сдвиганием всех значений слева от экстремума на позицию вправо.
*Ценой такого удлинения (замедления) работы достигается "устойчивость".

vector v= v1 to v13.
loop #i= 1 to 13-1. /*Берем по значению
-comp #m= #i. /*m это будет позиция наименьшего (наибольшего, при сорт-ке по убыванию) значения; допустим пока что это и есть взятое значение
-loop #j= #i+1 to 13. /*Пробегаем оставшиеся справа значения
- if v(#j)<v(#m) #m= #j. /*сравнивая их с якобы-наименьшим (наибольшим) и запоминая номер меньшего [для убыв сортировки - большего, т е > вместо <]
-end loop. /*так что по выходе из пробежки m это точно номер наименьшего (наибольшего) значения
-comp #temp= v(#m). /*Выписываем найденный экстремум во временное хранилище
-loop #j= #m-1 to #i by -1. /*Затеваем сдвижку: берем по одному значения слева от экстремума
- comp v(#j+1)= v(#j). /*И сдвигаем на позицию вправо
-end loop.
-comp v(#i)= #temp. /*в итоге освобождая позицию i, куда и записываем наш экстремум
end loop. /*Берем следующее значение, стоящее на i+1, в качестве якобы-экстремума
exec.


*************************** INSERTION алгоритм ****************************.

*Заключается в том что берет значения по порядку (начиная со 2-го) и,
*сканируя значения влево от него, отыскивает там правильное место, куда его вставить
*(вручную так обычно сортируют картотеки). Вставляя, тем самым раздвигает этот левый подвектор вправо на одно значение.
*Вставляя так значения за значением из правого подвектора в сортированный левый, наращивает последний.
*Из простых алгоритмов этот считается довольно быстрым, в среднем он быстрее чем selection и гораздо быстрее чем bubble алгоритмы.
*Однако его преимущество над selection - только на данных, которые исходно уже недалеки от сортированности в нужном направлении.
*Алгоритм "устойчивый". Еще его плюс в том, что он разрешает, чтобы данные поступали (к примеру, порождались) постепенно, по значению ("онлайн"-сортировка).

vector v= v1 to v13.
loop #ins= 2 to 13. /*Берем по значению, начиная со 2-го (ins это его порядковый номер, номер вара)
-comp #val= v(#ins). /*и запоминаем его; слева от него находятся значения, которые уже отсортированы алгоритмом
-loop #i= #ins-1 to 1 by -1 if v(#i)>#val. /*Мы должны отыскать среди них место, куда вставить наше значение
                       /*Поэтому, если примыкающее к нему слева больше него [меньше - для убывающей сортировки], пробегаем справа налево отсортированные значения
- comp v(#i+1)= v(#i). /*сдвигая их вправо на позицию по одному, пока не дойдем до значения, ктр не больше чем наше
-end loop.
-comp v(#i+1)= #val. /*И тогда вставим наше значение рядышком справа от него; левая, сортированная часть вектора расширилась на 1 значение
end loop. /*Берем следующее по порядку значение и т д
exec.

*Если в данных есть пропущ. значения, то они остаются на своих местах и служат как бы границами "подвекторов": сортировка будет
*только внутри подвекторов. Напр., кейс есть 5 4 . 5 6 4, на выходе будет 4 5 . 4 5 6.
*Если нужно чтобы этой "разбивки" не было и все missing сортировались в хвост вектора, к if условию в loop добавь: 'or miss(v(#i))'.


*************************** SHELL's INSERTION алгоритм ****************************.

*Шелл (1959) предложил, как ускорить insertion-алгоритм в ситуации больших, а также далеких от сортированности векторов.
*Суть заключается в том, что значения "слева" - среди которых ищется место для вставки данного взятого значения - сканируются
*через большой шаг (т.е. шаг не 1, а больший), что ускоряет отыскание места для вставки. Когда все значения так вставлены, и вектор
*стал ближе к сортированности, процедура повторяется с меньшим шагом, потом еще с более меньшим. В конце делается с шагом 1 (т.е.
*обычный insertion-алгоритм, когда вектор уже почти отсортирован).
*Например, есть вектор из 13-ти значений. Сначала берется такой шаг, чтобы вектор разбился на подвекторы по 2 значения,
*отстоящие друг от друга на шаг: 13/2=6.5, т е шаг будет 6. Это значения с номерами 1-7, 2-8, 3-9, и т.д.
*В этих подвекторах - между этими значениями - и идет insertion сортировка. Затем берется разбивка, где по 4 эл-та в подвекторе,
*отстоящих друг от друга на шаг 3 (13/4=3.25). Это значения с номерами 1-4-7-10, 2-5-8-11, 3-6-9-12. Сортируются эти подвекторы.
*Под конец сортировка проводится над всем вектором.
*Сортировка Шелла не является "устойчивой", как и "онлайн-сортировкой".

vector v= v1 to v13.
loop #n= 1 to 13. /*Будем делать "разбивки" вектора (разбивок будет в действительности меньше 13, т к закончим раньше чем n дойдет до 13)
-comp #n= 2**#n. /*по n элементов в подвекторе: при первой разбивке n=2, при второй n=4, при третьей n=8 и т д
-comp #step= trunc(13/#n). /*Элементы в подвекторе - не смежные, а отстоят друг от друга на шаг step, ктр есть след-но и число полных (с n элементами) подвекторов
-if #step=1 #n= 13. /*В том случае если полный подвектор - единственный, берем в качестве его замены весь вектор
-loop #sv= 1 to #step. /*Для каждой "разбивки", пускаем для каждого ее подвектора insertion-сортировку в нем, sv это порядковый номер подвектора
*****Отчеркнутая далее секция - это insertion алгоритм, нюанс только в том что все делается с шагом не 1, а step.
- loop #ins= #sv+#step to #sv+#step*(#n-1) by #step.
-  comp #val= v(#ins).
-  loop #i= #ins-#step to #sv by -#step if v(#i)>#val. /*[для убывающей сортировки: < вместо >]
-   comp v(#i+#step)= v(#i).
-  end loop.
-  comp v(#i+#step)= #val.
- end loop.
*****.
-end loop.
end loop if #step=1. /*Если подвектор - единственный, это сигнал кончать работу, сортировка сделана
exec.

*Если в данных есть пропущ. значения, то к if условию в 'loop #i' добавь: 'or miss(v(#i))', и они будут отсортированы в хвост.
*Без этой вставки при наличии пропусков алгоритм даст несуразный рез-т.


************************ HEAPSORT алгоритм ******************************.

*Это быстрый алгоритм для больших векторов. Он не "устойчивый".
*Работа состоит из 2-х этапов. На 1-м вектор сортируется в частично сортированный вектор, наз. пирамидой (heap).
*На 2-м этапе пирамида досортировывается в результат.
*Пирамида это иерархическая структура типа "мать с 2-мя дочерьми", где элемент-мать больше чем ее дочери (тогда пирамида наз. нисходящей)
*или мать меньше чем дочери (тогда пирамида наз. восходящей). Пирамида хранится как вектор, где каждому элементу на позиции p
*отвечают дочери на позициях 2*p и 2*p+1. Пример нисходящей пирамиды в виде рисунка и в виде вектора:
*          10
*     8          6
*   3   6      5   1
*  3 2 3 5    4 
*
*позиц  1   2   3   4   5   6   7   8   9  10 11 12
*знач  10   8   6   3   6   5   1   3   2   3  5  4
*
*На обоих этапах алгоритм один и тот же, обменный: сравниваются эл-ты, находящиеся на материнских позициях, с их дочерьми,
*и если окажется, что одна из дочерей больше (при восходящей пирамиде - меньше) чем мать, она меняется с ней позицией.
*Разница между этапами в распорядке алгоритма: на 1-м этапе проверяются подряд все матери, и это приводит к пирамиде, где
*1-й эл-т - корневая мать - наибольший (наименьший) из всех. На 2-м этапе эта мать изымается из обмена, и оставшаяся часть вектора
*подвергается пирамидизации, опять корневая мать изымается и вектор укорачивается, и т.д.: вектор все укорачивается и кроме того
*с каждым разом все меньше нуждается в досортировывании.
*Хотя это кажется на 1-й взгляд парадоксом, но к сортированности по возрастающей ведет построение как раз нисходящей пирамиды,
*а к сортированности по убыванию - восходящей пирамиды.

vector v= v1 to v13.
comp #end= 13.
loop #stage= 1 to 2. /*Две стадии: на 1-й создаем пирамиду, на 2-й сортируем пирамиду
-loop #p= trunc(13*#stage/2) to 1 by -1. /*На 1-й стадии p - это позиция матери: просматриваем всех матерей (т е все эл-ты от середины вектора и левее)
                                         /*На 2-й же стадии значение p пробегает все эл-ты от конца вектора налево
- do if #stage=2. /*На 2-й стадии есть отличия от 1-й:
-  comp #temp= v(1). /*Обменяем 1-й элемент (самую старшую мать) на последний (самую правую дочь) в векторе
-  comp v(1)= v(#p).
-  comp v(#p)= #temp.
-  comp #end= #p-1. /*И "исключим" из вектора последний элемент - он уже сортирован: самый большой (меньший, при убыв сорт-ке) на данный момент;
                    /*так что на 2-й стадии длина несортированной части вектора будет все уменьшаться
-  comp #p= 1. /*За мать же всегда исходно берется 1-й на данный момент элемент вектора
- end if.
*****Отчеркнутое это сопоставление/обмен матери с дочерью ("sifting"="percolating").
- loop #i= 1 to 13 if #p*2<=#end. /*Будем повторять, пока у матери есть дочь (т е позиц p матери такова, что 2*p не выходит за конец вектора)
                                  /*i нам не понадобится (ввели только чтобы не задавать SET MXLOOPS) и циклы закончатся раньше чем i=13
-  comp #c= #p*2. /*Позиция дочери (левой)
-  do if #c+1<=#end. /*Когда дочерей две
-   if v(#c+1)>v(#c) #c= #c+1. /*то, если правая дочь больше [меньше, для убыв сорт: < вместо >] левой, за сравниваемую дочь берем правую
-  end if.
-  do if v(#p)<v(#c). /*Сравниваем мать и большую [меньшую] дочь и обмениваем их местами, если дочь больше [меньше, для убыв сорт: > вместо <] матери
-   comp #temp= v(#p).
-   comp v(#p)= v(#c).
-   comp v(#c)= #temp.
-   comp #p= #c. /*так что теперь мать находится на позиции дочери (так что дальше будем сопоставлять ее с дальшейшими дочерьми, бывшими прежде ее внучками)
-  else. /*Если же мать больше большей [меньше меньшей] дочери, выходим
-   break.
-  end if.
- end loop. /*чтобы взять для процесса сопоставления другую мать
*****.
-end loop.
end loop.
exec.

*В присутствии пропущ. значений сортировка будет с ошибками. Чтобы этого не было, а пропуски отсортировались в хвост вектора,
*к условию 'if v(#c+1)>v(#c)...' добавь: 'or miss(v(#c+1))', а к условию 'do if v(#p)<v(#c)' добавь: 'or miss(v(#c))'.


************************ QUICKSORT алгоритм *****************************.

*Это быстрый алгоритм для больших векторов, быстрее чем heapsort, но занимающий больше памяти (т.к. алгоритм пишет себе памятки).
*Он не "устойчивый". Идея его в том, что вектор все более дробно сортируется по принципу "разделяй и властвуй". Все значения,
*большие некоторого выбранного значения, собираются по одну сторону от него, а все значения,
*меньше него, собираются по другую сторону от него. В каждом из этих двух подвекторов опять выбирается
*некое значение в качестве разделяющего, и процедура повторяется, - и так далее. Т.о., сущностью метода является
*разделение (под)вектора на левое и правое крылья, относительно произвольно выбранного pivot-значения.
*Существует целый ряд версий алгоритма, вот одна.

vector v= v1 to v13 /#s #e (13). /*Векторы s и e - для хранения координат подвекторов (только левых крыльев), получаемых в рез-те разделения больших подвекторов
recode #s1 to #s13 (else=0). /*Страхуемся от перенесенных значений с предыдущего кейса, ибо имеем дело со скретчами
comp #s(1)= 1. /*Начинаем с
comp #e(1)= 13. /*подвектора, ктр есть сам вектор: s - позиция начала, e - позиция конца
comp #w= 2. /*Запись координат дальше начнем, стало быть, отсюда (w это позиция для записи в векторы s и e)
loop #r= 1 to 13 if #s(#r)>0. /*r это позиция для считки в векторах s и e: значения там - начало s и конец e входящего подвектора; работаем, пока в векторе s (и e) есть что-то записанное
-comp #s= #s(#r). /*Координату начала скопируем, т к она будет изменяться (тогда как e - пока нет)
-loop #w= #w to 13 if #s<#e(#r). /*Работа с входящим подвектором состоит в том, что будем повторительно раделять его правое крыло (т е его разделим, потом разделим его правое крыло,
                                /*потом правое крыло правого крыла и т д, пока есть что разделять, т е пока конец дальше начала)
                                /*w же это позиция в векторах s и e, куда будем писать координаты получающихся левых крыльев, ибо ими будем заниматься позднее
****Отчеркнутый фрагмент - разделение подвектора****.
- comp #p= trunc((#s+#e(#r))/2). /*Выбираем pivot эл-т: пусть это будет середина подвектора
- comp #temp= v(#p). /*Переносим pivot-элемент в начало разделяемого подвектора (убираем этот эл-т, в сохранное место)
- comp v(#p)= v(#s). /*ну а начальный эл-т ставим на бывшую позицию pivot (обмен)
- comp v(#s)= #temp.
- comp #p= #e(#r). /*p теперь будет позицией для приема перекидываемых на правое крыло элементов (пока берем ее как конец подвектора); (в конце p станет итоговой позицией pivot эл-та)
- loop #i= #e(#r) to #s+1 by -1. /*Делаем перекидку: берем по элементу в подвекторе (pivot эл-т не трогаем)
-  do if v(#i)>v(#s). /*Если эл-т больше [меньше, для сорт-ки по убыв: < вместо >] чем pivot эл-т, то
-   comp #temp= v(#i). /*вставляем его на принимающую позицию в правом крыле
-   comp v(#i)= v(#p). /*(обменивая на эл-т, который оную занимал)
-   comp v(#p)= #temp.
-   comp #p= #p-1. /*И сдвигаем принимающую позицию на 1 влево
-  end if.
- end loop. /*Берем след-щий эл-т подвектора для сравнения с pivot и перекидки
- comp #temp= v(#s). /*По окончании перекидки элементов в подвекторе вставляем на принимающую позицию pivot эл-т
- comp v(#s)= v(#p). /*(обменивая на эл-т, который оную занимал)
- comp v(#p)= #temp. /*Крылья готовы: все эл-ты справа от pivot эл-та (его позиция p) больше [меньше, при сорт-ке по убыв], а слева от pivot эл-та - не больше [не меньше] него
****.
- comp #s(#w)= #s. /*Позиция начала левого крыла: выписываем ее в хранилище
- comp #e(#w)= #p-1. /*Позиция конца левого крыла: выписываем ее в хранилище
- comp #s= #p+1. /*Позиция начала правого крыла: на след витке разделим подвектор, ктр нач отсюда и кончается на позиции e
-end loop. /*Переходим к его разделению
end loop. /*Когда больше нечего разделять, берем след подвектор согласно очередным в хранилище координатам s(r) e(r)
exec.

*В присутствии пропущ. значений сортировка не нарушается, но позиции пропусков сдвигаются. Чтобы этого не было и
*все missing отсортировались в конец вектора, к 'do if' условию добавь: 'or miss(v(#i))'.

*Хотя pivot эл-т можно выбирать в (под)векторе произвольно, от его выбора зависит скорость.
*Если входящий вектор уже частично сортирован, то выбор pivot эл-та у края (под)вектора существенно замедляет работу.
*Поэтому оптимальнее и универсальнее всего брать pivot из средней части (под)вектора, как делает синтаксис выше.
*Или можно выбирать его случайно.