Отметить n случайно отобранных наблюдений из каждой подгруппы

Мне нужно случайным образом отобрать одинаковое число наблюдений из каждой подгруппы
наблюдений в пределах одного файла. Наблюдение состоит из идентификатора (ID) и переменной
pop, которая характеризует размер наблюдения/объекта (численность населения, вообще говоря).
Файл отсортирован по этой переменной pop.

Мне нужно осуществить выборки из категорий, определяемых по переменной pop.
Например, мне нужно отобрать 10 наблюдений из 50 наблюдений с наивысшими значениями pop, затем
10 наблюдений из группы, где b < pop < a, затем 10 наблюдений из группы с наименьшими значениями
pop, т.е. pop < b.

В результате я хотел бы иметь фильтрующую переменную для определения каждой подвыборки, т.е.
(1 = отобрано, 2 = не отобрано).

* РЕШЕНИЕ. Автор: rlevesque@videotron.ca, размещено в SPSSX-L, 14.05.2001.
* www.spsstools.net
*.

* Создадим пример данных для иллюстрации.
INPUT PROGRAM.
LOOP id=1 TO 200.
COMPUTE pop=5+TRUNC(UNIFORM(95)).
END CASE.
END LOOP.
END FILE.
END INPUT PROGRAM.
LIST.
SORT CASES BY pop(D).

* Начинаем решение задачи.

* Определим для этой цели макрос.
*//////////////////////.
DEFINE !sample (size=!TOKENS(1) /larger=!TOKEN(1) /b=!TOKEN(1)).

* Ранжируем по переменной pop чтобы определить 50 крупнейших объектов 50.
RANK
  VARIABLES=pop  (D) /RANK INTO rpop /PRINT=YES
  /TIES=MEAN .

* Определим категорию каждого наблюдения.
COMPUTE categ=2.
DO IF rpop LE !larger.
COMPUTE categ=1.
ELSE IF pop LT !b.
COMPUTE categ=3.
END IF.

* Осуществление случайного отбора.
COMPUTE draw=UNIFORM(1).
RANK VARIABLES=draw  (A) BY categ  /RANK INTO rdraw.
COMPUTE filter1=(rdraw LE !size).
VALUE LABEL filter1 1 'отобрано' 0 'не отобрано'.
EXECUTE.
!ENDDEFINE.
*//////////////////////.

*Пример вызова макроса когда нам требуется отобрать по 10 наблюдений (size=10) из каждой категории, где
*cat1= составлена из случаев с наивысшим рангом по переменной pop (крупнейшие 50 объектов) (larger=50).
*cat3= составлена из случаев, где pop < 20 (b=20).
*cat2= составлена из всех остальных случаев.

* Вызов макроса.
!sample size=10 larger=50 b=20.

* Эта кросстабуляция показывает, что из каждой категории было отобрано 10 наблюдений.
CROSSTABS
  /TABLES=filter1  BY categ
  /FORMAT= AVALUE TABLES
  /CELLS= COUNT .

* Если вам нужны другие типы выборок, измените параметры макроса
...
Navigate from here