Отметить n случайно отобранных наблюдений из каждой подгруппы
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 | Мне нужно случайным образом отобрать одинаковое число наблюдений из каждой подгруппы наблюдений в пределах одного файла. Наблюдение состоит из идентификатора (ID) и переменной pop, которая характеризует размер наблюдения/объекта (численность населения, вообще говоря). Файл отсортирован по этой переменной pop. Мне нужно осуществить выборки из категорий, определяемых по переменной pop. Например, мне нужно отобрать 10 наблюдений из 50 наблюдений с наивысшими значениями pop, затем 10 наблюдений из группы, где b < pop < a, затем 10 наблюдений из группы с наименьшими значениями pop, т.е. pop < b. В результате я хотел бы иметь фильтрующую переменную для определения каждой подвыборки, т.е. (1 = отобрано, 2 = не отобрано). * РЕШЕНИЕ. Автор: rlevesque@videotron.ca, размещено в SPSSX-L, 14.05.2001. * www.spsstools.net *. * Создадим пример данных для иллюстрации. INPUT PROGRAM. LOOP id=1 TO 200. COMPUTE pop=5+TRUNC(UNIFORM(95)). END CASE. END LOOP. END FILE. END INPUT PROGRAM. LIST. SORT CASES BY pop(D). * Начинаем решение задачи. * Определим для этой цели макрос. *//////////////////////. DEFINE !sample (size=!TOKENS(1) /larger=!TOKEN(1) /b=!TOKEN(1)). * Ранжируем по переменной pop чтобы определить 50 крупнейших объектов 50. RANK VARIABLES=pop (D) /RANK INTO rpop /PRINT=YES /TIES=MEAN . * Определим категорию каждого наблюдения. COMPUTE categ=2. DO IF rpop LE !larger. COMPUTE categ=1. ELSE IF pop LT !b. COMPUTE categ=3. END IF. * Осуществление случайного отбора. COMPUTE draw=UNIFORM(1). RANK VARIABLES=draw (A) BY categ /RANK INTO rdraw. COMPUTE filter1=(rdraw LE !size). VALUE LABEL filter1 1 'отобрано' 0 'не отобрано'. EXECUTE. !ENDDEFINE. *//////////////////////. *Пример вызова макроса когда нам требуется отобрать по 10 наблюдений (size=10) из каждой категории, где *cat1= составлена из случаев с наивысшим рангом по переменной pop (крупнейшие 50 объектов) (larger=50). *cat3= составлена из случаев, где pop < 20 (b=20). *cat2= составлена из всех остальных случаев. * Вызов макроса. !sample size=10 larger=50 b=20. * Эта кросстабуляция показывает, что из каждой категории было отобрано 10 наблюдений. CROSSTABS /TABLES=filter1 BY categ /FORMAT= AVALUE TABLES /CELLS= COUNT . * Если вам нужны другие типы выборок, измените параметры макроса |
Related pages
...