Raking In Stata Forex
SURVWGT: Módulo Stata para crear y manipular pesos de encuesta. Survwgt crea conjuntos de pesos para técnicas de estimación de varianza basadas en replicación para datos de encuestas. Estos incluyen repetición repetida equilibrada (BRR) y varias versiones de la encuesta jackknife (JK). Estos métodos de replicación son alternativos a los métodos de linealización de la serie Taylor utilizados por los comandos Statas svy-based. Si experimenta problemas al descargar un archivo, compruebe si tiene la aplicación adecuada para verla primero. En caso de problemas adicionales, lea la página de ayuda de IDEAS. Tenga en cuenta que estos archivos no están en el sitio IDEAS. Por favor sea paciente ya que los archivos pueden ser grandes. Componente de software proporcionado por el Departamento de Economía de Boston College en su serie Componentes de Software Estadístico con el número S427503. Cuando solicite una corrección, mencione por favor este artículo: RePEc: boc: bocode: s427503. Consulte la información general sobre cómo corregir el material en RePEc. Para preguntas técnicas sobre este tema, o para corregir sus autores, título, resumen, información bibliográfica o de descarga, contacte a: (Christopher F Baum) Si ha creado este artículo y aún no está registrado en RePEc, le recomendamos que lo haga aquí . Esto permite vincular tu perfil a este elemento. También le permite aceptar citas potenciales a este tema de las que no estamos seguros. Si faltan referencias, puede agregarlas usando este formulario. Si las referencias completas enumeran un elemento que está presente en RePEc, pero el sistema no enlazó con él, puede ayudar con este formulario. Si sabe de los elementos que faltan citando éste, puede ayudarnos a crear esos vínculos agregando las referencias pertinentes de la misma manera que se ha indicado anteriormente, para cada elemento referente. Si usted es un autor registrado de este artículo, también puede revisar la pestaña de citas en su perfil, ya que puede haber algunas citas esperando confirmación. Tenga en cuenta que las correcciones pueden tardar un par de semanas en filtrarse a través de los distintos servicios de RePEc. Más servicios MyIDEAS Seguir series, revistas, autores amp más Nuevos artículos por correo electrónico Suscribirse a nuevas adiciones a RePEc Registro de autor Perfiles públicos para investigadores de economía Rankings Varios rankings de investigación en economía y campos relacionados Genealogía ¿Quién fue un estudiante de quién, con RePEc RePEc Biblio Artículos curados artículos de amp y varios temas de economía MPRA Sube tu artículo para ser incluido en RePEc e IDEAS EconAcademics Agregador de blogs para la investigación de la economía Plagio Casos de plagio en la economía Documentos de mercado de trabajo RePEc serie de trabajo de trabajo dedicada al mercado de trabajo Fantasy League Pretendas estar al timón De un departamento de economía Los servicios de la StL Fed Los datos, la investigación, las aplicaciones más amp de la Federación de San Luis Bienvenido al Instituto de Investigación Digital y Educación Biblioteca Stata Replicar los pesos El qué y por qué La respuesta corta a quotwhat y whyquot es que los pesos de repetición son Una serie de variables que contienen la información necesaria para calcular correctamente (mediante el método de peso de repetición) los errores estándar de las estimaciones puntuales al analizar los datos de la encuesta. Antes de entrar en los detalles de lo que son los pesos de repetición y cómo se crean, tenemos que saber por qué son necesarios en primer lugar. Para entender esto, necesitamos retroceder y ver cómo el análisis de los datos de la encuesta es diferente del análisis de los datos recopilados de otras maneras, p. Experimentos, cuasi-experimentos. Cuando hablamos de datos de la encuesta, nos referimos a los datos que se han recogido de los sujetos que fueron elegidos sobre la base de un plan de muestreo. El plan de muestreo es extremadamente importante, ya que al usarlo hemos violado uno de los supuestos de las fórmulas estadísticas utilizadas para calcular las estadísticas de interés para nosotros. Las estadísticas descritas en la mayoría de los textos estadísticos suponen que los datos se recogen sobre la base de una muestra aleatoria simple de los elementos de la población. En la investigación de encuestas, esto casi nunca es el caso. Porque en la mayoría de las situaciones, es demasiado poco práctico y / o demasiado costoso recopilar datos de esta manera. Debido a que la suposición SRS ha sido violada, las correcciones al cálculo de las estadísticas son necesarias. En lo que se refiere a los errores estándar, existen dos formas posibles de efectuar esta corrección. Una forma se denomina método de linealización de la serie Taylor y la otra se denomina método de repetición de peso. Antes de poder explicar cuáles son los pesos repetidos, primero debemos entender algunos elementos comunes que se encuentran en muchos conjuntos de datos de encuestas (especialmente conjuntos de datos antiguos). Estos elementos se utilizan en el método de linealización de la serie Taylor. Hay varios elementos que son exclusivos de los datos de la encuesta que son necesarios para calcular correctamente las estadísticas basadas en los datos. Cada uno de estos elementos son variables que probablemente encontrará en el conjunto de datos. Se trata de la variable de peso de probabilidad (peso de muestreo AKA, pweight), variable PSU (unidad de muestreo primario), variable de estratificación (AKA strata) y variable FPC (finite population correction). Elementos comunes de los conjuntos de datos de encuestas La mayoría de las personas no realizan sus propias encuestas con diseños de muestreo. Por el contrario, utilizan los datos de encuestas que alguna agencia o empresa recopiló y puso a disposición del público. La documentación debe leerse cuidadosamente para averiguar qué tipo de diseño de muestreo se usó para recopilar los datos. Esto es muy importante porque muchas de las estimaciones y errores estándar se calculan de manera diferente para los diferentes diseños de muestreo. Por lo tanto, si se especifica mal el diseño de muestreo, las estimaciones puntuales y los errores estándar probablemente estarán equivocados. A continuación se presentan algunas características comunes de muchos diseños de muestreo. Pesos. Hay muchos tipos de pesos que pueden asociarse con una encuesta. Tal vez el más común es el peso de muestreo, a veces denominado peso de probabilidad, que se utiliza para indicar la inversa de la probabilidad de ser incluido en la muestra debido al diseño de muestreo (a excepción de una PSU de certeza, véase más adelante). El peso de probabilidad se calcula como N / n, donde N el número de elementos en la población yn el número de elementos en la muestra. Por ejemplo, si una población tiene 10 elementos y 3 son muestreados al azar con reemplazo, entonces el peso de probabilidad sería 10/3 3.33. En un diseño de dos etapas, el peso de probabilidad se calcula como f 1 f 2. Lo que significa que la inversa de la fracción de muestreo para la primera etapa se multiplica por la inversa de la fracción de muestreo para la segunda etapa. Bajo muchos planes de muestreo, la suma de los pesos de probabilidad será igual al total de la población. Para obtener más información sobre los pesos, consulte nuestra FAQ: ¿Qué tipos de pesos SAS, Stata y SPSS son compatibles con PSU. Este es el p rimario s amplificando u nit. Esta es la primera unidad que se muestra en el diseño. Por ejemplo, los distritos escolares de California pueden ser muestreados y luego las escuelas dentro de los distritos pueden ser muestreadas. El distrito escolar sería la PSU. Si los estados de los EE. UU. fueron muestreados, y luego los distritos escolares de dentro de cada estado, y luego las escuelas de dentro de cada distrito, entonces los estados sería la PSU. No es necesario utilizar el mismo método de muestreo en todos los niveles de muestreo. Por ejemplo, se puede utilizar el muestreo proporcional a la probabilidad en el nivel 1 (para seleccionar estados), mientras que el muestreo por grupos se utiliza en el nivel 2 (para seleccionar los distritos escolares). En el caso de una muestra aleatoria simple, las UPM y las unidades elementales son las mismas. Estratos . La estratificación es un método para dividir a la población en diferentes grupos, a menudo por variables demográficas tales como género, raza o SES. Una vez definidos estos grupos, se toman muestras de cada grupo como si fueran independientes de todos los demás grupos. Por ejemplo, si se va a estratificar una muestra sobre el género, los hombres y las mujeres serán muestreados independientemente unos de otros. Esto significa que los pesos de probabilidad para los hombres probablemente serán diferentes de los pesos de probabilidad para las mujeres. En la mayoría de los casos, usted necesita tener dos o más PSU en cada estrato. El propósito de la estratificación es mejorar la precisión de las estimaciones y la estratificación funciona más eficazmente cuando la varianza de la variable dependiente es menor dentro de los estratos que en la muestra en su conjunto. FPC. Ésta es la configuración de la opulación. Esto se utiliza cuando la fracción de muestreo, el número de elementos o los encuestados muestreados en relación con la población, se hace grande. El FPC se utiliza en el cálculo del error estándar de la estimación. Si el valor del FPC es cercano a 1, tendrá poco impacto y se puede ignorar con seguridad. En algunos programas de análisis de datos de encuestas, tales como SUDAAN, esta información será necesaria si especifica que los datos fueron recopilados sin reemplazo (vea abajo una definición de quotwithout replacementquot). La fórmula para calcular el FPC es ((N-n) / (N-1)) 1/2. Donde N es el número de elementos en la población yn es el número de elementos en la muestra. Para ver el impacto del FPC para muestras de varias proporciones, supongamos que tuviera una población de 10.000 elementos. Muestreo con y sin reemplazo La mayoría de las muestras recogidas en el mundo real se recogen sin reemplazo. Esto significa que una vez que un encuestado ha sido seleccionado para estar en la muestra y ha participado en la encuesta, ese encuestado en particular no puede ser seleccionado de nuevo para estar en la muestra. Muchos de los cálculos cambian dependiendo de si se recoge una muestra con o sin reemplazo. Por lo tanto, programas como SUDAAN solicitan que especifique si un diseño de muestreo de encuesta se implementó con nuestro sin reemplazo, y se usa un FPC si se usa muestreo sin reemplazo, incluso si el valor del FPC es muy cercano a uno. El por qué y cómo Hasta hace poco, uno necesitaba utilizar software especial (como SUDAAN o WesVar) para analizar correctamente los datos de la encuesta. Hoy en día, los programas de uso común como SAS, Stata y SPSS tienen procedimientos especialmente diseñados para manejar las características de los datos de la encuesta. No importa qué paquete se utiliza, uno todavía tiene que especificar el peso de probabilidad, PSU, estratos y FPC, si se necesita. El método de linealización de la serie Taylor de corregir los errores estándar fue preferido al uso de métodos de replicación principalmente para propósitos computacionales: Tomó menos poder de cálculo para usar la serie de Taylor. Atrás cuando el poder de cálculo era una preocupación real, este método se hizo popular. Sin embargo, surgió un problema con este método (aquí es donde llegamos a la parte de peso de replicar). En algunos casos, el número de encuestados en una PSU en particular era pequeño, y la gente podía empezar a determinar quién era el entrevistado, a pesar de que no había información de identificación contenida en el conjunto de datos. Para un pequeño ejemplo de cómo funciona esto, supongamos que tenemos una encuesta estratificada en género y raza, y las UPM son ciudades en el sur de California. En algunas de estas ciudades, puede haber muy pocos individuos en un estrato en particular, como los nativos de Alaska. Una vez que el usuario de la encuesta averigüe qué número de PSU corresponde a una ciudad en particular, el usuario puede descubrir que sólo hay dos nativas de Alaska en esta ciudad. Tal vez otra información en la encuesta, por ejemplo la edad, se puede utilizar para determinar exactamente quién es el encuestado. Ahora las respuestas a la encuesta que se suponía que eran confidenciales ya no son confidenciales. Una manera de evitar este problema es no liberar datos sobre estratos que tienen menos de 100 encuestados en ella. Sin embargo, esto puede conducir a resultados engañosos porque no todos los estratos están siendo incluidos en el análisis. Otra solución es usar pesos de repetición. Debido a que los pesos de repetición son una serie de muchas variables (a menudo entre 50 y 100) y sus valores se basan en la información no proporcionada al usuario del conjunto de datos de la encuesta, es casi imposible para el usuario averiguar la identidad de un encuestado dado . Tenga en cuenta que cuando se utiliza el método de peso de repetición, la PSU y las variables de estratos no se incluyen en el conjunto de datos. Sin embargo, se incluirá el peso de probabilidad, y tanto el peso de probabilidad como los pesos de repetición se deben utilizar para el cálculo correcto de la estimación puntual y su error estándar. Hay varias maneras de crear pesos de repetición. Sin embargo, todos ellos se basan en una lógica subyacente similar. La muestra se divide en submuestras, llamadas repeticiones. A continuación, la estimación de interés se calcula a partir de la muestra completa y de cada repetición. Por último, las diferencias entre la estimación de la muestra completa y cada una de las repeticiones se utiliza para determinar la varianza, es decir, el error estándar, alrededor de la estimación. Diferentes métodos de creación de las submuestras producen los diferentes tipos de pesos de repetición. Los diferentes tipos de pesos de repetición incluyen repetición repetida balanceada (BRR), jackknife (JK-1, JK-2 y JK-n) y diferencias sucesivas. La elección del tipo de peso de la repetición que se crea está determinado por el tipo de diseño de muestreo que se usó para recopilar los datos, en particular, si se utilizó o no la estratificación y el número de UPM en cada estrato. Si no se usó la estratificación, entonces el método de peso de replicación apropiado sería jackknife delete-1. Si se utilizó la estratificación y hubo exactamente dos UPM por estrato, entonces se podría usar BRR (o BRR con corrección Fays) o jackknife delete-2. Si hubiera más de dos PSU por estrato, se utilizaría jackknife delete-n. Para un tratamiento completo y extremadamente legible de BBR y los varios tipos de pesos de réplica de jackknife, por favor vea el manual de WesVar. Para obtener más información sobre las diferencias sucesivas, consulte Fay y Train (1995). Además de proteger la privacidad de los encuestados, el método de repetición de peso tiene otras ventajas. Uno de ellos es que los pesos repetidos pueden incluir información que no sea sólo los estratos y PSU. Muchas encuestas tienen correcciones al peso de probabilidad para dar cuenta de la no respuesta, la poststratificación y / o el rastrillo a los totales conocidos, como las cifras actuales del Censo. Los efectos de estos ajustes se pueden incorporar en los pesos de repetición. Por supuesto, hay algunas desventajas para el método de repetición de peso. Uno se ve en los conjuntos de datos extremadamente grandes que tienen un gran número de pesos de repetición. En tales casos, las limitaciones del software o del ordenador podrían hacer que el tiempo de cálculo sea extremadamente largo o no posible. Otra desventaja tiene que ver con el cálculo de estadística no lineal, tales como relaciones y cuantiles. Si el número de estratos es pequeño, existe la posibilidad de sesgo. Una última nota sobre la repetición de pesos. Al especificarlos en un programa, usted tiene que saber por qué método los pesos de repetición fueron creados. Sus estimaciones serán inexactas si usted dice al programa que tiene pesos de replicación JK-1 cuando de hecho las repeticiones se formaron usando BRR. Si los pesos de repetición se proporcionan como parte del conjunto de datos, la documentación le indicará cómo se formaron las réplicas. Esta información se puede encontrar a menudo en la sección sobre el cálculo de errores estándar. Creación de pesos de repetición En raras ocasiones, puede ser necesario crear pesos de repetición para un conjunto de datos de encuesta. Para ello se pueden utilizar varios programas. WesVar creará pesos de repetición, y hay un programa Stata. ado de Nicholas Winters llamado svr (de la línea de comandos de Stata, escriba findit svr para encontrar y descargar. ado). Dentro de este programa hay un comando llamado survwgt que creará brr, jk1, jk2 y jkn replicar pesos. Una introducción general al método de repetición de peso (y la serie de Taylor) se puede encontrar en el capítulo 4 de Análisis de datos complejos de la encuesta por Eun Sul Lee, Ronald N. Forthofer y Ronald J. Lorimor. Las fórmulas matemáticas en las que se basan los pesos repetidos pueden encontrarse en muchos textos, incluido el manual WesVar 4, que está en línea en westat / Westat / pdf / wesvar / WV4-3Manual. pdf Se puede encontrar documentación y una bibliografía en westat / Westat / expertise / informationsystems / WesVar / wesvardocumentation. cfm. Por supuesto, la introducción a la estimación de la variación por Kirk M. Wolter es el clásico en esta área. Usar pesos de replicación en Stata Ahora que tenemos una idea general sobre qué pesos de repetición son y por qué necesitan ser usados, es hora de usarlos. Para nuestros ejemplos, usaremos el conjunto de datos CHIS para adultos (vea chis. ucla. edu/). La Encuesta de Entrevista de Salud de California (CHIS) se divide en varios conjuntos de datos. Estaremos usando el conjunto de datos quotadultquot. En el conjunto de datos CHIS adulto, hay 80 pesos de repetición creados usando el método jackknife (técnicamente, el método jackknife delete-2). Vamos a utilizar estos y el pweight final, llamado rakedw0. En nuestro comando svyset. Además de especificar el peso de probabilidad y los pesos de repetición, también necesitamos proporcionar el multiplicador de ajuste del peso del jack, que para este conjunto de datos es 1. Esta información se encuentra en la misma parte de la documentación de la encuesta que indica cómo se crearon los pesos de repetición . Si el tipo de pesos de repetición era BRR en lugar de jackknife, veríamos si había un ajuste de Fays. NOTA: El uso de pesos de repetición es una característica nueva de Stata 9. Los comandos siguientes no funcionarán en versiones anteriores de Stata. Ahora que le hemos informado a Stata sobre las características de nuestro conjunto de datos, asegúrese de que lo hemos hecho correctamente. Podemos usar el comando svydes para hacer esto. Observará que, al final de la salida, parece haber sólo un estrato y sólo una observación por unidad (PSU). Esto se debe a que la información para la estratificación y PSUs está contenida en los pesos de repetición y por lo tanto no se muestra en esa tabla. A continuación, ejecutaremos un ejemplo de regresión simple usando ae13 como variable de respuesta (dependiente) y ae14 como variable predictora (independiente). Estas variables fueron elegidas al azar. Aunque el comando se ejecutará (y se ejecutará más rápido) sin la opción jackknife después de la svy. Obtendrá errores estándar linealizados en lugar del error estándar jackknife. Este error estándar jackknife coincide con los errores estándar producidos por SUDAAN y WesVar. Ejemplo de configuraciones de SUDAAN son útiles Debido a que SUDAAN ha sido capaz de manejar pesos repetidos mucho más tiempo que Stata, la documentación oficial para una encuesta puede incluir una configuración de muestra para SUDAAN pero no para Stata, aunque puede encontrar algunos ejemplos de Stata en la web. No pinchar por el ejemplo de SUDAAN pensando que es inútil para usted como un usuario de Stata más bien, a menudo es la forma más fácil de obtener toda la información que necesita para su comando svyset. Todos los programas de análisis de datos de la encuesta deben tener la misma información: el peso de probabilidad, el tipo de peso de replicación que se va a utilizar, los nombres de las variables de peso de repetición y el factor de ajuste. Estos elementos son necesarios independientemente del tipo de plan de muestreo que se utilizó. En SUDAAN, el peso de probabilidad será listado en la declaración de peso. El tipo de peso se mostrará en la opción de diseño de la instrucción proc. Los nombres de los pesos de repetición se pueden encontrar en la instrucción jackwgts para pesos de replicación jackknife o en la sentencia repwgt para pesos de repetición BRR. El ajuste se puede encontrar en la misma instrucción - adjjack para jackknife duplicar pesos y adjfay para BRR replicar pesos. Una pequeña nota sobre pseudo-estratos y pseudo-PSU Algunos conjuntos de datos modernos están siendo liberados con pseudo-estratos y pseudo-PSU. Estos pueden ser utilizados en una linealización de la serie Taylor, al igual que sus contrapartes no pseudo. Estos elementos son quotpseudoquot en el sentido de que han sido modificados de tal manera que, aunque las estimaciones puntuales y los errores estándar se estimen correctamente, los usuarios del conjunto de datos son incapaces de usar los estratos y la PSU para averiguar quiénes son los encuestados individuales. Los resultados obtenidos utilizando estos pseudo elementos pueden diferir más de los resultados obtenidos usando los pesos de repetición que los resultados de usar los no pseudo elementos. Puede encontrar que se obtienen intervalos de confianza más amplios cuando se usan pseudo-estratos y pseudo-PSU que cuando se usan los pesos de repetición, si ambos están disponibles en el conjunto de datos. El contenido de este sitio web no debe interpretarse como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California. Anuncio 29 Jun 2015, 13:13 Introducción Tengo datos de encuestas multinivel de maestros anidados en escuelas. He calculado manualmente los pesos de diseño y los pesos de ajuste sin respuesta basados en la selección de probabilidad y la tasa de respuesta. Ahora quiero crear pesos post-estratificación para compensar la falta de cobertura, principalmente recurriendo a dos marginales: el sexo de (hombre o mujer) y el estado de empleo (a tiempo completo o no a tiempo completo) del profesor. He intentado hacer esto en Stata usando el módulo escrito por el usuario survwgt sin embargo, no puedo conseguirlo para trabajar en datos anidados. Variables escuela. Varón único de la identificación de la escuela. 1 maestro a tiempo completo. 1 profesor de tiempo completo Nall. Total de la población real de profesores, por escuela nall. Número de maestros en la muestra, por. Población total real de maestros varones, por maestría escolar. Número de maestros varones en la muestra, por escuela Nfull. Total de la población real de maestros a tiempo completo, por escuela nfull. Número de maestros a tiempo completo en la muestra, por escuela rr. Tasa de respuesta de los maestros, por escuela (usada para calcular oldwt) oldwt. El producto del peso de diseño y el ajuste de no respuesta newwt. El nuevo peso, que se producirá a través de raking 29 de junio de 2015, 16:09 En el futuro, por favor, como se preguntó en el FAQ, dar el origen de los comandos aportados. El paquete survwgt fue escrito por Nick Winter, y está disponible a través de ssc. Una buena guía para rastrillar es Battaglia, 2013. Tenga en cuenta que la opción quotby () quot debe especificar las categorías por las que desea reponder, en este caso la escuela de género. Crear un pequeño conjunto de datos con una línea por escuela y sexo con variables de la escuela. Género, ngender (totales). A continuación, añada una única variable scgender para identificar las combinaciones entre la escuela y el género: Esta es en realidad una técnica de post-estratificación. No quitará el sesgo de respuesta excepto el relacionado con el género. Para hacer un mejor trabajo, necesitará información sobre las características de los respondedores y no respondedores. El módulo de no respuesta de survwgt puede hacer esto. Para otros enfoques, véase Groves et al. (2009). pag. 350 o Lohr, 2009, Capítulo 8. Yo personalmente usaría la regresión logística para obtener una probabilidad estimada de respuesta para cada persona, luego el peso por la inversa. Battaglia, M. P. Hoaglin, D. C. amp Frankel, M. R. (2013). Consideraciones prácticas en la recolección de datos de la encuesta. Práctica de encuesta, 2 (5). Disponible en: surveypractice. org/index. php/SurveyPractice/article/view/176/0 Groves, Robert M. Floyd J. Fowler, Mick P. Couper, James M. Lepkowski, Eleanor Singer y Roger Tourangeau. 2009. Metodología de encuesta, segunda edición. Hoboken, N. J. Wiley. Lohr, Sharon L. 2009. Muestreo: Diseño y Análisis. Boston, MA: Cengage Brooks / Cole. Última edición por Steve Samuels 29 Jun 2015, 17:07. Gracias Steve y Nick por la ayuda. He probado el código en la muestra de datos en mi máquina y todo parece que ha funcionado Creo que ha funcionado porque calculé la suma de los pesos y se alinean con los totales de la población. Hubo un error más que capturé - el segundo scgender en esta línea debería ser sólo gende r: egen scgender grupo (school scgender), etiqueta --gt egen scgender group (género de la escuela), etiqueta Así que el código final, como referencia , Es la siguiente (tenga en cuenta que tuve que cambiar los nombres de las variables Nx a nx para obtener el código para ejecutar en Stata - por ejemplo, Nmale en la publicación original se convierte en nmale a continuación):
Comments
Post a Comment