Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Class Notes Contando de n para N Introdução Stata tem duas variáveis internas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 na segunda, 3 na terceira, e assim por diante. N é a notação Stata para o número total de observações. Vejamos como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação executado de 1 a 7 e nt é o número total de observações, que é 7. Contando com usando n e N em conjunto com o comando by podem produzir alguns resultados muito úteis. Naturalmente, para usar o comando by, primeiro devemos classificar nossos dados na variável por. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo use o seguinte: Para listar a pontuação mais alta para cada grupo use o seguinte: Outra utilização de n Permite usar n para descobrir se há números de identificação duplicados nos seguintes dados: Como se verifica, As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicatas Agora vamos usar N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos todas as variáveis na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando assim as observações duplicadas. Se você tem um monte de variáveis no conjunto de dados, pode demorar muito tempo para digitá-los todos fora duas vezes. Podemos fazer uso do caractere curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar sort e by em uma única declaração. Abaixo está uma versão simplificada do código que irá produzir os mesmos resultados exatos como acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela University of California. Usando o Stata para análise de subpopulação de dados de levantamento de amostra complexos Nesta apresentação, eu forneço uma visão geral de importantes Considerações que os analistas de grandes conjuntos de dados de pesquisa de uso público devem ter em mente ao tentar fazer inferências para subpopulações finitas de interesse de pesquisa. Discutirei vários exemplos de possíveis abordagens de análise de subpopulação que os analistas poderiam usar usando os comandos Stata svy: e enfatizarei as implicações de cada abordagem para fazer inferências. Os participantes terão tempo para uma sessão de perguntas e respostas baseada nos exemplos. Se você tiver problemas ao fazer o download de um arquivo, verifique se você tem o aplicativo adequado para visualizá-lo primeiro. Em caso de problemas adicionais, leia a página de ajuda IDEAS. Observe que esses arquivos não estão no site IDEAS. Por favor, seja paciente como os arquivos podem ser grandes. Bem-vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ Como posso analisar uma subpopulação dos meus dados de pesquisa em Stata NOTA: Esta página foi criada usando Stata 9. Todo o código nesta página Funcionará com o Stata 10. O código nesta página não funcionará com o Stata 8 (ou versões anteriores do Stata). Ao analisar os dados do inquérito, é comum querer olhar apenas alguns entrevistados, talvez apenas mulheres, ou apenas os respondentes com mais de 50 anos. Ao analisar estas subpopulações (domínios AKA), você precisa usar a opção apropriada. Stata 9 tem duas opções de subpopulação que são muito flexíveis e fáceis de usar. Usar a opção (s) de subpopulação é extremamente importante ao analisar os dados da pesquisa. Se o conjunto de dados é um subconjunto, o que significa que as observações que não devem ser incluídas na subpopulação são excluídas do conjunto de dados, os erros padrão das estimativas não podem ser calculados corretamente. Quando a (s) opção (ões) de subpopulação é utilizada, apenas os casos definidos pela subpopulação são utilizados no cálculo da estimativa, mas todos os casos são utilizados no cálculo dos erros-padrão. Para obter mais informações sobre este assunto, consulte Técnicas de Amostragem, Terceira Edição por William G. Cochran (1977) e Estimação de Pequenas Área por J. N. K. Rao (2003). Por razões de consistência, usaremos o comando mean para todos os nossos exemplos. No entanto, as opções subpop e over funcionam da mesma forma para todos os comandos svy. Vamos começar por olhar para a média da nossa variável contínua, ell. Em seguida, consideraremos duas variáveis a serem usadas com a opção subpop, yrrnd. Que é codificado 0/1, e ambos. Que é codificado 1/2. Como você verá, a opção de subpop manipula essas duas variáveis de forma diferente. Aqui podemos ver que yrrnd é codificado 0/1. (Esta opção ausente é usada aqui para mostrar que não há valores ausentes para esta variável. Nós queremos saber isso mais tarde.) Observe na saída do comando svy: tab que há 789.6 casos codificados 1. (É Não um número inteiro porque estamos estimando esse valor usando os pesos de probabilidade.) Na saída do comando svy: mean, vemos também que 789.552 casos estão incluídos na subpopulação. Agora vamos tentar usar uma variável codificada 1/2 em vez de 0/1. Aqui podemos ver que ambos são codificados 1/2. (Esta opção faltante é usada aqui para mostrar que não há valores ausentes para esta variável. Iremos querer saber isso mais tarde.) Observe na saída do comando svy: tab que existem 1888 casos codificados 1. No entanto, em A saída do comando svy: mean, vemos que todas as observações, 6194 casos, estão incluídas na subpopulação. Isso ocorre porque a opção subpop deve ter uma variável true / false. Como indicado na página 39 do manual Stata 9 Survey, quando a opção subpop é usada, a subpopulação é realmente definida pelo 0s (false), que indica aqueles casos a serem excluídos da subpopulação. Valores não 0 são incluídos na análise, com exceção dos valores faltantes, que são excluídos da análise. Como não temos casos codificados como 0, todos os casos estão incluídos na subpopulação, conforme explicado na nota na saída. Agora vamos criar uma cópia de ambos e recodificar o 1s para 0s. Também definiremos alguns valores como ausentes, para ver o que acontece com valores ausentes na variável subpopulação. A saída do comando guia mostra que a recodificação foi conforme planejado. A saída do comando svy: mean mostra que todos os casos não codificados 0 ou ausentes (os 424 casos codificados como 2) estão incluídos na subpopulação. Observe a observação que Stata fornece quando a variável de subpopulação não é codificada 0/1. Você também pode usar se ao definir sua subpopulação. Deve-se salientar que este é muito diferente de usar se para remover casos de uma análise. Usar se na opção subpop não remove casos da análise. Os casos excluídos da subpopulação pelo if ainda são utilizados no cálculo dos erros-padrão, como deveriam ser. Você pode usar subpop ou mais com várias variáveis para criar a subpopulação que você deseja. Vamos ver alguns exemplos usando a opção over. Primeiro, usaremos yrrnd. Nossa variável 0/1, então ambos. Nossa 1/2 variável. Observe que a saída é diferente da saída usando a opção subpop em que ambas as categorias da variável são dadas, e não há nenhuma nota quando uma variável 1/2 é usada. Observe que a opção over só está disponível para a média dos comandos de pesquisa. Proporção. E total. Agora vamos usar ambos yrrnd e ambos como as variáveis de subpopulação. Primeiro vamos usar o comando svy: tab para garantir que haja casos em todas as quatro categorias. Em seguida, usamos o comando svy: mean com a opção over. Abaixo criamos uma nova variável do emer com quatro categorias. Então vamos usar essa variável com yrrnd e ambas as combinações das variáveis são mostradas na saída. Isso geralmente é muito útil e evita que você tenha que criar uma nova variável de subpopulação. No entanto, se cada uma de suas variáveis tiver muitas categorias, a saída pode se tornar longa e pesada, especialmente se você estiver interessado apenas em algumas combinações de categorias. A opção subpop pode ser combinada com a opção over. Isso é útil, porque se não pode ser usado com a opção sobre. Ao combinar as opções, você pode ter quotthe melhor de ambos os mundos. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site particular, livro ou produto de software pela Universidade da Califórnia.
No comments:
Post a Comment