AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente Stata FAQ Como posso criar variáveis falsas em Stata Existem duas maneiras simples de criar variáveis falsas em Stata. Comece com um conjunto de dados simples que tenha três níveis do grupo de variáveis. Podemos criar variáveis dummy usando o comando tabulate e a opção generate (), como mostrado abaixo. O comando tabular com a opção gerar criou três variáveis dummy chamadas dum1. Dum2 e dum3. Nós também podemos usar o comando xi para criar variáveis falsas para nós. O comando xi criou duas variáveis dummy chamado Igroup2 e Igroup3 e omitiu a variável dummy para o grupo 1. Um exemplo usando o conjunto de dados High School e Beyond Dataset Using High School e Beyond, desejamos explicar a variabilidade nos resultados dos testes de escrita usando informações sobre leitura , Matemática e tipo de programa em que o aluno está. O programa variável categórico tem três níveis: 1) programa geral, 2) programa acadêmico e 3) programa vocacional. Primeiro, carregaremos o conjunto de dados da Internet, então criaremos variáveis dummy para prog usando o comando tabulate. O comando tabular com a opção gerar criou as seguintes variáveis: prog1. Prog2. E prog3. Em uma análise de regressão, podemos usar apenas duas das três variáveis dummy. Uma vez que prog tem três níveis, ele usa dois graus de liberdade. Aqui está a análise de regressão. Na análise, todas as variáveis foram estatisticamente significativas, exceto para prog2 e prog3. No entanto, é necessário lembrar que é a combinação de prog2 e prog3 que compõe o tipo de programa variável. Permite testar prog2 e prog3 juntos. Na medida em que, testando prog2 e prog3 juntos, achamos que o tipo de programa variável não é estatisticamente significativo. Também podemos fazer isso em um passo usando o prefixo xi, conforme mostrado abaixo. Observe como os resultados abaixo correspondem exatamente aos anteriores. Como fizemos no exemplo anterior, podemos testar o efeito geral do tipo de programa com o comando de teste como mostrado abaixo. Para obter mais informações, consulte o manual do Stata ou a ajuda do Stata para tabular e para xi. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Variáveis dobráveis Criando Indicadores (Dummy) Variáveis Atalhos para economizar tempo. Às vezes, precisamos criar uma série de variáveis indicadoras, ou simbólicas, de uma única variável categórica. Esses indicadores geralmente tomam o valor de 1 se a observação tiver o atributo e 0 se a observação não ocorrer. A maioria dos comandos do Stata suporta uma sintaxe que cria variáveis de indicadores para você automaticamente. Eles chamam essas variáveis de fatores de sintaxe. Há uma discussão clara e detalhada no Capítulo 25 do Guia do Usuário. Heres um exemplo simples para dar-lhe o sabor da sintaxe das variáveis do fator. Suponha que cada respondente tenha um valor para sua faixa etária em uma variável chamada agegroup que tenha 5 valores. Você quer criar 5 variáveis de indicadores com os valores 01 que descrevem se o respondente está na faixa etária 1 ou não, grupo etário 2 ou não, etc. e use-os em uma regressão nos correlatos do índice de massa corporal (bmi). A sintaxe da variável fator é: é que o grupo Idade 1 é tratado automaticamente como o nível base e omitido da equação. A sintaxe das variáveis do fator é muito mais poderosa do que este exemplo simples ilustra. Por exemplo, ele criará interações para você com variáveis contínuas e categóricas. Consulte o Guia do Usuário para uma discussão completa. Infelizmente, nem todos os comandos suportam a sintaxe da variável do fator. Abaixo estão algumas alternativas no caso de você precisar usar um comando que não suporta variáveis de fator. A maneira mais óbvia de fazer isso é o comando de geração. Suponha que queremos criar 5 variáveis de indicadores de agegroup, uma variável com 5 valores: isso pode ser tedioso se você estiver criando muitas variáveis de indicadores. Existem alguns atalhos disponíveis, incluindo recode, autocode. E egen. Todos os quais são discutidos no Guia do Usuário mencionado acima. Aqui estão mais algumas alternativas. O primeiro atalho é o comando forvalues. Veja Looping sobre variáveis e valores neste tutorial para aprender os conceitos básicos deste comando. Esse uso do comando forvalues simplesmente gera os dois comandos no primeiro exemplo 5 vezes para nós, eliminando toda essa digitação e oportunidade de erro. Observe que adicionamos o byte do tipo de armazenamento de dados ao comando generate. Uma vez que os indicadores apenas contêm os valores 0 e 1, eles se encaixam facilmente em um único byte de armazenamento, portanto, esta opção economiza megabytes de armazenamento. Consulte Descrevendo os dados neste tutorial para obter uma explicação sobre os tipos de armazenamento Statas. O segundo atalho é o comando tabular, que é o mais fácil de usar. A opção gen em tabulate cria uma nova variável dummy para cada valor de agegroup. Ele nomeia cada manequim usando o prefixo que você atribui entre parênteses, neste caso, idade. Note-se que os dummies são chamados age1 até age5, que podem ou não corresponder ao seu valor. No entanto, os valores são registrados nos rótulos das variáveis. O terceiro atalho é o comando xi. Este comando realmente pretende alimentar as variáveis dos indicadores em outro comando do Stata, como uma regressão. Ele foi amplamente substituído por variáveis de fatores, mas criará variáveis dummy. Primeiro, renomeamos o grupo de idade para envelhecer de modo que as variáveis do indicador tenham um nome mais curto. No comando xi, a opção prefix (i) destrói o prefixo padrão Statas, I, que ele adiciona a cada nome de variável falso. Usamos a opção noomit porque xi não cria um manequim para o valor mais baixo (lembre-se, foi projetado para alimentar esses manequins em um procedimento multivariável, portanto, uma categoria deve ser descartada). O resultado é 5 variáveis de indicadores denominadas iage1, iage2. Iage5. O quarto atalho é o comando de margens. Este comando é usado na valorização posterior após um modelo previamente montado em valores fixos de algumas covariáveis. O comando é poderoso e cheio de opções, e é muito mais do que um atalho. Veja a ajuda completa na Referência da Base PDF.
No comments:
Post a Comment