Saturday 29 July 2017

Standardize Data In Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Notas da Classe Stata Contagem de n para N Introdução A Stata possui duas variáveis ​​incorporadas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 no segundo, 3 no terceiro e assim por diante. N é a notação de Stata para o número total de observações. Vamos ver como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação que corre de 1 a 7 e nt é o número total de observações, que é 7. Contar com o uso de n e N em conjunto com o comando pode produzir alguns resultados muito úteis. É claro que, para usar o comando por nós, primeiro devemos classificar nossos dados na variável por variável. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo, use o seguinte: Para listar a pontuação mais alta para cada grupo, use o seguinte: Outro uso de n Permite usar n para descobrir se existem números de identificação duplicados nos seguintes dados: As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicados Agora, use N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos toda a variável na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando as observações duplicadas. Se você tem muitas variáveis ​​no conjunto de dados, pode demorar muito tempo para digitá-las duas vezes. Podemos fazer uso do curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar classificar e em uma única declaração. Abaixo está uma versão simplificada do código que renderá exatamente os mesmos resultados acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal dando um presente FAQ do Stata Como faço para padronizar variáveis ​​na variável padronizada do Stata A (às vezes chamado de pontuação z ou pontuação padrão) é uma variável que foi redimensionada para Têm uma média de zero e um desvio padrão de um. Para uma variável padronizada, cada valor de caso na variável padronizada indica sua diferença a partir da média da variável original em número de desvios padrão (da variável original). Por exemplo, um valor de 0,5 indica que o valor para esse caso é metade de um desvio padrão acima da média, enquanto um valor de -2 indica que um caso tem um valor de dois desvios padrão inferiores à média. As variáveis ​​são padronizadas por uma variedade de razões, por exemplo, para garantir que todas as variáveis ​​contribuam uniformemente para uma escala quando os itens são agregados ou para facilitar a interpretação dos resultados de uma regressão ou outra análise. Padronizar uma variável é um procedimento relativamente simples. Primeiro, a média é subtraída do valor para cada caso, resultando em uma média de zero. Então, a diferença entre a pontuação dos indivíduos e a média é dividida pelo desvio padrão, o que resulta em um desvio padrão de um. Se começarmos com uma variável x. E gerar uma variável x. O processo é: Onde m é a média de x. E sd é o desvio padrão de x. Para ilustrar o processo de padronização, usaremos o conjunto de dados High School e Beyond (hsb2). Vamos criar versões padronizadas de três variáveis, matemática. Ciência . E socst. Essas variáveis ​​contêm pontuação dos alunos em testes de conhecimento de matemática (matemática), ciência (ciência), estudos sociais (socst). Primeiro, usaremos o comando de resumo (abreviado como soma abaixo) para obter a média e o desvio padrão para cada variável. A média de matemática é 52.645, e seu desvio padrão é 9.368448. Com base nessas informações, podemos gerar uma versão padronizada de matemática chamada z1math. O código abaixo faz isso com o comando generate (abreviado para gen), então usa resumir para confirmar que a média de z1math é muito próxima de zero (devido ao erro de arredondamento, a média de uma variável padronizada raramente será exatamente 0) e A desviação padrão é uma. Abaixo, fazemos o mesmo para a ciência e o socst. Criando duas novas variáveis, z1cience e z1socst. Usando seus respectivos meios e desvios padrão retirados da primeira tabela de estatísticas resumidas. A tabela de estatísticas de resumo mostradas abaixo demonstra que ambas as variáveis ​​estão de fato padronizadas. Padronizar variáveis ​​não é difícil, mas para tornar esse processo mais fácil e menos propenso a erros, você pode usar o comando egen para criar variáveis ​​padronizadas. Os comandos abaixo padronizam os valores de matemática. Ciência . E socst. Criando três novas variáveis, z2math. Z2cience. E z2socst. Mais uma vez, podemos observar uma tabela de estatísticas de resumo para confirmar que essas variáveis ​​são padronizadas. Observe que os meios não são exatamente zero, nem combinam os meios do conjunto de variáveis ​​padronizadas criadas acima usando o comando de geração. Em ambos os casos, isso se deve a um erro de arredondamento muito pequeno. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment