Missing Data Mechanisms

Som nästan alla forskare kan intyga, saknade data är ett utbrett problem. Data från undersökningar, experiment och sekundärkällor saknas ofta vissa uppgifter. Effekterna av de saknade uppgifter om resultaten av statistisk analys beror på den mekanism som ledde till att uppgiften saknas och det sätt på vilket uppgifterna analytiker handlar det. Detta är den första i en serie av tre artiklar som diskuterar frågor kring uppgifter som saknas. Denna artikel beskriver mekanismerna för uppgifter som saknas och några av deras effekter. Senare artiklar kommer att förklara gemensamma men problematiska lösningar till uppgifter som saknas, nya och bättre lösningar och programvara för att genomföra dessa lösningar. Omdömen

Data saknas för många skäl. Ämnen i longitudinella studier tappar ofta ut innan studien är klar, eftersom de har flyttat ut i området, dog inte längre se personlig nytta för deltagande, eller inte gillar effekten av behandlingen. Undersökningar lider saknas data när deltagarna vägrar, eller inte vet svaret på eller av misstag hoppa över ett objekt. Vissa enkät forskare även designa studien så att vissa frågor ställs endast en delmängd av deltagarna. Experimentella studier har uppgifter som saknas när en forskare är helt enkelt inte att samla en observation. Dåligt väder kan göra det omöjligt i fältförsök observation. En forskare blir sjuk eller utrustning misslyckas. Data kan saknas i någon typ av studien på grund av oavsiktlig eller datainmatning fel. En forskare tappar en bricka med provrör. En datafil blir skadad. De flesta forskare är väl förtrogen med ett (eller flera) av dessa situationer. Omdömen

Uppgift saknas är problematiska eftersom de flesta statistiska metoder kräver ett värde för varje variabel. När en datauppsättning är ofullständig, har data analytiker att avgöra hur man ska hantera det. Det vanligaste beslutet är att använda fullständig fall analys (även kallad listwise text utgår) - analysera endast fall med fullständiga uppgifter. Individer med data saknas på alla variabler sjunkit från analysen. Den har fördelar - det är lätt att använda, är mycket enkel, och är standard i de flesta statistiska paket. Men det har sina begränsningar. Det kan avsevärt minska provstorleken, vilket leder till en allvarlig brist på makt. Detta gäller särskilt om det finns många variabler som är involverade i analysen, var och en med uppgifter som saknas i ett par fall. Det kan också leda till partiska resultat, beroende på varför uppgifter saknas. Omdömen

Alla av orsakerna till saknade data passar i fyra klasser, som bygger på förhållandet mellan de uppgifter som saknas mekanismen och saknade och observerade värden. Dessa klasser är viktigt att förstå eftersom de problem som orsakas av saknade data och lösningar på dessa problem är olika för de fyra klasserna. Omdömen

Den första saknas helt på måfå (MCAR). MCAR innebär att uppgifter som saknas mekanismen är kopplad till värdet av alla variabler, oavsett saknas eller observeras. Data som saknas på grund av en forskare tappade provrör eller deltagarna i undersökningen av misstag hoppat över frågor kommer sannolikt att vara MCAR. Om de observerade värdena är i huvudsak ett slumpmässigt urval av hela datamängden, ger fullständig fall analys samma resultat som den fullständiga datamängden skulle ha. Tyvärr har de flesta saknade data inte MCAR. Omdömen

Vid den motsatta änden av spektrumet är icke-ignorable (NI). NI innebär att de uppgifter som saknas mekanismen är relaterad till de saknade värden. Det inträffar ofta när människor inte vill avslöja något mycket personligt eller impopulär om sig själva. Till exempel, om personer med högre inkomster är mindre benägna att avslöja dem på en undersökning än de personer med lägre inkomster, är den felande mekanismen uppgifter för att få inkomst icke-ignorable. Oavsett inkomst saknas eller observeras är relaterat till dess värde. Komplett fall analys kan ge mycket partiska resultat för NI uppgifter som saknas. Om proportionellt mer låga och måttliga inkomster individer finns kvar i provet eftersom höga inkomster människor saknas, en uppskattning av den genomsnittliga inkomsten blir lägre än den faktiska populationsmedelvärdet. Omdömen

Mellan dessa två ytterligheter saknas på Random (MAR) och kovariat Dependent (CD). Båda dessa klasser kräver att orsaken till uppgifter som saknas är kopplad till de saknade värdena, men kan ha samband med de observerade värden på andra variabler. MAR innebär att de saknade värdena är relaterade till antingen observerade covariates eller responsvariabler, medan CD innebär att de saknade värdena endast avsåg variablerna. Som ett exempel på cd uppgifter som saknas, kan inkomstuppgifter saknas vara oberoende till de verkliga inkomst värden, men är relaterade till utbildning. Kanske personer med mer utbildning är mindre benägna att avslöja sina inkomster än de med lägre utbildning. Omdömen

En viktig skillnad är om mekanismen är försumbart (dvs. MCAR, CD eller MAR) eller icke-ignorable. Det finns utmärkta metoder för hantering som ignoreras uppgifter som saknas. Icke som ignoreras uppgifter som saknas är mer utmanande och kräver en annan strategi Omdömen  ..

affärsrådgivning

  1. Edmond Masjedi, Los Angeles har rest över hela World
  2. Business Brokers: Brisbane
  3. Affärsidéer För de mest besökta webb Development
  4. Göra vin som den verkliga medium för din celebration
  5. Banbrytande afroamerikaner som kan ha flugit (eller Driven) Enligt Radar
  6. Vikten av personliga möten i Business
  7. Tillväxten kommer från alla mobila betalningar skulle innebära att många att hitta Chain stores
  8. Vad är Antidote för en sjuk B2B Lead Generation?
  9. Online Printing Service och dess Advantages
  10. Prada handväskor vad sjutton är regleringen kan vara vad som helst consider
  11. Vad är ett varumärke?
  12. Top Sju Idéer att växa ditt företag genom din webb Site
  13. Onödiga kostnader Varje företag bör bli Of
  14. Hur man får bästa citat från förpackare och anläggningsmaskiner i Indien för Relocation
  15. Välja en Voice over IP-telefon system
  16. Intraprenörskap Case studie- Skapandet av Anaconda-Ericsson Finans & Leasing Inc.
  17. Vad är Sysselsättning Leasing?
  18. Den här servern kommer att hantera och stödja din webbplats only.
  19. Hur omvandlingsfrekvens Optimization Works
  20. 10 sätt att belöna Employees