初級統計師考《統計相關知識》:統計數據的預處理


相關鏈接:初級統計師《統計相關知識》第二章:統計資料收集方法
統計數據的整理
數據搜集來之后,要對其進行加工整理,以使之系統化、條理化,符合統計分析的要求。數據整理通常包括數據的預處理、分組或分類、匯總等,其中,編制頻數分布是統計整理的重要內容。
一、數據的預處理
數據的預處理是在分組或分類之前對數據所做的審核、篩選和排序等。
(一)數據的審核與篩選
來自不同渠道的統計數據和不同類型的統計數據,在審核的內容和方法上也有差別。對于由直接調查取得的原始數據,要從完整性和準確性兩方面去審核。完整性審核就是檢查應調查的單位或個體有否遺漏,調查項目填寫是否齊全等。準確性審核,一是看數據是否真實,與實際有無出入;二是看數據的登錄、計算等是否有誤。邏輯檢查和計算檢查是審核數據準確性的兩種方法。邏輯檢查就是從定性角度去看數據是否有悖邏輯,相互矛盾之嫌,故多用于審核名類數據和順序數據。比如,中學文化程度的人所填的職業是大學教師,這就不符合邏輯了。計算檢查是審核調查表中的各項數據在計算結果和計算方法上有無錯誤,故多用于對區間數據和比數據的審核。例如,檢查各分項數字之和是否等于相應的合計數,各組頻數之和是否等于1或100%,出現在不同表格上的同一指標數值是否相同等。
對于通過其他渠道取得的第二手數據,除了審核其完整性和準確性之外,還應審核其適用性和時效性。第二手數據可以來自多種渠道,有些數據可能是為特定目的,通過專門調查而取得的,或者是已經按特定目的的需要做了加工整理。對于這種數據,使用者首先應弄清數據的來源、口徑以及有關背景材料,不能盲目生搬硬套。而且,有些時效性較強的問題,若取得的數據過于滯后,就失去了研究的意義,一般來說,應盡可能使用最新的統計數據。
對審核中發現的錯誤應盡可能予以糾正。如果對發現的錯誤無法糾正,或者有些數據不符合調查的要求而又無法彌補時,就要對數據進行篩選。數據篩選有兩方面內容:一是將某些不符合要求的數據或有明顯錯誤的數據予以剔除;二是將符合某種特定條件的數據篩選出來,不符合特定條件的數據予以剔除。
(二)數據的排序
數據排序就是按一定順序將數據排列,其目的是為了便于研究者通過瀏覽數據發現一些明顯的特征或趨勢,找到解決問題的線索。排序還有助于對數據檢查、糾錯,為重新分組或歸類提供依據。在某些場合,排序本身就是分析的目的之一,例如,美國的《財富》雜志每年都要排出世界500強企業,通過這一信息,經營者不僅能知道本企業所處的地位和差距,還可以了解到競爭對手的狀況,從而有效地制定本企業的發展規劃和戰略目標。
名類數據,如果是字母型數據,排序有升序與降序之分,升序更常見些,因為升序跟字母的自然排列相同;如果是漢字型數據,排列方式很多,比如按漢字的首位拼音字母排列,這與字母型數據的排序完全一樣,也可按筆畫順序,其中也有筆畫多少的升序與降序之分。交替運用不同方式排序,在漢字型數據的檢查、糾錯中十分有用。區間數據和比數據的排序只有兩種,即遞增和遞減。設一組數據為 ,遞增排序后可表示為: ;遞減排序后可表示為: 。排序后的數據亦稱為順序統計量(Order statistics)。無論是定性數據還是定量數據,其排序均可借助計算機完成。
2013年統計師考試招生簡章 全國2012年統計師考試成績查詢匯總
2013年統計師考試報名時間預估 2012年統計師考試考后交流專區
最新資訊
- 2025年統計師考試備考寶典:近5年統計師考試真題及答案(初級+中級)2025-09-19
- 統計師真題回顧:2023年統計師真題及答案解析(初級+中級)2025-09-17
- 統計師備考資料:2024年統計師真題回顧+2025年高頻考點(初級+中級)2025-09-16
- 2025年初級統計師備考指南:思維導圖+高頻考點(附歷年真題)2025-09-16
- 2025年中級統計師考試備考資料:思維導圖+高頻考點(附歷年真題)2025-09-15
- 統計師備考:2025年統計師高頻考點(初級+中級)2025-08-18
- 統計師備考:2025年統計師思維導圖(初級+中級)2025-08-18
- 2025年初級統計師思維導圖-《統計業務知識》2025-08-18
- 2025年中級統計師思維導圖-《統計業務知識》2025-08-18
- 2025年中級統計師思維導圖-《統計相關知識》2025-08-18