1、Ming-chi Chen,社會統計,Stata教學,第一講資料整理,Ming-chi Chen,社會統計,打開Stata,Ming-chi Chen,社會統計,輸入資料的三種方法,在Stata中逐筆輸入,Ming-chi Chen,社會統計,打開data editor,工具列datadata editor,看到下列視窗,Ming-chi Chen,社會統計,在data editor裡輸入資料,每輸入一格要enter,Ming-chi Chen,社會統計,為變數命名,Double-click “var1”跳出以下窗框Name是變數名稱(最好在8個字元以內)Label是變數標籤Format是本欄
2、格式:,?,Ming-chi Chen,社會統計,Format格式,%w.dg 數值的通用格式,w是本欄寬度(字元數),d是小數點以下位數。有時會出現科學記號(1.00e+07=1.00*107),呈現出來的數值並不畫一。%w.df 固定格式%w.de 科學記號格式,Ming-chi Chen,社會統計,為變數值加標籤,Ming-chi Chen,社會統計,為變數和變數值加標籤的command,rename var1 gender(這是為了方便識別,也可以留用stata內部指定的var1)label variable gender “性別”label define sexlb1 1 “男” 2
3、 “女”label values gender sexlb,Ming-chi Chen,社會統計,儲存Stata資料檔,在command視窗鍵入save 檔名(Stata自動會加上.dta的附檔名)如果先前已在同一個檔案夾裡輸入了一個同名的資料檔,可以用save, replace來取代原來的資料檔,Ming-chi Chen,社會統計,使用先前以存在的資料檔,首先要在command視窗裡用clear清除記憶體裡的檔案再來可以在command視窗裡用use 檔案路徑與檔案名來取用舊的資料檔也可以在工作列裡選file-open或open recent來使用既有的資料檔,Ming-chi Chen,
4、社會統計,我的資料檔存在哪裡?,Save的指令讓資料檔存在既定的資料夾裡。既定的資料夾可以在command視窗裡打入cd找到(預設為c:data)要更換既定的資料夾可以cd 檔案要存放的路徑 (例如cd c:socstat2007data)如果要轉換成比較複雜的路徑(有空格還有像and這種Stata內部機碼)的話,可以把cd之後的路徑放在雙引號裡。Exp. cd C:Documents and SettingsMing-chi Chen桌面可以用dir看資料夾裡有什麼檔案當然也可以用工作列上file-save或file-save as來儲存,Ming-chi Chen,社會統計,察看資料檔的特
5、性,Command視窗裡鍵入describe可以看所有資料檔變數的名稱、顯示形式、變數標籤和變數值標籤。list可以察看全部的資料(如果檔案有很多的觀察值或很多的變數,那這個指令就不推薦了)summarize可以把所有的數值變數的觀察值個數、均數、標準差、極值等顯現出來但是如果是像性別這種類別變數,那就要用tab1的指令來察看了(後面會教)工作列-data-describe data,Ming-chi Chen,社會統計,讀取ASCII格式儲存的資料,除了自己輸入資料以外,Stata也可以讀取用其他格式儲存的資料檔讀取ASCII格式(往往以.txt或.raw存在).txt資料檔裡變數間已經有分
6、隔了(空格、逗點或tab)infile 指定變數名稱 using 路徑和檔名,Ming-chi Chen,社會統計,如何得到有分隔的ASCII資料檔?,在excel中輸入資料,選另存新檔,Ming-chi Chen,社會統計,文字格式資料的讀取,儲存成檔名為book1.csv的檔案。在檔案類型中,選擇CSV(逗號分隔)(*.csv)或儲存為.txt檔(以Tab字元分隔,Ming-chi Chen,社會統計,文字格式資料的讀取,開啟stata,在指令視窗依序鍵入執行下列指令infile v1-v10 using book1.csvList(小資料檔察看所有個案與變數)Edit(打開data ed
7、itor),Ming-chi Chen,社會統計,如何處理社會變遷的大規模無間隔的資料檔?,每五列為一筆資料,固定格式,Ming-chi Chen,社會統計,infix 5 lines 1: id1 1-3 id2 1-7 card 8-9 s.month 10-11 s.day 12-13 s.hour 14-15 s.min 16-17 v1 18 v2y 19-202: v21b 10-11 v22 12 v23 13-14 v24 15 v25.1 16-175: ty 10-11 tm 12-13 td 14-15 t1 16-18 t2 19-21 t3 22-24 t4 25-2
8、7 using emp.raw以上不可換行需要換行的話可以寫一個do-file,其中規定#delimit ;這樣要等到Stata讀到;才會執行指令。另外一個方法是寫一個dictionary,Ming-chi Chen,社會統計,Stata定義資料檔,infix using socch.dctDictionary寫法如下(可以用任何簡單的editor或Stata內建的window-do file editor來寫,記得存成.dct檔放在使用中的路徑裡),infix dictionary using socch.txt 5 lines 1: id1 1-3 id2 1-7 card 8-9 5:
9、ty 10-11 tm 12-13 td 14-15 ,Ming-chi Chen,社會統計,STATA Insheet,利用stata 來讀取EXCEL的資料:(1)若資料量不大,直接以剪貼方式讀取。(2) 先將EXCEL儲存成TAB間隔的文字檔,然後在用STATA的insheet 指令讀取。,Ming-chi Chen,社會統計,STATA Insheet,啟動STATA,啟動資料編輯視窗,Ming-chi Chen,社會統計,STATA Insheet,待命,Ming-chi Chen,社會統計,STATA Insheet,到excel中打開資料學生基本資料結果.xls,Ming-chi
10、 Chen,社會統計,STATA Insheet,選取全部資料內容按滑鼠右鍵選複製,Ming-chi Chen,社會統計,STATA Insheet,回到stata資料編輯視窗,將游標放在第一欄第一列,選取編輯將資料貼上,Ming-chi Chen,社會統計,Cut and paste data in STATA,變數名稱有怪字出現,這是因為excel裡第一列是用中文表示變數名稱,double click這裡的變數標籤進去修改。,Ming-chi Chen,社會統計,貼完資料將資料編輯視窗關閉。,Ming-chi Chen,社會統計,貼完資料後,stata會將資料暫時存在記憶體中,此後的所有的
11、動作,都適用到目前存在資料編輯視窗中的資料,直到 資料使用完畢為止。,Ming-chi Chen,社會統計,可以用clear指令將所有暫存在資料編輯視窗的資料清除。,Ming-chi Chen,社會統計,資料處理時,一般不建議以剪貼的方式來讀入資料。理由:沒有留下任何可以追蹤的資訊。我們可以先在excel當中將資料轉成stata可以直接讀取的文字格式。,Ming-chi Chen,社會統計,Insheet,Ming-chi Chen,社會統計,Insheet,記得要用cd把預設路徑轉到你放置.txt檔案的地方,Ming-chi Chen,社會統計,Insheet,上窗格是所下過的指令,下窗格則是資料檔的變數名稱,使用中的路徑,Ming-chi Chen,社會統計,關閉stata的動作,每次離開stata系統,必須先清除暫時存在記憶體中的資料。clearExit,