新聞中心
1、缺失數(shù)據(jù)的處理

創(chuàng)新互聯(lián)公司 - 綿陽服務器托管,四川服務器租用,成都服務器租用,四川網(wǎng)通托管,綿陽服務器托管,德陽服務器托管,遂寧服務器托管,綿陽服務器托管,四川云主機,成都云主機,西南云主機,綿陽服務器托管,西南服務器托管,四川/成都大帶寬,機柜大帶寬租用·托管,四川老牌IDC服務商
導入的數(shù)據(jù)存在缺失是經(jīng)常發(fā)生的,最簡單的處理方式是刪除缺失的數(shù)據(jù)行。使用 pandas 中的 .dropna() 刪除含有缺失值的行或列,也可以 對特定的列進行缺失值刪除處理 。
dfNew = dfData.dropna(axis = 0)) # 刪除含有缺失值的行
有時也會填充缺失值或替換缺失值,在此就不做介紹了。
2、重復數(shù)據(jù)的處理
對于重復數(shù)據(jù),通常會刪除重復行。使用 pandas 中的 .duplicated() 可以查詢重復數(shù)據(jù)的內(nèi)容,使用 .drop_duplicated() 可以刪除重復數(shù)據(jù),也可以對指定的數(shù)據(jù)列進行去重。
dfNew = dfData.drop_duplicates(inplace=True) # 刪除重復的數(shù)據(jù)行
3、異常值處理
數(shù)據(jù)中可能包括異常值, 是指一個樣本中的數(shù)值明顯偏離樣本集中其它樣本的觀測值,也稱為離群點。異常值可以通過箱線圖、正態(tài)分布圖進行識別,也可以通過回歸、聚類建模進行識別。
箱線圖技術(shù)是利用數(shù)據(jù)的分位數(shù)識別其中的異常點。箱形圖分析也超過本文的內(nèi)容,不能詳細介紹了。只能籠統(tǒng)地說通過觀察箱形圖,可以查看整體的異常情況,進而發(fā)現(xiàn)異常值。
dfData.boxplot() # 繪制箱形圖
以上就是python數(shù)據(jù)預處理的三種情況,希望對大家有所幫助。更多Python學習指路:創(chuàng)新互聯(lián)Python教程
推薦操作環(huán)境:windows7系統(tǒng)、Python 3.9.1,DELL G3電腦。
文章名稱:創(chuàng)新互聯(lián)Python教程:python數(shù)據(jù)預處理的三種情況
轉(zhuǎn)載源于:http://www.fisionsoft.com.cn/article/dpjdojj.html


咨詢
建站咨詢
