python函数整理

日常python代码的模块函数收集。

函数:

  • hash():返回对象的哈希值,哈希值是一个整数。
  • lambda x: x+1 定义匿名函数y=x+1。
  • bytearray(source):当source为字符串时,按一定的编码转换成字节数组。

模块:

sklearn:

  • model_selection:
    train_test_split(data,test_ratio,seed=42):将datas分成多个子集。
    按层抽取:split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
        for train_index, test_index in split.split(housing, housing ["income_cat"]):
            strat_train_set = housing.loc[train_index]
            strat_test_set = housing.loc[test_index]  
    
  • preprocessing:
    Imputer:用于处理数据中的空值。
    LabelEncoder:处理非数值的属性。
    OneHotEncoder:convert integer categorical values into one-hot vectors,比如
              4变成[0,0,0,0,1]。
    
    LabelBinarizer:结合以上两个效果。
    MinMaxScaler:用于数据尺度缩放,变成[0,1]间。
    StandardScaler:同样用于数据尺度缩放。

os:用于文件、目录的操作,详见python os模块常用命令

  • os.path.isdir(path):如果path是一个存在的目录,返回true,否则返回false。
  • os.makedirs(path):递归创建目录,含子目录。
  • os.path.join(path,name):连接目录和文件名。
  • os.chdir(path):修改当前工作目录。

tarfile:压缩解压缩。python tarfile模块

  • tar=tarfile.open(待解压文件目录)
    tar.extractall(path=” “):设置解压路径。
    tar.close() //解压

urllib:操作URL,可以用来爬取数据。urllib模块中的方法

  • urllib.request.urlretrieve(url,path):将网页保存到本地。

pandas:解决数据分析。

  • pd.read_csv(csv_path):读取csv文件返回Pandas DataFrame对象,包含所有内容。
  • DataFrame.head():查看DataFrame对象的前几行内容,默认前5行。
  • DataFrame.info():返回DataFrame对象的内容的简要描述,多少行,数值类型,非空值个数等。
  • DataFrame[“”].value_counts():返回DataFrame对象 某个属性的取值有哪些,及每个取值的个数。
  • DataFrame.describe():返回DataFrame对象 数值属性的总结,比如该属性取值的均值、方差、最小值等。
  • DataFrame.reset_index():增加index索引一列。
  • DataFrame.iloc[row]:通过行号获取行数据,Pandas的loc iloc ix区别
  • DataFrame.loc[]:获取数据,里面可以用index对应的一系列True或者False来获取数据,这个True、False构成的向量须为DataFrame对象。
  • DataFrame.apply():对DataFrame对象应用后面的函数,既可以作用于一行或者一列的元素,也可以作用于单个元素。
  • DataFrame.drop([“ “],axis=1):删除列。
  • DataFrame.corr():计算相关系数。
  • scatter_matrix():描述属性间关系。
  • DataFrame.dropna():返回非空数据和索引值。利用Python Pandas进行数据预处理-数据清洗
  • DataFrame.fillna(median):空值填充median,mean等。

matplotlib:绘图。

  • hist(bins= ):等等参数,绘制直方图。
    matplotlib.pyplot.show():显示图形。
  • plot():
    matplotlib.pyplot.show():显示图形。

numpy:

  • numpy.random.seed(42):每次产生相同的随机数据。
  • numpy.random.permutation():打乱一个数组并返回,参数可为数组或int型数字,为数字时,先生成数组相当于numpy.arrange(int),后打乱数组返回。
  • numpy.ceil():向上取整。
  • where(cond,ndarray1,ndarray2):根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray。

hashlib:提供hash算法的库。哈希算法,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。

  • hashlib.md5(something).digest():MD5摘要算法,计算出内容something的MD5值。