- hash():返回对象的哈希值,哈希值是一个整数。
- lambda x: x+1 定义匿名函数y=x+1。
- bytearray(source):当source为字符串时,按一定的编码转换成字节数组。
模块:
sklearn:
- model_selection:
train_test_split(data,test_ratio,seed=42):将datas分成多个子集。
按层抽取:split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)for train_index, test_index in split.split(housing, housing ["income_cat"]): strat_train_set = housing.loc[train_index] strat_test_set = housing.loc[test_index]
- preprocessing:
Imputer:用于处理数据中的空值。
LabelEncoder:处理非数值的属性。
OneHotEncoder:convert integer categorical values into one-hot vectors,比如
LabelBinarizer:结合以上两个效果。4变成[0,0,0,0,1]。
MinMaxScaler:用于数据尺度缩放,变成[0,1]间。
StandardScaler:同样用于数据尺度缩放。
os:用于文件、目录的操作,详见python os模块常用命令。
- os.path.isdir(path):如果path是一个存在的目录,返回true,否则返回false。
- os.makedirs(path):递归创建目录,含子目录。
- os.path.join(path,name):连接目录和文件名。
- os.chdir(path):修改当前工作目录。
tarfile:压缩解压缩。python tarfile模块。
- tar=tarfile.open(待解压文件目录)
tar.extractall(path=” “):设置解压路径。
tar.close() //解压
urllib:操作URL,可以用来爬取数据。urllib模块中的方法。
- urllib.request.urlretrieve(url,path):将网页保存到本地。
pandas:解决数据分析。
- pd.read_csv(csv_path):读取csv文件返回Pandas DataFrame对象,包含所有内容。
- DataFrame.head():查看DataFrame对象的前几行内容,默认前5行。
- DataFrame.info():返回DataFrame对象的内容的简要描述,多少行,数值类型,非空值个数等。
- DataFrame[“”].value_counts():返回DataFrame对象 某个属性的取值有哪些,及每个取值的个数。
- DataFrame.describe():返回DataFrame对象 数值属性的总结,比如该属性取值的均值、方差、最小值等。
- DataFrame.reset_index():增加index索引一列。
- DataFrame.iloc[row]:通过行号获取行数据,Pandas的loc iloc ix区别。
- DataFrame.loc[]:获取数据,里面可以用index对应的一系列True或者False来获取数据,这个True、False构成的向量须为DataFrame对象。
- DataFrame.apply():对DataFrame对象应用后面的函数,既可以作用于一行或者一列的元素,也可以作用于单个元素。
- DataFrame.drop([“ “],axis=1):删除列。
- DataFrame.corr():计算相关系数。
- scatter_matrix():描述属性间关系。
- DataFrame.dropna():返回非空数据和索引值。利用Python Pandas进行数据预处理-数据清洗。
- DataFrame.fillna(median):空值填充median,mean等。
matplotlib:绘图。
- hist(bins= ):等等参数,绘制直方图。
matplotlib.pyplot.show():显示图形。 - plot():
matplotlib.pyplot.show():显示图形。
numpy:
- numpy.random.seed(42):每次产生相同的随机数据。
- numpy.random.permutation():打乱一个数组并返回,参数可为数组或int型数字,为数字时,先生成数组相当于numpy.arrange(int),后打乱数组返回。
- numpy.ceil():向上取整。
- where(cond,ndarray1,ndarray2):根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray。
hashlib:提供hash算法的库。哈希算法,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。
- hashlib.md5(something).digest():MD5摘要算法,计算出内容something的MD5值。