-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathcontent.json
1 lines (1 loc) · 327 KB
/
content.json
1
{"meta":{"title":"花解语","subtitle":"求知若饥,虚心若愚","description":"一个专注于 computational linguistics 与 natural language processing 的初学者","author":"翟文嘉","url":"https://vincent507cpu.github.io","root":"/"},"pages":[{"title":"tags","date":"2020-05-14T00:53:57.000Z","updated":"2020-05-14T00:53:57.548Z","comments":true,"path":"tags/index.html","permalink":"https://vincent507cpu.github.io/tags/index.html","excerpt":"","text":""},{"title":"about","date":"2020-05-14T00:53:44.000Z","updated":"2020-05-14T00:53:44.409Z","comments":true,"path":"about/index.html","permalink":"https://vincent507cpu.github.io/about/index.html","excerpt":"","text":""}],"posts":[{"title":"[阿里云天池] 自然语言处理训练营 2","slug":"阿里云天池-自然语言处理训练营-2","date":"2020-12-29T21:52:47.000Z","updated":"2020-12-29T21:53:21.540Z","comments":true,"path":"2020/12/29/阿里云天池-自然语言处理训练营-2/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/29/%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E8%AE%AD%E7%BB%83%E8%90%A5-2/","excerpt":"文本表示方法 Part1在机器学习算法的训练过程中,假设给定 $N$ 个样本,每个样本有 $M$ 个特征,这样组成了 $N × M$ 的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作 $hight×width×3$的特征图,一个三维的矩阵来进入计算机进行计算。","text":"文本表示方法 Part1在机器学习算法的训练过程中,假设给定 $N$ 个样本,每个样本有 $M$ 个特征,这样组成了 $N × M$ 的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作 $hight×width×3$的特征图,一个三维的矩阵来进入计算机进行计算。 但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。 One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。 Bag of WordsBag of Words(词袋表示),也称为Count Vectors,每个文档的字/词可以使用其出现次数来进行表示。在 sklearn 中可以直接 CountVectorizer 来实现这一步骤: 123456789from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?',]vectorizer = CountVectorizer()vectorizer.fit_transform(corpus).toarray() N-gramN-gram与Count Vectors类似,不过加入了相邻单词组合成为新的单词,并进行计数。 TF-IDFTF-IDF 分数由两部分组成:第一部分是词语频率(Term Frequency),第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。 12TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数IDF(t)= log_e(文档总数 / 出现该词语的文档总数) 基于机器学习的文本分类12345678910111213141516171819# Count Vectors + RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.linear_model import RidgeClassifierfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv('../data/train_set.csv', sep='\\t', nrows=15000)vectorizer = CountVectorizer(max_features=3000)train_test = vectorizer.fit_transform(train_df['text'])clf = RidgeClassifier()clf.fit(train_test[:10000], train_df['label'].values[:10000])val_pred = clf.predict(train_test[10000:])print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))# 0.65 12345678910111213141516171819# TF-IDF + RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import RidgeClassifierfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv('../data/train_set.csv', sep='\\t', nrows=15000)tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)train_test = tfidf.fit_transform(train_df['text'])clf = RidgeClassifier()clf.fit(train_test[:10000], train_df['label'].values[:10000])val_pred = clf.predict(train_test[10000:])print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))# 0.87 作业 尝试改变TF-IDF的参数,并验证精度123456789101112131415161718# TF-IDF (6000 words)+ RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import RidgeClassifierfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv('./data/train_set.csv', sep='\\t', nrows=15000)tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=6000)train_test = tfidf.fit_transform(train_df['text'])clf = RidgeClassifier()clf.fit(train_test[:10000], train_df['label'].values[:10000])val_pred = clf.predict(train_test[10000:])print(f1_score(train_df['label'].values[10000:], val_pred, average='macro')) 尝试使用其他机器学习模型,完成训练和验证","categories":[],"tags":[{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[阿里云天池] 自然语言处理训练营 1","slug":"阿里云天池-自然语言处理训练营-1","date":"2020-12-29T16:50:52.000Z","updated":"2020-12-29T16:51:51.406Z","comments":true,"path":"2020/12/29/阿里云天池-自然语言处理训练营-1/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/29/%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E8%AE%AD%E7%BB%83%E8%90%A5-1/","excerpt":"数据读取123import pandas as pdtrain_df = pd.read_csv('./data/train_set.csv', sep='\\t', nrows=100)train_df.head() label text 0 2 2967 6758 339 2021 1854 3731 4109 3792 4149 15… 1 11 4464 486 6352 5619 2465 4802 1452 3137 5778 54… 2 3 7346 4068 5074 3747 5681 6093 1777 2226 7354 6… 3 2 7159 948 4866 2109 5520 2490 211 3956 5520 549… 4 3 3646 3055 3055 2490 4659 6065 3370 5814 2465 5…","text":"数据读取123import pandas as pdtrain_df = pd.read_csv('./data/train_set.csv', sep='\\t', nrows=100)train_df.head() label text 0 2 2967 6758 339 2021 1854 3731 4109 3792 4149 15… 1 11 4464 486 6352 5619 2465 4802 1452 3137 5778 54… 2 3 7346 4068 5074 3747 5681 6093 1777 2226 7354 6… 3 2 7159 948 4866 2109 5520 2490 211 3956 5520 549… 4 3 3646 3055 3055 2490 4659 6065 3370 5814 2465 5… 数据分析在读取完成数据集后,我们还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析,但通过数据分析还是可以找出一些规律的。 此步骤我们读取了所有的训练集数据,在此我们通过数据分析希望得出以下结论: 赛题数据中,新闻文本的长度是多少? 赛题数据的类别分布是怎么样的,哪些类别比较多? 赛题数据中,字符分布是怎么样的?句子长度分析 在赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词的个数来得到每个句子的长度。统计并如下: 1234567891011121314%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].describe())Populating the interactive namespace from numpy and matplotlibcount 100.000000mean 872.320000std 923.138191min 64.00000025% 359.50000050% 598.00000075% 1058.000000max 7125.000000Name: text_len, dtype: float64 新闻类别分布123train_df['label'].value_counts().plot(kind='bar')plt.title('News class count')plt.xlabel(\"category\") 在数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13} 从统计结果可以看出,赛题的数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多,其次是股票类新闻,最少的新闻是星座新闻。 字符分布统计接下来可以统计每个字符出现的次数,首先可以将训练集中所有的句子进行拼接进而划分为字符,并统计每个字符的个数。 从统计结果中可以看出,在训练集中总共包括6869个字,其中编号3750的字出现的次数最多,编号3133的字出现的次数最少。 12345678910from collections import Counterall_lines = ' '.join(list(train_df['text']))word_count = Counter(all_lines.split(\" \"))word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)print(len(word_count)) # 2405print(word_count[0]) # ('3750', 3702)print(word_count[-1]) # ('5034', 1) 这里还可以根据字在每个句子的出现情况,反推出标点符号。下面代码统计了不同字符在句子中出现的次数,其中字符3750,字符900和字符648在20w新闻的覆盖率接近99%,很有可能是标点符号。 1234567from collections import Countertrain_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))all_lines = ' '.join(list(train_df['text_unique']))word_count = Counter(all_lines.split(\" \"))word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)print(word_count[:5]) # [('900', 99), ('3750', 99), ('648', 96), ('7399', 87), ('2109', 86)] 数据分析的结论通过上述分析我们可以得出以下结论: 赛题中每个新闻包含的字符个数平均为1000个,还有一些新闻字符较长; 赛题中新闻类别分布不均匀,科技类新闻样本量接近4w,星座类新闻样本量不到1k; 赛题总共包括7000-8000个字符; 通过数据分析,我们还可以得出以下结论: 每个新闻平均字符个数较多,可能需要截断; 由于类别不均衡,会严重影响模型的精度; 本章作业 假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?12train_df['length'] = train_df['text'].apply(lambda x: x.count('3750') + x.count('900') + x.count('648'))print(sum(train_df['length']) / 100) 统计每类新闻中出现次数对多的字符12345678910111213141516171819202122lst = [[] for _ in range(14)]for i in range(len(train_df)): lst[train_df['label'][i]].extend(train_df['text'][i].split())lst_freq = list(map(Counter, lst))lst_freq = [sorted(lst.items(), key=lambda d:int(d[1]), reverse = True) for lst in lst_freq]for i in range(len(lst_freq)): print(lst_freq[i][0]) ('3750', 610)('3750', 531)('3750', 956)('3750', 239)('3750', 78)('3750', 193)('3750', 491)('3750', 214)('3750', 68)('3750', 51)('3750', 152)('3750', 102)('4464', 59)('648', 6)","categories":[],"tags":[{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[DSU&阿里云天池] Python训练营 Task 4","slug":"DSU-阿里云天池-Python训练营-Task-4","date":"2020-12-28T15:36:48.000Z","updated":"2020-12-29T01:23:08.607Z","comments":true,"path":"2020/12/28/DSU-阿里云天池-Python训练营-Task-4/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/28/DSU-%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-Python%E8%AE%AD%E7%BB%83%E8%90%A5-Task-4/","excerpt":"数据载入pd.read_csv1pd.read_csv(filepath, sep, names) filepath:待读取文件的路径 sep:CSV 文件的 delimiter names:列名的列表","text":"数据载入pd.read_csv1pd.read_csv(filepath, sep, names) filepath:待读取文件的路径 sep:CSV 文件的 delimiter names:列名的列表 df.merge1df.merge(left, right) left, right:合并的两个数据框df.head1df.head(n=5) 查看最上面的 n 行内容。 数据载入的要点:需要将所需数据合并在一起。 数据清洗pd.DataFrame1pd.DataFrame(df, columes) df:目标数据框columns:提取的列 df.shape获得数据框的维度 df.info()打印列表的简单信息 df.fillna1df.fillna(value, inplace) value:用来填补缺失值的值 inplace:是否在原地完成操作df.satype1df.astype(dtype) dtype:指定的数据类型df.describe打印数据框的统计信息 数据清洗的要点:检查数据是否有缺失值,如果有,需要采取相应的行为(填补或删除)。 数据分析df.groupby1df.groupby(by) by:确定整合成一组的标准df.sum求和df.sort_valuesascending)1234567891011```- `by`:排序依据的行或列- `ascending`:`True` 则升序排列## `df.value_counts`返回不同行的计数*****数据分析的要点**:通过合并分组、排序、计数等手段,获得数据的信息。# 数据可视化## `df.plot(kind)````pydf.plot(kind) kind:可视化类型 line:折线图 bar:柱状图 hist:直方图 box:箱型图 kde:密度图 pie:pie 图 scatter:散点图 数据可视化的要点:根据不同的数据结构和需求选择合适的可视化方法。","categories":[],"tags":[{"name":"Python","slug":"Python","permalink":"https://vincent507cpu.github.io/tags/Python/"}]},{"title":"[经验总结]一行代码完成一个任务","slug":"经验总结-一行代码完成一个任务","date":"2020-12-27T03:33:05.000Z","updated":"2020-12-27T03:34:55.804Z","comments":true,"path":"2020/12/26/经验总结-一行代码完成一个任务/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/26/%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93-%E4%B8%80%E8%A1%8C%E4%BB%A3%E7%A0%81%E5%AE%8C%E6%88%90%E4%B8%80%E4%B8%AA%E4%BB%BB%E5%8A%A1/","excerpt":"2020 年的最后一周写一点轻松的东西,熟练使用这些技巧会给日常工作减负不少:本文中会提到几个使用一行代码可以完成简单任务的方法。","text":"2020 年的最后一周写一点轻松的东西,熟练使用这些技巧会给日常工作减负不少:本文中会提到几个使用一行代码可以完成简单任务的方法。 替代 if 语句:Ternary Operator标准用法先来看一个简单的 if 语句: 12345if 5 > 3: print('5 is more than 3')else: print('5 is less than 3')# '5 is more than 3' 怎么用一行代码完成同样的任务呢?有请 Ternary Operator: 1True_expression if True_condition else False_expression 意思是这样的:判断 True_condition 是否成立,如果成立,执行 True_expression;如果不成立,执行 False_expression。那么上面的 if 语句可以写成 12'5 is more than 3' if 5 > 3 else '5 is less than 3'# '5 is more than 3' Ternary Operator 的变体 Shorthanded Ternary1expression or another_expression 如果 expression 为 True,那么 another_expression 则不会执行;反之则会执行。比如:1234True or 'something'# TrueFalse or 'something'#'something' 因为 None 等于 False,这可以用于检查一个函数是否有输出:123output = Nonemsg = output or 'No data returned'# 'No data returned' 也可以用来设定一个函数的动态变量:12345def display_name(name, default=None): displayeded_name = dafault or name print(displayed_name)display_name('Jim') # 'Jim'display_name('Tom', 'anonymous123') # 'anonymous123' 这个变体同样巧妙地应用了 False == 0 和 True == 1 这两个性质。1(expr_if_False, expr_if_true)[True_or_False] 这里 (expr_if_False, expr_if_true) 用了 tuple,但是也可以用 list。也可以用 bool() 函数将所有变量转换为 0 或 1,因为 False == 0,当 True_or_False 为假时会取第一个元素;当 True_or_False 为真时会取第二个元素。123output = 'blabla'['Not have an output', 'Has an output'][bool(output)]# 'Has an output' 替代 def 语句:lambda 匿名函数再来看一个简单的自定义函数:123def add(x, y): return x + yadd(1, 2) # 3 这个简单的函数可以使用 lambda 匿名函数完成。lambda 匿名函数必须在一行内完成,语法为:1lambda arguments: expression 那么上面的两数相加的函数也可以写成:12add = lambda x, y: x + yadd(1, 2) # 3 一行代码生成一个容器:解析式基础列表解析式假如我们希望写一个函数将一个列表中的数字平方在返回一个新列表:12345def square(lst): new_lst = [] for num in lst: new_lst.append(num**2) return new_lst 这么一个简单的函数居然要用 5 行代码,尴尬症都要犯了。解析式来救场!解析式又分列表解析式、集合解析式和字典解析式,以列表解析式为例,语法为:1[expression for var in iterable if condition] 所以我们可以将上面的函数改写为:1[var**2 for var in lst] 一行搞定!要注意的是,只有当元素符合判定条件(if)时才会被处理,解析式里没有 else。嵌套列表解析式更复杂的列表解析式包含多个变量:1[expression for var1 in iterable1 if condition1 for var2 in iterable2 if condition2] 我们应该怎么写呢?根据解析式的 PEP202 文档, It is proposed to allow conditional construction of list literals using for and if clauses. They would nest in the same way for loops and if statements nest now. 如果我们想写一个 for 循环来做同样的事情,我们可能这样写: 12345for var1 in iterable1: if condition1: for var2 in iterable2: if condition2: expression 使用解析式,我们只需要将正常写法最后的表达式写在最前面,之后依次把嵌套循环的代码依次写在同一行就行了。我们来看一个终极例子: 有一个嵌套单词列表,如果单词有至少两个字母,则返回一个包含所有字母与它所在单词的列表的索引的新列表。 如果我们用常规方法,可能会这么写: 123456new_lst = []for idx, lst in enumerate(nested_lst): for word in lst: if len(word) >= 2: for letter in word: new_lst.append((letter, idx)) 使用列表解析式可以这么写: 123strings = [ ['foo', 'bar'], ['baz', 'taz'], ['w', 'koko'] ][ (letter, idx) for idx, lst in enumerate(strings) for word in lst if len(word)>2 for letter in word]# [('f', 0), ('o', 0), ('o', 0), ('b', 0), ('a', 0), ('r', 0), ('b', 1), ('a', 1), ('z', 1), ('t', 1), ('a', 1), ('z', 1), ('k', 2), ('o', 2), ('k', 2), ('o', 2)] 集合解析式与字典解析式集合解析式与列表解析式差不多,区别仅仅是将 [] 换成了 {}。字典解析式与列表解析式的区别在于将 var 换成了键值对key, val。比如在 NLP 应用中,需要生成一个词与索引的 lookup 字典: 12id2word = {idx:word for (idx, word) in enumerate(corpus)}word2id = {word:id for (id, word) in id2word.items()} 替代 yield 语句:生成器yield 语句是一种一边循环一边计算的机制,将一个函数中的 return 替换成 yield,使用 next 调用该函数: 12345678def generator(x): for i in range(x): yield ix = generator(5)x # <generator object generator at 0x7fee19239c80>next(x) # 0next(x) # 1... 也可以使用一行代码将一个简单的 yield 语句实现,这就是生成器。生成器与列表解析式的语法一样,只是用 () 代替了 []。 1234x = (i for i in range(5))xnext(x) # 0... 本文中的技巧仅可用于一些简单的任务,如果任务比较复杂,这些技巧要么无法完成,要么可读性大幅下降而变得难以理解与维护。","categories":[],"tags":[{"name":"经验总结","slug":"经验总结","permalink":"https://vincent507cpu.github.io/tags/%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93/"}]},{"title":"[DSU&阿里云天池] Python训练营 Task3","slug":"DSU-阿里云天池-Python训练营-Task3","date":"2020-12-24T20:44:26.000Z","updated":"2020-12-26T02:20:00.652Z","comments":true,"path":"2020/12/24/DSU-阿里云天池-Python训练营-Task3/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/24/DSU-%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-Python%E8%AE%AD%E7%BB%83%E8%90%A5-Task3/","excerpt":"函数与 Lambda 表达式函数函数的定义 函数以 def 关键词开头,后接函数名和圆括号 ()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的 return 相当于返回 None 。1234def functionname(parameters): \"函数_文档字符串\" function_suite return [expression]","text":"函数与 Lambda 表达式函数函数的定义 函数以 def 关键词开头,后接函数名和圆括号 ()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的 return 相当于返回 None 。1234def functionname(parameters): \"函数_文档字符串\" function_suite return [expression] 函数的调用1234567891011def printme(str): print(str)printme(\"我要调用用户自定义函数!\") # 我要调用用户自定义函数! printme(\"再次调用同一函数\") # 再次调用同一函数temp = printme('hello') # helloprint(temp) # Nonedef add(a, b): print(a + b)add(1, 2) # 3add([1, 2, 3], [4, 5, 6]) # [1, 2, 3, 4, 5, 6] 函数文档123456789101112131415def MyFirstFunction(name): \"函数定义过程中 name 是形参\" # 因为 Ta 只是一个形式,表示占据一个参数位置 print('传递进来的 {0} 叫做实参,因为 Ta 是具体的参数值!'.format(name)) MyFirstFunction('老马的程序人生')# 传递进来的 老马的程序人生 叫做实参,因为Ta是具体的参数值!print(MyFirstFunction.__doc__) # 函数定义过程中name是形参help(MyFirstFunction)# Help on function MyFirstFunction in module __main__: # MyFirstFunction(name)# 函数定义过程中name是形参 函数参数 位置参数1234def functionname(arg1): \"函数_文档字符串\" function_suite return [expression] arg1 - 位置参数 ,这些参数在调用函数 (call function) 时位置要固定。 默认参数1234def functionname(arg1, arg2=v): \"函数_文档字符串\" function_suite return [expression] arg2 = v - 默认参数 = 默认值,调用函数时,默认参数的值如果没有传入,则被认为是默认值。 默认参数一定要放在位置参数后面,不然程序会报错。 Python 允许函数调用时参数的顺序与声明时不一致,因为 Python 解释器能够用参数名匹配参数值。 可变参数可变参数就是传入的参数个数是可变的,可以是 0, 1, 2 到任意个,是不定长的参数。123def functionname(arg1, arg2=v, *args): \"函数_文档字符串\" function_suite return [expression] *args - 可变参数,可以是从零个到任意个,自动组装成元组。 加了星号(*)的变量名会存放所有未命名的变量参数。123456789def printinfo(arg1, *args): print(arg1) for var in args: print(var)printinfo(10) # 10printinfo(70, 60, 50)# 70 # 60 # 50 关键字参数1234def functionname(arg1, arg2=v, *args, **kw): \"函数_文档字符串\" function_suite return [expression] **kw - 关键字参数,可以是从零个到任意个,自动组装成字典。123456789101112def printinfo(arg1, *args, **kwargs): print(arg1) print(args) print(kwargs)printinfo(70, 60, 50)# 70# (60, 50)# {}printinfo(70, 60, 50, a=1, b=2)# 70# (60, 50)# {'a': 1, 'b': 2} 命名关键字参数1234def functionname(arg1, arg2=v, *args, *, nkw, **kw): \"函数_文档字符串\" function_suite return [expression] *, nkw - 命名关键字参数,用户想要输入的关键字参数,定义方式是在nkw 前面加个分隔符 *。 如果要限制关键字参数的名字,就可以用「命名关键字参数」 使用命名关键字参数时,要特别注意不能缺少参数名。12345678910111213def printinfo(arg1, *, nkw, **kwargs): print(arg1) print(nkw) print(kwargs)printinfo(70, nkw=10, a=1, b=2)# 70# 10# {'a': 1, 'b': 2}printinfo(70, 10, a=1, b=2)# TypeError: printinfo() takes 1 positional argument but 2 were given 没有写参数名 nwk,因此 10 被当成「位置参数」,而原函数只有 1 个位置函数,现在调用了 2 个,因此程序会报错。参数组合在 Python 中定义函数,可以用位置参数、默认参数、可变参数、命名关键字参数和关键字参数,这 5 种参数中的 4 个都可以一起使用,但是注意,参数定义的顺序必须是: 位置参数、默认参数、可变参数和关键字参数。 位置参数、默认参数、命名关键字参数和关键字参数。 要注意定义可变参数和关键字参数的语法: *args 是可变参数,args 接收的是一个 tuple **kw 是关键字参数,kw 接收的是一个 dict 命名关键字参数是为了限制调用者可以传入的参数名,同时可以提供默认值。定义命名关键字参数不要忘了写分隔符 *,否则定义的是位置参数。 函数的返回值12345678910111213def back(): return [1, '小马的程序人生', 3.14]print(back()) # [1, '小马的程序人生', 3.14]def back(): return 1, '小马的程序人生', 3.14print(back()) # (1, '小马的程序人生', 3.14)def printme(str): print(str)temp = printme('hello') # helloprint(temp) # Noneprint(type(temp)) # <class 'NoneType'> 变量的作用域 Python 中,程序的变量并不是在哪个位置都可以访问的,访问权限决定于这个变量是在哪里赋值的。 定义在函数内部的变量拥有局部作用域,该变量称为局部变量。 定义在函数外部的变量拥有全局作用域,该变量称为全局变量。 局部变量只能在其被声明的函数内部访问,而全局变量可以在整个程序范围内访问。123456789def discounts(price, rate): final_price = price * rate return final_priceold_price = float(input('请输入原价:')) # 98rate = float(input('请输入折扣率:')) # 0.9new_price = discounts(old_price, rate)print('打折后价格是:%.2f' % new_price) # 88.20 当内部作用域想修改外部作用域的变量时,就要用到 global 和 nonlocal 关键字了。1234567891011num = 1def fun1(): global num # 需要使用 global 关键字声明 print(num) # 1 num = 123 print(num) # 123fun1()print(num) # 123 内嵌函数123456789101112def outer(): print('outer函数在这被调用') def inner(): print('inner函数在这被调用') inner() # 该函数只能在outer函数内部被调用outer()# outer函数在这被调用# inner函数在这被调用 闭包 是函数式编程的一个重要的语法结构,是一种特殊的内嵌函数。 如果在一个内部函数里对外层非全局作用域的变量进行引用,那么内部函数就被认为是闭包。 通过闭包可以访问外层非全局作用域的变量,这个作用域称为闭包作用域。123456789def funX(x): def funY(y): return x * y return funYi = funX(8)print(type(i)) # <class 'function'>print(i(5)) # 40 闭包的返回值通常是函数。1234567891011121314151617181920212223def make_counter(init): counter = [init] def inc(): counter[0] += 1 def dec(): counter[0] -= 1 def get(): return counter[0] def reset(): counter[0] = init return inc, dec, get, resetinc, dec, get, reset = make_counter(0)inc()inc()inc()print(get()) # 3dec()print(get()) # 2reset()print(get()) # 0 如果要修改闭包作用域中的变量则需要 nonlocal 关键字1234567891011121314def outer(): num = 10 def inner(): nonlocal num # nonlocal关键字声明 num = 100 print(num) inner() print(num)outer()# 100# 100 递归如果一个函数在内部调用自身本身,这个函数就是递归函数。12345678910111213# 利用循环n = 5for k in range(1, 5): n = n * kprint(n) # 120# 利用递归def factorial(n): if n == 1: return 1 return n * factorial(n - 1)print(factorial(5)) # 120 设置递归的层数,Python默认递归层数为 10012import syssys.setrecursionlimit(1000) Lambda 表达式匿名函数的定义在 Python 里有两类函数: 第一类:用 def 关键词定义的正规函数 第二类:用 lambda 关键词定义的匿名函数 Python 使用 lambda 关键词来创建匿名函数,而非def关键词,它没有函数名,其语法结构下: 1lambda argument_list: expression lambda - 定义匿名函数的关键词。 argument_list - 函数参数,它们可以是位置参数、默认参数、关键字参数,和正规函数里的参数类型一样。 : - 冒号,在函数参数和表达式中间要加个冒号。 expression - 只是一个表达式,输入函数参数,输出一些值。 注意: expression 中没有 return 语句,因为 lambda 不需要它来返回,表达式本身结果就是返回值。 匿名函数拥有自己的命名空间,且不能访问自己参数列表之外或全局命名空间里的参数。 12345678910111213141516171819202122232425def sqr(x): return x ** 2print(sqr)# <function sqr at 0x000000BABD3A4400>y = [sqr(x) for x in range(10)]print(y)# [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]lbd_sqr = lambda x: x ** 2print(lbd_sqr)# <function <lambda> at 0x000000BABB6AC1E0>y = [lbd_sqr(x) for x in range(10)]print(y)# [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]sumary = lambda arg1, arg2: arg1 + arg2print(sumary(10, 20)) # 30func = lambda *args: sum(args)print(func(1, 2, 3, 4, 5)) # 15 匿名函数的应用12345678910def f(x): y = [] for item in x: y.append(item + 10) return yx = [1, 2, 3]f(x)print(x)# [1, 2, 3] 匿名函数 常常应用于函数式编程的高阶函数 (high-order function)中,主要有两种形式: 参数是函数 (filter, map) 返回值是函数 (closure)如,在 filter 和 map 函数中的应用: filter(function, iterable) 过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。 123odd = lambda x: x % 2 == 1templist = filter(odd, [1, 2, 3, 4, 5, 6, 7, 8, 9])print(list(templist)) # [1, 3, 5, 7, 9] map(function, *iterables) 根据提供的函数对指定序列做映射。 1234567m1 = map(lambda x: x ** 2, [1, 2, 3, 4, 5])print(list(m1)) # [1, 4, 9, 16, 25]m2 = map(lambda x, y: x + y, [1, 3, 5, 7, 9], [2, 4, 6, 8, 10])print(list(m2)) # [3, 7, 11, 15, 19] 类与对象对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。 封装:信息隐蔽技术 我们可以使用关键字 class 定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051class Turtle: # Python中的类名约定以大写字母开头 \"\"\"关于类的一个简单例子\"\"\" # 属性 color = 'green' weight = 10 legs = 4 shell = True mouth = '大嘴' # 方法 def climb(self): print('我正在很努力的向前爬...') def run(self): print('我正在飞快的向前跑...') def bite(self): print('咬死你咬死你!!') def eat(self): print('有得吃,真满足...') def sleep(self): print('困了,睡了,晚安,zzz')tt = Turtle()print(tt)# <__main__.Turtle object at 0x0000007C32D67F98>print(type(tt))# <class '__main__.Turtle'>print(tt.__class__)# <class '__main__.Turtle'>print(tt.__class__.__name__)# Turtlett.climb()# 我正在很努力的向前爬...tt.run()# 我正在飞快的向前跑...tt.bite()# 咬死你咬死你!!# Python类也是对象。它们是type的实例print(type(Turtle))# <class 'type'> 继承:子类自动共享父类之间数据和方法的机制12345678class MyList(list): passlst = MyList([1, 5, 2, 7, 8])lst.append(9)lst.sort()print(lst)# [1, 2, 5, 7, 8, 9] 多态:不同对象对同一方法响应不同的行动1234567891011121314151617181920212223242526class Animal: def run(self): raise AttributeError('子类必须实现这个方法')class People(Animal): def run(self): print('人正在走')class Pig(Animal): def run(self): print('pig is walking')class Dog(Animal): def run(self): print('dog is running')def func(animal): animal.run()func(Pig())# pig is walking self123456789class Test: def prt(self): print(self) print(self.__class__)t = Test()t.prt()# <__main__.Test object at 0x000000BC5A351208># <class '__main__.Test'> 类的方法与普通的函数只有一个特别的区别 —— 它们必须有一个额外的第一个参数名称(对应于该实例,即该对象本身),按照惯例它的名称是 self。在调用方法时,我们无需明确提供与参数 self 相对应的参数。123456789101112131415161718class Ball: def setName(self, name): self.name = name def kick(self): print(\"我叫%s,该死的,谁踢我...\" % self.name)a = Ball()a.setName(\"球A\")b = Ball()b.setName(\"球B\")c = Ball()c.setName(\"球C\")a.kick()# 我叫球A,该死的,谁踢我...b.kick()# 我叫球B,该死的,谁踢我... 魔术方法类有一个名为 __init__(self[, param1, param2...]) 的魔法方法,该方法在类实例化时会自动调用。公有和私有在 Python 中定义私有变量只需要在变量名或函数名前加上 __ 两个下划线,那么这个函数或变量就会为私有的了。12345678910111213141516171819class JustCounter: __secretCount = 0 # 私有变量 publicCount = 0 # 公开变量 def count(self): self.__secretCount += 1 self.publicCount += 1 print(self.__secretCount)counter = JustCounter()counter.count() # 1counter.count() # 2print(counter.publicCount) # 2# Python的私有为伪私有print(counter._JustCounter__secretCount) # 2 print(counter.__secretCount) # AttributeError: 'JustCounter' object has no attribute '__secretCount' 类的私有方法实例12345678910111213141516171819202122232425262728class Site: def __init__(self, name, url): self.name = name # public self.__url = url # private def who(self): print('name : ', self.name) print('url : ', self.__url) def __foo(self): # 私有方法 print('这是私有方法') def foo(self): # 公共方法 print('这是公共方法') self.__foo()x = Site('老马的程序人生', 'https://blog.csdn.net/LSGO_MYP')x.who()# name : 老马的程序人生# url : https://blog.csdn.net/LSGO_MYPx.foo()# 这是公共方法# 这是私有方法x.__foo()# AttributeError: 'Site' object has no attribute '__foo' 继承123456class DerivedClassName(BaseClassName): statement-1 . . . statement-N BaseClassName(基类名)必须与派生类定义在一个作用域内。除了类,还可以用表达式,基类定义在另一个模块中时这一点非常有用。如果子类中定义与父类同名的方法或属性,则会自动覆盖父类对应的方法或属性。1234567891011121314151617181920212223242526272829303132333435# 类定义class people: # 定义基本属性 name = '' age = 0 # 定义私有属性,私有属性在类外部无法直接进行访问 __weight = 0 # 定义构造方法 def __init__(self, n, a, w): self.name = n self.age = a self.__weight = w def speak(self): print(\"%s 说: 我 %d 岁。\" % (self.name, self.age))# 单继承示例class student(people): grade = '' def __init__(self, n, a, w, g): # 调用父类的构函 people.__init__(self, n, a, w) self.grade = g # 覆写父类的方法 def speak(self): print(\"%s 说: 我 %d 岁了,我在读 %d 年级\" % (self.name, self.age, self.grade))s = student('小马的程序人生', 10, 60, 3)s.speak()# 小马的程序人生 说: 我 10 岁了,我在读 3 年级 注意:如果上面的程序去掉:people.__init__(self, n, a, w),则输出:说: 我 0 岁了,我在读 3 年级,因为子类的构造方法继承了父类的变量。解决该问题可用以下两种方式: 调用未绑定的父类方法 Fish.__init__(self)123456789101112class Shark(Fish): # 鲨鱼 def __init__(self): Fish.__init__(self) self.hungry = True def eat(self): if self.hungry: print(\"吃货的梦想就是天天有得吃!\") self.hungry = False else: print(\"太撑了,吃不下了!\") self.hungry = True 使用 super 函数 super().__init__()123456789101112class Shark(Fish): # 鲨鱼 def __init__(self): super().__init__() self.hungry = True def eat(self): if self.hungry: print(\"吃货的梦想就是天天有得吃!\") self.hungry = False else: print(\"太撑了,吃不下了!\") self.hungry = True 类、类对象和实例对象 类对象:创建一个类,其实也是一个对象也在内存开辟了一块空间,称为类对象,类对象只有一个。12class A(object): pass 实例对象:就是通过实例化类创建的对象,称为实例对象,实例对象可以有多个。1234567class A(object): pass# 实例化对象 a、b、c都属于实例对象。a = A()b = A()c = A() 类属性:类里面方法外面定义的变量称为类属性。类属性所属于类对象并且多个实例对象之间共享同一个类属性,说白了就是类属性所有的通过该类实例化的对象都能共享。1234class A(): a = 0 #类属性 def __init__(self, xx): A.a = xx #使用类属性可以通过 (类名.类属性)调用。 实例属性:实例属性和具体的某个实例对象有关系,并且一个实例对象和另外一个实例对象是不共享属性的,说白了实例属性只能在自己的对象里面使用,其他的对象不能直接使用,因为 self 是谁调用,它的值就属于该对象。12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152# 创建类对象class Test(object): class_attr = 100 # 类属性 def __init__(self): self.sl_attr = 100 # 实例属性 def func(self): print('类对象.类属性的值:', Test.class_attr) # 调用类属性 print('self.类属性的值', self.class_attr) # 相当于把类属性 变成实例属性 print('self.实例属性的值', self.sl_attr) # 调用实例属性a = Test()a.func()# 类对象.类属性的值: 100# self.类属性的值 100# self.实例属性的值 100b = Test()b.func()# 类对象.类属性的值: 100# self.类属性的值 100# self.实例属性的值 100a.class_attr = 200a.sl_attr = 200a.func()# 类对象.类属性的值: 100# self.类属性的值 200# self.实例属性的值 200b.func()# 类对象.类属性的值: 100# self.类属性的值 100# self.实例属性的值 100Test.class_attr = 300a.func()# 类对象.类属性的值: 300# self.类属性的值 200# self.实例属性的值 200b.func()# 类对象.类属性的值: 300# self.类属性的值 300# self.实例属性的值 100 绑定Python 严格要求方法需要有实例才能被调用,这种限制其实就是 Python 所谓的绑定概念。 Python 对象的数据属性通常存储在名为 .__ dict__ 的字典中,我们可以直接访问 __dict__,或利用 Python 的内置函数 vars() 获取 .__ dict__。 12345678910111213141516171819202122232425262728class CC: def setXY(self, x, y): self.x = x self.y = y def printXY(self): print(self.x, self.y)dd = CC()print(dd.__dict__)# {}print(vars(dd))# {}print(CC.__dict__)# {'__module__': '__main__', 'setXY': <function CC.setXY at 0x000000C3473DA048>, 'printXY': <function CC.printXY at 0x000000C3473C4F28>, '__dict__': <attribute '__dict__' of 'CC' objects>, '__weakref__': <attribute '__weakref__' of 'CC' objects>, '__doc__': None}dd.setXY(4, 5)print(dd.__dict__)# {'x': 4, 'y': 5}print(vars(CC))# {'__module__': '__main__', 'setXY': <function CC.setXY at 0x000000632CA9B048>, 'printXY': <function CC.printXY at 0x000000632CA83048>, '__dict__': <attribute '__dict__' of 'CC' objects>, '__weakref__': <attribute '__weakref__' of 'CC' objects>, '__doc__': None}print(CC.__dict__)# {'__module__': '__main__', 'setXY': <function CC.setXY at 0x000000632CA9B048>, 'printXY': <function CC.printXY at 0x000000632CA83048>, '__dict__': <attribute '__dict__' of 'CC' objects>, '__weakref__': <attribute '__weakref__' of 'CC' objects>, '__doc__': None} 一些相关的内置函数(BIF) issubclass(class, classinfo) 方法用于判断参数 class 是否是类型参数 classinfo 的子类。 一个类被认为是其自身的子类。 classinfo 可以是类对象的元组,只要 class 是其中任何一个候选类的子类,则返回 True。 isinstance(object, classinfo) 方法用于判断一个对象是否是一个已知的类型,类似type()。 type()不会认为子类是一种父类类型,不考虑继承关系。 isinstance()会认为子类是一种父类类型,考虑继承关系。 如果第一个参数不是对象,则永远返回False。 如果第二个参数不是类或者由类对象组成的元组,会抛出一个TypeError异常。12345678910111213141516a = 2print(isinstance(a, int)) # Trueprint(isinstance(a, str)) # Falseprint(isinstance(a, (str, int, list))) # Trueclass A: passclass B(A): passprint(isinstance(A(), A)) # Trueprint(type(A()) == A) # Trueprint(isinstance(B(), A)) # Trueprint(type(B()) == A) # False hasattr(object, name) 用于判断对象是否包含对应的属性。1234567891011class Coordinate: x = 10 y = -5 z = 0point1 = Coordinate()print(hasattr(point1, 'x')) # Trueprint(hasattr(point1, 'y')) # Trueprint(hasattr(point1, 'z')) # Trueprint(hasattr(point1, 'no')) # False getattr(object, name[, default]) 用于返回一个对象属性值。12345678class A(object): bar = 1a = A()print(getattr(a, 'bar')) # 1print(getattr(a, 'bar2', 3)) # 3print(getattr(a, 'bar2'))# AttributeError: 'A' object has no attribute 'bar2' setattr(object, name, value) 对应函数 getattr(),用于设置属性值,该属性不一定是存在的。123456789class A(object): bar = 1a = A()print(getattr(a, 'bar')) # 1setattr(a, 'bar', 5)print(a.bar) # 5setattr(a, \"age\", 28)print(a.age) # 28 delattr(object, name) 用于删除属性。123456789101112131415161718192021class Coordinate: x = 10 y = -5 z = 0point1 = Coordinate()print('x = ', point1.x) # x = 10print('y = ', point1.y) # y = -5print('z = ', point1.z) # z = 0delattr(Coordinate, 'z')print('--删除 z 属性后--') # --删除 z 属性后--print('x = ', point1.x) # x = 10print('y = ', point1.y) # y = -5# 触发错误print('z = ', point1.z)# AttributeError: 'Coordinate' object has no attribute 'z' 魔术方法魔法方法的第一个参数应为 cls(类方法) 或者 self(实例方法)。 cls:代表一个类的名称 self:代表一个实例对象的名称基本的魔法方法 __init__(self[, ...]) 构造器,当一个实例被创建的时候调用的初始化方法。1234567891011121314class Rectangle: def __init__(self, x, y): self.x = x self.y = y def getPeri(self): return (self.x + self.y) * 2 def getArea(self): return self.x * self.yrect = Rectangle(4, 5)print(rect.getPeri()) # 18print(rect.getArea()) # 20 __str__(self): 当你打印一个对象的时候,触发 __str__ 当你使用 %s 格式化的时候,触发 __str__ str 强转数据类型的时候,触发 __str__ __repr__(self): repr 是 str 的备胎 有 __str__ 的时候执行 __str__,没有实现 __str__ 的时候,执行 __repr__ repr(obj) 内置函数对应的结果是 __repr__ 的返回值 当你使用 %r 格式化的时候 触发 __repr__123456789101112131415161718192021222324252627282930313233class Cat: \"\"\"定义一个猫类\"\"\" def __init__(self, new_name, new_age): \"\"\"在创建完对象之后 会自动调用, 它完成对象的初始化的功能\"\"\" self.name = new_name self.age = new_age def __str__(self): \"\"\"返回一个对象的描述信息\"\"\" return \"名字是:%s , 年龄是:%d\" % (self.name, self.age) def __repr__(self): \"\"\"返回一个对象的描述信息\"\"\" return \"Cat:(%s,%d)\" % (self.name, self.age) def eat(self): print(\"%s在吃鱼....\" % self.name) def drink(self): print(\"%s在喝可乐...\" % self.name) def introduce(self): print(\"名字是:%s, 年龄是:%d\" % (self.name, self.age))# 创建了一个对象tom = Cat(\"汤姆\", 30)print(tom) # 名字是:汤姆 , 年龄是:30print(str(tom)) # 名字是:汤姆 , 年龄是:30print(repr(tom)) # Cat:(汤姆,30)tom.eat() # 汤姆在吃鱼....tom.introduce() # 名字是:汤姆, 年龄是:30 算术运算符 __add__(self, other) 定义加法的行为:+ __sub__(self, other) 定义减法的行为:-12345678910111213141516171819202122232425262728293031323334353637383940class MyClass: def __init__(self, height, weight): self.height = height self.weight = weight # 两个对象的长相加,宽不变.返回一个新的类 def __add__(self, others): return MyClass(self.height + others.height, self.weight + others.weight) # 两个对象的宽相减,长不变.返回一个新的类 def __sub__(self, others): return MyClass(self.height - others.height, self.weight - others.weight) # 说一下自己的参数 def intro(self): print(\"高为\", self.height, \" 重为\", self.weight)def main(): a = MyClass(height=10, weight=5) a.intro() b = MyClass(height=20, weight=10) b.intro() c = b - a c.intro() d = a + b d.intro()if __name__ == '__main__': main()# 高为 10 重为 5# 高为 20 重为 10# 高为 10 重为 5# 高为 30 重为 15 __mul__(self, other) 定义乘法的行为:* __truediv__(self, other) 定义真除法的行为:/ __floordiv__(self, other) 定义整数除法的行为:// __mod__(self, other) 定义取模算法的行为:% __divmod__(self, other) 定义当被 divmod() 调用时的行为 divmod(a, b) 把除数和余数运算结果结合起来,返回一个包含商和余数的元组 (a // b, a % b)。12print(divmod(7, 2)) # (3, 1)print(divmod(8, 2)) # (4, 0) __pow__(self, other[, module]) 定义当被 power() 调用或 ** 运算时的行为 __lshift__(self, other) 定义按位左移位的行为:<< __rshift__(self, other) 定义按位右移位的行为:>> __and__(self, other) 定义按位与操作的行为:& __xor__(self, other) 定义按位异或操作的行为:^ __or__(self, other) 定义按位或操作的行为:|增量赋值运算符 __iadd__(self, other) 定义赋值加法的行为:+= __isub__(self, other) 定义赋值减法的行为:-= __imul__(self, other) 定义赋值乘法的行为:*= __itruediv__(self, other) 定义赋值真除法的行为:/= __ifloordiv__(self, other) 定义赋值整数除法的行为://= __imod__(self, other) 定义赋值取模算法的行为:%= __ipow__(self, other[, modulo]) 定义赋值幂运算的行为:**= __ilshift__(self, other) 定义赋值按位左移位的行为:<<= __irshift__(self, other) 定义赋值按位右移位的行为:>>= __iand__(self, other) 定义赋值按位与操作的行为:&= __ixor__(self, other) 定义赋值按位异或操作的行为:^= __ior__(self, other) 定义赋值按位或操作的行为:|=一元运算符 __neg__(self) 定义正号的行为:+x __pos__(self) 定义负号的行为:-x __abs__(self) 定义当被 abs() 调用时的行为属性访问 __getattr__(self, name): 定义当用户试图获取一个不存在的属性时的行为。 __getattribute__(self, name):定义当该类的属性被访问时的行为(先调用该方法,查看是否存在该属性,若不存在,接着去调用 __getattr__)。 __setattr__(self, name, value):定义当一个属性被设置时的行为。 __delattr__(self, name):定义当一个属性被删除时的行为。123456789101112131415161718192021222324252627class C: def __getattribute__(self, item): print('__getattribute__') return super().__getattribute__(item) def __getattr__(self, item): print('__getattr__') def __setattr__(self, key, value): print('__setattr__') super().__setattr__(key, value) def __delattr__(self, item): print('__delattr__') super().__delattr__(item)c = C()c.x# __getattribute__# __getattr__c.x = 1# __setattr__del c.x# __delattr__ 定制序列 如果说你希望定制的容器是不可变的话,你只需要定义 __len__() 和 __getitem__() 方法。 如果你希望定制的容器是可变的话,除了 __len__() 和 __getitem__() 方法,你还需要定义 __setitem__() 和 __delitem__() 两个方法。 编写一个不可改变的自定义列表,要求记录列表中每个元素被访问的次数。 1234567891011121314151617181920212223class CountList: def __init__(self, *args): self.values = [x for x in args] self.count = {}.fromkeys(range(len(self.values)), 0) def __len__(self): return len(self.values) def __getitem__(self, item): self.count[item] += 1 return self.values[item]c1 = CountList(1, 3, 5, 7, 9)c2 = CountList(2, 4, 6, 8, 10)print(c1[1]) # 3print(c2[2]) # 6print(c1[1] + c2[1]) # 7print(c1.count)# {0: 0, 1: 2, 2: 0, 3: 0, 4: 0}print(c2.count)# {0: 0, 1: 1, 2: 1, 3: 0, 4: 0} __len__(self) 定义当被 len() 调用时的行为(返回容器中元素的个数)。 __getitem__(self, key) 定义获取容器中元素的行为,相当于 self[key]。 __setitem__(self, key, value) 定义设置容器中指定元素的行为,相当于self[key] = value。 __delitem__(self, key) 定义删除容器中指定元素的行为,相当于 del self[key]。 编写一个可改变的自定义列表,要求记录列表中每个元素被访问的次数。 123456789101112131415161718192021222324252627282930313233343536class CountList: def __init__(self, *args): self.values = [x for x in args] self.count = {}.fromkeys(range(len(self.values)), 0) def __len__(self): return len(self.values) def __getitem__(self, item): self.count[item] += 1 return self.values[item] def __setitem__(self, key, value): self.values[key] = value def __delitem__(self, key): del self.values[key] for i in range(0, len(self.values)): if i >= key: self.count[i] = self.count[i + 1] self.count.pop(len(self.values))c1 = CountList(1, 3, 5, 7, 9)c2 = CountList(2, 4, 6, 8, 10)print(c1[1]) # 3print(c2[2]) # 6c2[2] = 12print(c1[1] + c2[2]) # 15print(c1.count)# {0: 0, 1: 2, 2: 0, 3: 0, 4: 0}print(c2.count)# {0: 0, 1: 0, 2: 2, 3: 0, 4: 0}del c1[1]print(c1.count)# {0: 0, 1: 0, 2: 0, 3: 0} 迭代器 迭代是 Python 最强大的功能之一,是访问集合元素的一种方式。 迭代器是一个可以记住遍历的位置的对象。 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。 迭代器只能往前不会后退。 字符串,列表或元组对象都可用于创建迭代器:123456789links = {'B': '百度', 'A': '阿里', 'T': '腾讯'}for each in iter(links): print('%s -> %s' % (each, links[each]))# B -> 百度# A -> 阿里# T -> 腾讯# B -> 百度# A -> 阿里# T -> 腾讯 迭代器有两个基本的方法:iter() 和 next()。 iter(object) 函数用来生成迭代器。 next(iterator[, default]) 返回迭代器的下一个项目。 iterator – 可迭代对象 default – 可选,用于设置在没有下一个元素时返回该默认值,如果不设置,又没有下一个元素则会触发 StopIteration 异常。12345678910111213141516171819links = {'B': '百度', 'A': '阿里', 'T': '腾讯'}it = iter(links)while True: try: each = next(it) except StopIteration: break print(each)# B# A# Tit = iter(links)print(next(it)) # Bprint(next(it)) # Aprint(next(it)) # Tprint(next(it)) # StopIteration 把一个类作为一个迭代器使用需要在类中实现两个魔法方法 __iter__() 与 __next__()。 __iter__(self) 定义当迭代容器中的元素的行为,返回一个特殊的迭代器对象, 这个迭代器对象实现了 __next__() 方法并通过 StopIteration 异常标识迭代的完成。 __next__() 返回下一个迭代器对象。 StopIteration 异常用于标识迭代的完成,防止出现无限循环的情况,在 __next__() 方法中我们可以设置在完成指定循环次数后触发 StopIteration 异常来结束迭代。12345678910111213141516171819class Fibs: def __init__(self, n=10): self.a = 0 self.b = 1 self.n = n def __iter__(self): return self def __next__(self): self.a, self.b = self.b, self.a + self.b if self.a > self.n: raise StopIteration return self.afibs = Fibs(100)for each in fibs: print(each, end=' ')# 1 1 2 3 5 8 13 21 34 55 89 生成器 在 Python 中,使用了 yield 的函数被称为生成器(generator)。 跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个迭代器。 在调用生成器运行的过程中,每次遇到 yield 时函数会暂停并保存当前所有的运行信息,返回 yield 的值, 并在下一次执行 next() 方法时从当前位置继续运行。 调用一个生成器函数,返回的是一个迭代器对象。12345678910111213141516171819202122def myGen(): print('生成器执行!') yield 1 yield 2 myG = myGen()for each in myG: print(each)'''生成器执行!12'''myG = myGen()print(next(myG)) # 生成器执行!# 1print(next(myG)) # 2print(next(myG)) # StopIteration","categories":[],"tags":[{"name":"python","slug":"python","permalink":"https://vincent507cpu.github.io/tags/python/"}]},{"title":"[DSU&阿里云天池] Python训练营 Task 2","slug":"DSU-阿里云天池-Python训练营-Task-2","date":"2020-12-22T02:30:03.000Z","updated":"2020-12-23T16:23:45.345Z","comments":true,"path":"2020/12/21/DSU-阿里云天池-Python训练营-Task-2/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/21/DSU-%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-Python%E8%AE%AD%E7%BB%83%E8%90%A5-Task-2/","excerpt":"[TOC] 列表定义列表是有序不定长集合语法为 [元素 1, 元素 2, 元素 3,..., 元素 N] 列表的创建创建一个普通列表12a = [1, 2, 3] # [1, 2, 3]b = list(4, 5, 6) # [4, 5, 6] 使用列表解析式1[i for i in range(10)] # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 列表内的元素可以是不同类型。 1mix = [1, 'lsgo', 3.14, [1, 2, 3]] # mix = [1, 'lsgo', 3.14, [1, 2, 3]]","text":"[TOC] 列表定义列表是有序不定长集合语法为 [元素 1, 元素 2, 元素 3,..., 元素 N] 列表的创建创建一个普通列表12a = [1, 2, 3] # [1, 2, 3]b = list(4, 5, 6) # [4, 5, 6] 使用列表解析式1[i for i in range(10)] # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 列表内的元素可以是不同类型。 1mix = [1, 'lsgo', 3.14, [1, 2, 3]] # mix = [1, 'lsgo', 3.14, [1, 2, 3]] 创建一个空列表。12lst = [] # []lst2 = list() # [] 列表的方法 向列表结尾添加一个元素:lst.append(obj)12lst = [1, 2, 3]lst.append(4) # [1, 2, 3, 4] 向列表结尾添加多个元素:lst.extend(obj)12lst = [1, 2, 3]lst.extend([4, 5]) # [1, 2, 3, 4, 5] 注意 append 和 extend 的区别:12lst = [1, 2, 3]lst.append([4, 5]) # [1, 2, 3, [4, 5]] 删除列表中的指定元素:lst.remove(obj)lst.remove() 删除列表中的第一个匹配项。12lst = [1, 2, 3, 1]lst.remove(1) # [2, 3, 1] 删除列表中指定位置的元素:lst.pop([index=-1])通常省略index=-1,即移除最后一个值,并返回它。1234lst = [1, 2, 3]y = lst.pop()print(lst, y)# [1, 2] 3 在指定位置 index 插入元素:lst.insert(index, obj)1234lst = [1, 2, 3]lst.insert(0, 4)print(lst)# [4, 1, 2, 3] 获取列表中的元素 通过元素的索引值,从列表获取单个元素,注意,列表索引值是从0开始的。 通过将索引指定为-1,可让Python返回最后一个列表元素,索引 -2 返回倒数第二个列表元素,以此类推。123lst = [1, 2, 3, 4, 5]print(lst[0])# [1] 切片的通用写法是 start : stop : step 情况 1 - “start :” 以 step 为 1 (默认) 从编号 start 往列表尾部切片。 123lst = [1, 2, 3, 4, 5]print(lst[2:])# [3, 4, 5] 情况 2 - “: stop” 以 step 为 1 (默认) 从列表头部往编号 stop 切片。 123lst = [1, 2, 3, 4, 5]print(lst[:2])# [1, 2] 情况 3 - “start : stop” 以 step 为 1 (默认) 从编号 start 往编号 stop 切片。 123lst = [1, 2, 3, 4, 5]print(lst[1:3])# [2, 3] 情况 4 - “start : stop : step” 以具体的 step 从编号 start 往编号 stop 切片。注意最后把 step 设为 -1,相当于将列表反向排列。 123lst = [1, 2, 3, 4, 5]print(lst[1:5:2])# [2, 4] 情况 5 - “ : “复制列表中的所有元素(浅拷贝)。12345lst1 = [1, 2, 3]lst2 = lst1[:]lst2[0] = 4print(lst1, lst2)# [1, 2, 3] [4, 2, 3] 列表的常用操作符 等号操作符:== 连接操作符:+ 重复操作符:* 成员关系操作符:in、not in 等号 ==,只有成员、成员位置都相同时才返回 True。 列表拼接有两种方式,用加号 +和乘号 *,前者首尾拼接,后者复制拼接。 123456789101112131415161718list1 = [123, 456]list2 = [456, 123]list3 = [123, 456]print(list1 == list2) # Falseprint(list1 == list3) # Truelist4 = list1 + list2 # extend()print(list4) # [123, 456, 456, 123]list5 = list3 * 3print(list5) # [123, 456, 123, 456, 123, 456]list3 *= 3print(list3) # [123, 456, 123, 456, 123, 456]print(123 in list3) # Trueprint(456 not in list3) # False 列表的其它方法 lst.count(obj):统计某个元素在列表中出现的次数123list1 = [123, 456] * 3 # [123, 456, 123, 456, 123, 456]num = list1.count(123)print(num) # 3 lst.reverse():从列表中找出某个值第一个匹配项的索引位置1234list1 = [123, 456] * 5print(list1.index(123)) # 0print(list1.index(123, 1)) # 2print(list1.index(123, 3, 7)) # 4 lst.index(obj):反向列表中元素12x = [123, 456, 789]x.reverse() # [789, 456, 123] lst.sort(key=None, rverse=False):对原列表进行排序。 key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。 reverse – 排序规则,reverse = True 降序, reverse = False 升序(默认)。 该方法没有返回值,但是会对列表的对象进行排序。123456x = [123, 456, 789, 213]x.sort() # [123, 213, 456, 789]x.sort(reverse=True) # [789, 456, 213, 123]x.sort(key=lambda a: a[0]) # [(1, 3), (2, 2), (3, 4), (4, 1)] 元组元组的语法:(元素1, 元素2,元素3,...,元素N)创建和访问一个元组 Python 的元组与列表类似,不同之处在于tuple被创建后就不能对其进行修改,类似字符串。 元组使用小括号,列表使用方括号。 元组与列表类似,也用整数来对它进行索引 (indexing) 和切片 (slicing)。12345t1 = (1, 2, 'a') # (1, 2, 'a')t2 = (1, 2, 3, 4, 5, 6, 7)t2[1] # 2t2[4:] # (5, 6, 7)t2[:3] # (1, 2, 3) 创建元组可以用小括号 (),也可以什么都不用,为了可读性,建议还是用 ()。 元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用。12345678x = (1)type(x) # intx = ()type(x) # tuplex = (1, )type(x) # tuple 更新和删除一个元组12num = (1, 2, 3, 4, 5)new = num[:2] + (3, ) + num[4:] # (1, 2, 3, 5) 元组有不可更改 (immutable) 的性质,因此不能直接给元组的元素赋值,但是只要元组中的元素可更改 (mutable),那么我们可以直接更改其元素,注意这跟赋值其元素不同。123t = (1, 2, 3, [4, 5, 6])t[3][0] = 9t # (1, 2, 3, [9, 5, 6]) 元组相关的操作符 等号操作符:== 连接操作符:+ 重复操作符:* 成员关系操作符:in、not in 等号 ==,只有成员、成员位置都相同时才返回 True。 元组拼接有两种方式,用加号 + 和乘号 *,前者首尾拼接,后者复制拼接。 123456789101112131415161718t1 = (123, 456)t2 = (456, 123)t3 = (123, 456)print(t1 == t2) # Falseprint(t1 == t3) # Truet4 = t1 + t2print(t4) # (123, 456, 456, 123)t5 = t3 * 3print(t5) # (123, 456, 123, 456, 123, 456)t3 *= 3print(t3) # (123, 456, 123, 456, 123, 456)print(123 in t3) # Trueprint(456 not in t3) # False 内置方法 count:返回在元组中该元素出现几次12t = (1, 2, 3, 2)t.count(2) # 2 index:找到指定元素在元组中的索引12t = (1, 2, 3, 2)t.index(3) # 2 解压元组如果只想要元组其中几个元素,用通配符 *。1234t = (1, 2, 3, 4, 5)a, b, *rest, c = tprint(a, b, c) # 1 2 5peint(rest) # 3, 4 字符串字符串的定义 Python 中字符串被定义为引号之间的字符集合。 Python 支持使用成对的 单引号 或 双引号。12print(1 + 2) # 3print('1' + '2') # 12 常用的转义字符:\\\\ 反斜杠符号,\\t 横向制表符,\\n 换行符12print('let\\'s go') # let's goprint('C:\\\\temp') # C:\\temp 原始字符串只需要在字符串前边加一个英文字母 r 即可。1print(r'C:\\temp') # C:\\temp 字符串的切片与拼接 类似于元组具有不可修改性; 从 0 开始; 切片通常写成 start:end 这种形式,包括 start 索引对应的元素,不包括end 索引对应的元素; 索引值可正可负,正索引从 0 开始,从左往右;负索引从 -1 开始,从右往左。使用负数索引时,会从最后一个元素开始计数。最后一个元素的位置编号是 -1。12s1 = 'Hello World's1[:5] # Hello 字符串的常用内置方法 capitalize():将字符串的第一个字符转换为大写。 lower():转换字符串中所有大写字符为小写。 upper():转换字符串中的小写字母为大写。 swapcase():将字符串中大写转换为小写,小写转换为大写。12345s = 'hello WORLD's.capitalize() # Hello WORLDs.lower() # hello worlds.upper() # HELLO WORLDs.swapcase() # HELLO world count(str, beg= 0,end=len(string)) 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数。12s = 'DAXIExiaoxie's.count('xi') # 2 endswith(suffix, beg=0, end=len(string)) 检查字符串是否以指定子字符串 suffix 结束,如果是,返回 True,否则返回 False。如果 beg 和 end 指定值,则在指定范围内检查。 startswith(substr, beg=0,end=len(string)) 检查字符串是否以指定子字符串 substr 开头,如果是,返回 True,否则返回 False1。如果 beg 和 end 指定值,则在指定范围内检查。123s = 'hello world's.startswith('he') # Trues.endswith('LD') # False find(str, beg=0, end=len(string)) 检测 str 是否包含在字符串中,如果指定范围 beg 和 end,则检查是否包含在指定范围内,如果包含,返回开始的索引值,否则返回 -1。 rfind(str, beg=0,end=len(string)) 类似于 find() 函数,不过是从右边开始查找。123s = 'hello world's.find('o') # 4s.rfind('o') # 7 isnumeric() 如果字符串中只包含数字字符,则返回 True,否则返回 False。1234s = '1234's.isnumeric() # Trues += 'a' # '1234a's.isnumeric() # False ljust(width[, fillchar]) 返回一个原字符串左对齐,并使用fillchar(默认空格)填充至长度width的新字符串。 rjust(width[, fillchar]) 返回一个原字符串右对齐,并使用fillchar(默认空格)填充至长度width的新字符串。123s = 'abcd'print(s.ljust(8, '0')) # 'abcd0000'print(s.rjust(8, '0')) # '0000abcd' lstrip([chars]) 截掉字符串左边的空格或指定字符。 rstrip([chars]) 删除字符串末尾的空格或指定字符。 strip([chars]) 在字符串上执行lstrip()和rstrip()。1234s = ' Hello World 's.lstrip() # 'Hello World 's.rstrip() # ' Hello World's.strip() # 'Hello World' partition(sub) 找到子字符串 sub,把字符串分为一个三元组 (pre_sub,sub,fol_sub),如果字符串中不包含 sub 则返回 ('原字符串','','')。 rpartition(sub) 类似于 partition() 方法,不过是从右边开始查找。123s = 'Hello World's.partition('o') # ('Hell', 'o W', 'orld')s.rpartition('o') # ('Hello W', 'o', 'rld') replace(old, new [, max]) 把 将字符串中的 old 替换成 new,如果 max 指定,则替换不超过 max 次。12s = 'Hello World's.replace('o', 'a', 1) # Hella World split(str="", num) 不带参数默认是以空格为分隔符切片字符串,如果 num 参数有设置,则仅分隔 num 个子字符串,返回切片后的子字符串拼接的列表。123s = 'Hello World's.split() # ['Hello', 'World']s.split('l', 2) # ['He', '', 'o World'] 字符串格式化f-string 格式化函数12345678910111213141516171819```# 字典## 可变类型与不可变类型- 序列是以连续的整数为索引,与此不同的是,字典以\"关键字\"为索引,关键字可以是任意不可变类型,通常用字符串或数值。- 字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢?两种方法:- 麻烦方法:用 `id(X)` 函数,对 `X` 进行某种操作,比较操作前后的 `id`,如果不一样,则 `X` 不可变,如果一样,则 X 可变。- 便捷方法:用 `hash(X)`,只要不报错,证明 `X` 可被哈希,即不可变,反过来不可被哈希,即可变。```pyi = 1print(id(i)) # 4376351872i = i + 2print(id(i)) # 4376351936l = [1, 2]print(id(l)) # 140478358404224l.append('Python')print(id(l)) # 140478358404224 整数 i 在加 1 之后的 id 和之前不一样,因此加完之后的这个 i (虽然名字没变),但不是加之前的那个 i 了,因此整数是不可变类型。 列表 l 在附加 'Python' 之后的 id 和之前一样,因此列表是可变类型。1234567891011print(hash('Name')) # 2936281444635265970print(hash((1, 2, 'Python'))) # 5769585943857102932print(hash([1, 2, 'Python']))---------------------------------------------------------------------------TypeError Traceback (most recent call last)<ipython-input-146-f9149cd3bfae> in <module> 3 print(hash((1, 2, 'Python'))) # 1704535747474881831 4 ----> 5 print(hash([1, 2, 'Python']))TypeError: unhashable type: 'list' 数值、字符和元组 都能被哈希,因此它们是不可变类型。 列表、集合、字典不能被哈希,因此它是可变类型。字典的定义 字典 是无序的 键:值(key:value)对集合,键必须是互不相同的(在同一个字典之内)。 dict 内部存放的顺序和 key 放入的顺序是没有关系的。 dict 查找和插入的速度极快,不会随着 key 的增加而增加,但是需要占用大量的内存。字典 定义语法为 {元素1, 元素2, ..., 元素n} 其中每一个元素是一个「键值对」– 键:值 (key:value) 关键点是大括号 {},逗号 ,和冒号 : 大括号 – 把所有元素绑在一起 逗号 – 将每个键值对分开 冒号 – 将键和值分开创建和访问字典如果我们取的键在字典中不存在,会直接报错KeyError。123456789dct = {'a':'hello', 'b':'world'} # {'a':'hello', 'b':'world'}dct['c']---------------------------------------------------------------------------KeyError Traceback (most recent call last)<ipython-input-147-556b5f4b8778> in <module> 1 dct = {'a':'hello', 'b':'world'} # {'a':'hello', 'b':'world'}----> 2 dct['c']KeyError: 'c' dict() 创建一个空的字典。 通过 key 直接把数据放入字典中,但一个 key 只能对应一个 value,多次对一个 key 放入 value,后面的值会把前面的值冲掉。 123456789101112dic = dict()dic['a'] = 1dic['b'] = 2dic['c'] = 3print(dic) # {'a': 1, 'b': 2, 'c': 3}dic['a'] = 11print(dic) # {'a': 11, 'b': 2, 'c': 3}dic['d'] = 4print(dic) # {'a': 11, 'b': 2, 'c': 3, 'd': 4} dict(mapping) 通过键值对创建字典12dic1 = dict([('apple', 4139), ('peach', 4127), ('cherry', 4098)])print(dic1) # {'cherry': 4098, 'apple': 4139, 'peach': 4127} dict(**kwargs) 通过 name=value 方式创建字典12dic = dict(name='Tom', age=10)print(dic) # {'name': 'Tom', 'age': 10} 字典的内置方法 dict.fromkeys(seq[, value]) 用于创建一个新字典,以序列 seq 中元素做字典的键,value 为字典所有键对应的初始值。12345678seq = ('name', 'age', 'sex')dic1 = dict.fromkeys(seq)print(dic1)# {'name': None, 'age': None, 'sex': None}dic2 = dict.fromkeys(seq, 10)print(dic2)# {'name': 10, 'age': 10, 'sex': 10} dict.keys() 返回一个可迭代对象,可以使用 list() 来转换为列表,列表为字典中的所有键。1234dic = {'Name': 'lsgogroup', 'Age': 7}print(dic.keys()) # dict_keys(['Name', 'Age'])lst = list(dic.keys()) # 转换为列表print(lst) # ['Name', 'Age'] dict.values() 返回一个迭代器,可以使用 list() 来转换为列表,列表为字典中的所有值。123dic = {'Sex': 'female', 'Age': 7, 'Name': 'Zara'}print(dic.values()) # dict_values(['female', 7, 'Zara'])print(list(dic.values()))# [7, 'female', 'Zara'] dict.items() 以列表返回可遍历的 (键, 值) 元组数组。123456dic = {'Name': 'Lsgogroup', 'Age': 7}print(dic.items()) # dict_items([('Name', 'Lsgogroup'), ('Age', 7)])print(tuple(dic.items())) # (('Name', 'Lsgogroup'), ('Age', 7))print(list(dic.items())) # [('Name', 'Lsgogroup'), ('Age', 7)] dict.get(key, default=None) 返回指定键的值,如果值不在字典中返回默认值。1234dic = {'Name': 'Lsgogroup', 'Age': 27}print(\"Age 值为 : %s\" % dic.get('Age')) # Age 值为 : 27print(\"Sex 值为 : %s\" % dic.get('Sex', \"NA\")) # Sex 值为 : NAprint(dic) # {'Name': 'Lsgogroup', 'Age': 27} dict.setdefault(key, default=None) 和 get() 方法 类似, 如果键不存在于字典中,将会添加键并将值设为默认值。12345dic = {'Name': 'Lsgogroup', 'Age': 7}print(\"Age 键的值为 : %s\" % dic.setdefault('Age', None)) # Age 键的值为 : 7print(\"Sex 键的值为 : %s\" % dic.setdefault('Sex', None)) # Sex 键的值为 : Noneprint(dic) # {'Age': 7, 'Name': 'Lsgogroup', 'Sex': None} dict.pop(key[,default]) 删除字典给定键 key 所对应的值,返回值为被删除的值。key 值必须给出。若 key 不存在,则返回 default 值。 del dict[key] 删除字典给定键 key 所对应的值。12345dic1 = {1: \"a\", 2: [1, 2]}print(dic1.pop(1), dic1) # a {2: [1, 2]}# 设置默认值,必须添加,否则报错print(dic1.pop(3, \"nokey\"), dic1) # nokey {2: [1, 2]} dict.popitem() 随机返回并删除字典中的一对键和值,如果字典已经为空,却调用了此方法,就报出 KeyError 异常。123dic1 = {1: \"a\", 2: [1, 2]}print(dic1.popitem()) # {2: [1, 2]}print(dic1) # (1, 'a') dict.clear()用于删除字典内所有元素。1234dic = {'Name': 'Zara', 'Age': 7}print(\"字典长度 : %d\" % len(dic)) # 字典长度 : 2dic.clear()print(\"字典删除后长度 : %d\" % len(dic)) # 字典删除后长度 : 0 dict.copy() 返回一个字典的浅复制。123dic1 = {'Name': 'Lsgogroup', 'Age': 7, 'Class': 'First'}dic2 = dic1.copy()print(\"dic2\") # {'Age': 7, 'Name': 'Lsgogroup', 'Class': 'First'} dict.update(dict2) 把字典参数 dict2 的 key:value 对更新到字典 dict 里。12345dic = {'Name': 'Lsgogroup', 'Age': 7}dic2 = {'Sex': 'female', 'Age': 8}dic.update(dic2)print(dic) {'Name': 'Lsgogroup', 'Age': 8, 'Sex': 'female'} 集合Python 中 set 与 dict 类似,也是一组 key 的集合,但不存储 value。由于key 不能重复,所以在 set 中,没有重复的 key。 注意,key 为不可变类型,即可哈希的值。 1234num = {}print(type(num)) # <class 'dict'>num = {1, 2, 3, 4}print(type(num)) # <class 'set'> 集合的创建 先创建对象再加入元素。 在创建空集合的时候只能使用 s = set(),因为 s = {} 创建的是空字典。 1234basket = set()basket.add('apple')basket.add('banana')print(basket) # {'banana', 'apple'} 直接把一堆元素用花括号括起来 {元素1, 元素2, ..., 元素n}。 重复元素在 set 中会被自动被过滤。 12basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}print(basket) # {'banana', 'apple', 'pear', 'orange'} 使用 set(value) 工厂函数,把列表或元组转换成集合。 1234567891011a = set('abracadabra')print(a) # {'r', 'b', 'd', 'c', 'a'}b = set((\"Google\", \"Lsgogroup\", \"Taobao\", \"Taobao\"))print(b) # {'Taobao', 'Lsgogroup', 'Google'}c = set([\"Google\", \"Lsgogroup\", \"Taobao\", \"Google\"])print(c) # {'Taobao', 'Lsgogroup', 'Google'} 访问集合中的值 可以使用 len() 內建函数得到集合的大小。 12s = set(['Google', 'Baidu', 'Taobao'])print(len(s)) # 3 可以使用 for 把集合中的数据一个个读取出来。 123456s = set(['Google', 'Baidu', 'Taobao'])for item in s: print(item) # Baidu# Google# Taobao 可以通过 in 或 not in 判断一个元素是否在集合中已经存在。 123s = set(['Google', 'Baidu', 'Taobao'])print('Taobao' in s) # Trueprint('Facebook' not in s) # True 集合的内置方法 set.add(elmnt) 用于给集合添加元素,如果添加的元素在集合中已存在,则不执行任何操作。 12345678fruits = {\"apple\", \"banana\", \"cherry\"}fruits.add(\"orange\")print(fruits) # {'orange', 'cherry', 'banana', 'apple'}fruits.add(\"apple\")print(fruits) # {'orange', 'cherry', 'banana', 'apple'} set.update(set) 用于修改当前集合,可以添加新的元素或集合到当前集合中,如果添加的元素在集合中已存在,则该元素只会出现一次,重复的会忽略。 1234x = {\"apple\", \"banana\", \"cherry\"}y = {\"google\", \"baidu\", \"apple\"}x.update(y)print(x) # {'cherry', 'banana', 'apple', 'google', 'baidu'} set.remove(item) 用于移除集合中的指定元素。如果元素不存在,则会发生错误。 123fruits = {\"apple\", \"banana\", \"cherry\"}fruits.remove(\"banana\")print(fruits) # {'apple', 'cherry'} set.discard(value) 用于移除指定的集合元素。remove() 方法在移除一个不存在的元素时会发生错误,而 discard() 方法不会。 123fruits = {\"apple\", \"banana\", \"cherry\"}fruits.discard(\"banana\")print(fruits) # {'apple', 'cherry'} set.pop() 用于随机移除一个元素。 1234fruits = {\"apple\", \"banana\", \"cherry\"}x = fruits.pop()print(fruits) # {'cherry', 'apple'}print(x) # banana 由于 set 是无序和无重复元素的集合,所以两个或多个 set 可以做数学意义上的集合操作。 set.intersection(set1, set2) 返回两个集合的交集。 set1 & set2 返回两个集合的交集。 set.intersection_update(set1, set2) 交集,在原始的集合上移除不重叠的元素。 123456789101112a = set('abracadabra')b = set('alacazam')print(a) # {'r', 'a', 'c', 'b', 'd'}print(b) # {'c', 'a', 'l', 'm', 'z'}c = a.intersection(b)print(c) # {'a', 'c'}print(a & b) # {'c', 'a'}print(a) # {'a', 'r', 'c', 'b', 'd'}a.intersection_update(b)print(a) # {'a', 'c'} set.union(set1, set2) 返回两个集合的并集。 set1 | set2 返回两个集合的并集。 123456789a = set('abracadabra')b = set('alacazam')print(a) # {'r', 'a', 'c', 'b', 'd'}print(b) # {'c', 'a', 'l', 'm', 'z'}print(a | b) # {'l', 'd', 'm', 'b', 'a', 'r', 'z', 'c'}c = a.union(b)print(c) # {'c', 'a', 'd', 'm', 'r', 'b', 'z', 'l'} set.difference(set) 返回集合的差集。 set1 - set2 返回集合的差集。 set.difference_update(set) 集合的差集,直接在原来的集合中移除元素,没有返回值。 123456789101112a = set('abracadabra')b = set('alacazam')print(a) # {'r', 'a', 'c', 'b', 'd'}print(b) # {'c', 'a', 'l', 'm', 'z'}c = a.difference(b)print(c) # {'b', 'd', 'r'}print(a - b) # {'d', 'b', 'r'}print(a) # {'r', 'd', 'c', 'a', 'b'}a.difference_update(b)print(a) # {'d', 'r', 'b'} set.issubset(set) 判断集合是不是被其他集合包含,如果是则返回 True,否则返回 False。 set1 <= set2 判断集合是不是被其他集合包含,如果是则返回 True,否则返回 False。 12345x = {\"a\", \"b\", \"c\"}y = {\"f\", \"e\", \"d\", \"c\", \"b\", \"a\"}z = x.issubset(y)print(z) # Trueprint(x <= y) # True set.issuperset(set) 用于判断集合是不是包含其他集合,如果是则返回 True,否则返回 False。 set1 >= set2 判断集合是不是包含其他集合,如果是则返回 True,否则返回 False。 12345x = {\"f\", \"e\", \"d\", \"c\", \"b\", \"a\"}y = {\"a\", \"b\", \"c\"}z = x.issuperset(y)print(z) # Trueprint(x >= y) # True set.isdisjoint(set) 用于判断两个集合是不是不相交,如果是返回 True,否则返回 False。 123456789x = {\"f\", \"e\", \"d\", \"c\", \"b\"}y = {\"a\", \"b\", \"c\"}z = x.isdisjoint(y)print(z) # Falsex = {\"f\", \"e\", \"d\", \"m\", \"g\"}y = {\"a\", \"b\", \"c\"}z = x.isdisjoint(y)print(z) # True 不可变集合 frozenset([iterable]) 返回一个冻结的集合,冻结后集合不能再添加或删除任何元素。 12345a = frozenset(range(10)) # 生成一个新的不可变集合print(a) # frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})b = frozenset('lsgogroup')print(b) # frozenset({'g', 's', 'p', 'r', 'u', 'o', 'l'}) 序列针对序列的内置函数 list(sub) 把一个可迭代对象转换为列表。 1234567891011a = list()print(a) # []b = 'I Love LsgoGroup'b = list(b)print(b) # ['I', ' ', 'L', 'o', 'v', 'e', ' ', 'L', 's', 'g', 'o', 'G', 'r', 'o', 'u', 'p']c = (1, 1, 2, 3, 5, 8)c = list(c)print(c) # [1, 1, 2, 3, 5, 8] tuple(sub) 把一个可迭代对象转换为元组。 1234567891011a = tuple()print(a) # ()b = 'I Love LsgoGroup'b = tuple(b)print(b) # ('I', ' ', 'L', 'o', 'v', 'e', ' ', 'L', 's', 'g', 'o', 'G', 'r', 'o', 'u', 'p')c = [1, 1, 2, 3, 5, 8]c = tuple(c)print(c) # (1, 1, 2, 3, 5, 8) str(obj) 把 obj 对象转换为字符串 123a = 123a = str(a)print(a) # 123 len(s) 返回对象(字符、列表、元组等)长度或元素个数。 12345678a = list()print(len(a)) # 0b = ('I', ' ', 'L', 'o', 'v', 'e', ' ', 'L', 's', 'g', 'o', 'G', 'r', 'o', 'u', 'p')print(len(b)) # 16c = 'I Love LsgoGroup'print(len(c)) # 16 max(sub) 返回序列或者参数集合中的最大值 123print(max(1, 2, 3, 4, 5)) # 5print(max([-8, 99, 3, 7, 83])) # 99print(max('IloveLsgoGroup')) # v min(sub) 返回序列或参数集合中的最小值 123print(min(1, 2, 3, 4, 5)) # 1print(min([-8, 99, 3, 7, 83])) # -8print(min('IloveLsgoGroup')) # G sum(iterable[, start=0]) 返回序列 iterable 与可选参数 start 的总和。 1234print(sum([1, 3, 5, 7, 9])) # 25print(sum([1, 3, 5, 7, 9], 10)) # 35print(sum((1, 3, 5, 7, 9))) # 25print(sum((1, 3, 5, 7, 9), 20)) # 45 sorted(iterable, key=None, reverse=False) 对所有可迭代的对象进行排序操作。 iterable – 可迭代对象。 key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。 reverse – 排序规则,reverse = True 降序 , reverse = False 升序(默认)。 返回重新排序的列表。12345678x = [-8, 99, 3, 7, 83]print(sorted(x)) # [-8, 3, 7, 83, 99]print(sorted(x, reverse=True)) # [99, 83, 7, 3, -8]t = ({\"age\": 20, \"name\": \"a\"}, {\"age\": 25, \"name\": \"b\"}, {\"age\": 10, \"name\": \"c\"})x = sorted(t, key=lambda a: a[\"age\"])print(x)# [{'age': 10, 'name': 'c'}, {'age': 20, 'name': 'a'}, {'age': 25, 'name': 'b'}] reversed(seq) 函数返回一个反转的迭代器。 123456789101112131415161718s = 'lsgogroup'x = reversed(s)print(type(x)) # <class 'reversed'>print(x) # <reversed object at 0x000002507E8EC2C8>print(list(x))# ['p', 'u', 'o', 'r', 'g', 'o', 'g', 's', 'l']t = ('l', 's', 'g', 'o', 'g', 'r', 'o', 'u', 'p')print(list(reversed(t)))# ['p', 'u', 'o', 'r', 'g', 'o', 'g', 's', 'l']r = range(5, 9)print(list(reversed(r)))# [8, 7, 6, 5]x = [-8, 99, 3, 7, 83]print(list(reversed(x)))# [83, 7, 3, 99, -8] enumerate(sequence, [start=0]) 用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。 123456789101112131415seasons = ['Spring', 'Summer', 'Fall', 'Winter']a = list(enumerate(seasons))print(a) # [(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]b = list(enumerate(seasons, 1))print(b) # [(1, 'Spring'), (2, 'Summer'), (3, 'Fall'), (4, 'Winter')]for i, element in a: print('{0},{1}'.format(i, element))# 0,Spring# 1,Summer# 2,Fall# 3,Winter","categories":[],"tags":[{"name":"python","slug":"python","permalink":"https://vincent507cpu.github.io/tags/python/"}]},{"title":"[经验总结]取整与取余","slug":"经验总结-取整与取余","date":"2020-12-19T23:58:43.000Z","updated":"2020-12-20T00:05:36.432Z","comments":true,"path":"2020/12/19/经验总结-取整与取余/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/19/%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93-%E5%8F%96%E6%95%B4%E4%B8%8E%E5%8F%96%E4%BD%99/","excerpt":"最近开始复习、深挖 Python 基础知识,有机会深入探索一些以前没有想过的事情。 我们知道,Python 内置函数 int 和 round 可以把一个浮点数取整,比如 1234>>> int(1.1)1>>> round(1.1)1 它们是如何工作的呢?","text":"最近开始复习、深挖 Python 基础知识,有机会深入探索一些以前没有想过的事情。 我们知道,Python 内置函数 int 和 round 可以把一个浮点数取整,比如 1234>>> int(1.1)1>>> round(1.1)1 它们是如何工作的呢? int 函数1int(x, base=10) 本文中我们不关注一个数的进制,统一按十进制处理。我们来看一个例子: 1234print(int(1.1)) # 1print(int(1.9)) # 1print(int(-1.1)) # -1print(int(-1.9)) # -1 看起来 int 函数就是简单地截取小数点前面的数值。 round 函数1round(x, ndigits=None) 这里 round 的处理近似于四舍五入,我们先看几个没有争议的例子: 1234print(round(1.1)) # 1print(round(1.9)) # 2print(round(-1.1)) # -1print(round(-1.9)) # -2 现在有意思的时候到了,.5 应该如何进位呢? 1234print(round(1.5)) # 2print(round(2.5)) # 2print(round(-1.5)) # -2print(round(-2.5)) # -2 根据官方文档,rounding 会选择被 2 整除的数,所以 1.5 和 2.5 的 rounding 都是 2。当 ndigits 取非 0 值时,这个原则仍然适用。 12print(round(1.55, 1)) # 1.6print(round(1.45, 1)) # 1.4 上述例子中的 ndigits 在为 0 时为 None,取 0 会有什么变化吗? 12round(1.1, ndigits=None) # 1round(1.1, 0) # 1.0 是有变化的!如果 ndigits=None 或者干脆省略,返回一个整数;如果 ndigits=0,返回一个带有一位小数点的整数。无独有偶,numpy,TensorFlow 和 PyTorch 也有 numpy.round,tensorflow.math.round 和 torch.round 与 Python 原生 round 函数对应,它们与原生函数有什么区别呢? 12345678print(np.round(1.5)) # 2.0print(np.round(2.5)) # 2.0print(tf.round(tf.Variable(1.5)).numpy()) # 2.0print(tf.round(tf.Variable(1.5)).numpy()) # 2.0print(torch.round(torch.tensor(1.5)).item()) # 2.0print(torch.round(torch.tensor(2.5)).item()) # 2.0 可以看到,numpy,TensorFlow 和 PyTorch 的 round 函数的工作原理与 Python 原生函数相同。顺便提一句,TensorFlow 和 PyTorch 的 round 函数只能取整,返回一个带有一位小数点的整数;numpy 的 round 函数与 Python 原生函数相同,但是变量名不是 nsdigits 而是 decimals。 Python 里的相除取整(//)与相除取余(%)所谓的相除取整和相除取余很好理解,就是一个除法如果不能整除的话就分别取整除部分和余数部分: 12print(123 // 10) # 12print(123 % 10) # 3 本来很简单的一件小事遇到负数就有意思了: 123456print(-123 // 10) # -13print(123 // -10) # -13print(-123 // -10) # 12print(-123 % 10) # 7print(123 % -10) # -7print(-123 % -10) # -3 这是怎么回事呢? 相除取整我们把几个除法的结果比较一下: 123456789print(123 / 10) # 12.3print(123 // 10) # 12print(int(123 / 10)) # 12print(-123 / 10) # -12.3print(-123 // 10) # -13print(int(-123 / 10)) # -12print(-123 / -10) # 12.3print(-123 // -10) # 12print(int(-123 / -10)) # 12 在没有看函数源代码的情况下,我们可以大概说,// 操作为向下取整。如果想要一个负结果的向上取整的结果,可以使用 int 配合普通除法。负数除以一个负数与正数除以一个正数的结果相同。 相除取余还是比较几个除法取余的结果: 1234print(123 % 10) # 3print(123 % -10) # -7print(-123 % 10) # 7print(-123 % -10) # -3 其实在 Python 中,取余的计算公式与别的语言并没有什么区别:$$r = a - n * [a // n]$$其中 r 是余数,a 是被除数,n 是除数。不过在 a // n 这一步,当 a 是负数的时候,上面提到会向下取整,所以有:$$-123 % 10 = -123 - 10 * (-123 // 10) = -123 - 10 * (-13) = 7$$其余的两个相除取余也可以按照此法推演出来。","categories":[],"tags":[{"name":"经验总结","slug":"经验总结","permalink":"https://vincent507cpu.github.io/tags/%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93/"}]},{"title":"[DSU&阿里云天池] Python训练营 Task 1","slug":"DSU-阿里云天池-Python训练营-Task-1","date":"2020-12-19T14:25:04.000Z","updated":"2020-12-21T16:25:30.461Z","comments":true,"path":"2020/12/19/DSU-阿里云天池-Python训练营-Task-1/","link":"","permalink":"https://vincent507cpu.github.io/2020/12/19/DSU-%E9%98%BF%E9%87%8C%E4%BA%91%E5%A4%A9%E6%B1%A0-Python%E8%AE%AD%E7%BB%83%E8%90%A5-Task-1/","excerpt":"[TOC]今天参加了由阿里云天池开展的 Python 训练营,借这个机会回顾一下 Python 的基础知识,并深入一些以前没有注意到的点。本文为 task 1。 变量、运算符与数据类型注释单行注释# 表示其后面的整行内容为注释,后面的所有文字会被忽略。 123# 这是一个注释print('Hello Word!') # '#'也可以放在一条代码的后面Hello Word!","text":"[TOC]今天参加了由阿里云天池开展的 Python 训练营,借这个机会回顾一下 Python 的基础知识,并深入一些以前没有注意到的点。本文为 task 1。 变量、运算符与数据类型注释单行注释# 表示其后面的整行内容为注释,后面的所有文字会被忽略。 123# 这是一个注释print('Hello Word!') # '#'也可以放在一条代码的后面Hello Word! 多行注释使用 ''' '''' 或 """ """ 表示多行注释,在三个引号内的内容为注释。 123456789101112131415'''这是多行注释,用三个单引号这是多行注释,用三个单引号这是多行注释,用三个单引号'''print('Hello China')# Hello China\"\"\"这是多行注释,用三个双引号这是多行注释,用三个双引号这是多行注释,用三个双引号\"\"\"print('Hello China')# Hello China 运算符算术运算符算术运算符有 +(加),-(减),*(乘),/(除),//(除取整),%(除取余)和 **(幂次)。 1234567print(1 + 2) # 3print(4 - 3) # 1print(5 * 6) # 30print(7 / 8) # 0.875print(9 // 10) # 0,因为 9 不够 1 个 10print(1 % 2) # 1,因为 1 除以 2 余 1print(3 ** 4) # 81,因为 3 的 4 次幂是 81 相除取整和相除取余在涉及到负数的时候变得复杂,详情请见这里。 赋值运算符赋值运算符为算术运算符后面加个 =,在进行运算以后将新值赋给原变量,即为原地操作(in-place)。 12345678910111213141516a = 1b = 2a = a + b # 现在 a 的值为 3a += b # 新的值被原地赋给了 ac = 3c += 1 # 4c -= 2 # 2c *= 3 # 6c /= 4 # 1.5d = 4d **= 2 # 16d //= 3 # 5d %= 4 = 1 比较运算符比较运算符有 >(大于),<(小于),>=(大于等于),<=(小于等于),==(等于)和 !=(不等于),返回 True 或 False。 1234print(1 > 2) # Falseprint(2 < 4) # Trueprint(5 == 5) # Trueprint(6 != 6) # False 逻辑运算符逻辑运算符有 and(和、与),or(或)和 not(非)。 1234print(True) # Trueprint(True and False) # Falseprint(True or False) # Trueprint(not True) # False 只有 and 两边同时为真才返回 True, 取余情况返回 False;只有 or 两边同时为假才返回 False,取余情况返回 True;not 返回与原判断结果相反的结果。 其它操作符is(是),in(存在) 121 in [1, 2, 3] # true'd' in 'abc' # False is 与 == 的区别 is, is not 对比的是两个变量的内存地址 ==, != 对比的是两个变量的值 比较的两个变量,指向的都是地址不可变的类型(str等),那么is,is not 和 ==,!= 是完全等价的。 对比的两个变量,指向的是地址可变的类型(list,dict,tuple等),则两者是有区别的。1234567a, b = 'abc', 'abc'print(a is b, a == b) # True Trueprint(a is not b, a != b) # False Falsea, b = ['abc'], ['abc']print(a is b, a == b) # False Trueprint(a is not b, a != b) # True False 运算符的优先级不同运算符的优先度不同,优先级从高到低为:** > *, /, %, // > +- > & > >, >=, <, <= > ==, != > =, +=, -=, *=, /=, %=, //= > is, not is > in, not in > and, or, not变量与赋值 在使用变量之前,需要对其先赋值。 变量名可以包括字母、数字、下划线、但变量名不能以数字开头。 Python 变量名是大小写敏感的,foo != Foo。 同一行可以赋值多个变量,如 a, b = 1, 2,a 和 b 分别赋予了 1 和 2。123a, b = 1, 2c = a + bprint(c) # 3 数据类型与转换常见的数据类型有:str(字符),int(整型),float(浮点型)和 bool(布尔型)。布尔变量只能是 True 和 False。除了直接给变量赋予 True 和 False 也可以用 bool(X) 让 Python 自行判断,X 可以是一个值(整型,浮点型或布尔型)也可以是一个容器(字符串,列表,元组,集合或字典),判断依据是: 对于数值,0 为 False,非 0 为 True; 对于容器,空容器为 False,非空容器为 True。123456789print(bool(False), bool(True)) # False, Trueprint(bool(0), bool(1)) # False, Trueprint(bool(0.0), bool(1.5)) # False, Trueprint(bool(''), bool('abc')) # False, Trueprint(bool([]), bool([1, 2])) # False, Trueprint(bool(()), bool((1, 2))) # False, Trueprint(bool({}), bool({1, 2})) # False, Trueprint(bool({}), bool({'a':1})) # False, True 获取类型信息: type(X):返回 X 的类型信息 isinstance(var, type):返回 var 是不是 type12345print(type(1)) # <class 'int'>print(type([1, 2])) # <class 'list'>print(isinstance(1, int)) # Trueprint(isinstance({1, 2}), set) # True print() 函数函数的语法为1print(*objects, sep=' ', end='\\n', file=sys.stdout, flush=False) 将对象以字符串表示的方式格式化输出到流文件对象file里。其中所有非关键字参数都按 str() 方式进行转换为字符 串输出; 关键字参数 sep 是实现分隔符,比如多个参数输出时想要输出中间的分隔字符; 关键字参数 end 是输出结束时的字符,默认是换行符 \\n ; 关键字参数 file 是定义流输出的文件,可以是标准的系统输出 sys.stdout ,也可以重定义为别的文件; 关键字参数 flush 是立即把内容输出到流文件,不作缓存。 常用的变量为 sep 和 end。 1234567891011121314151617181920# 修改 sep 变量print('apple', 'banana') # sep = ' '# apple bananaprint('apple', 'banana', sep='&') # apple 和 banana 之间用 & 分隔# apple&banana# 修改 end 变量fruits = ['apple', 'banana']print(\"This is printed with default end\")for item in fruits: print(item)# This is printed with default end# apple# fruitprint(\"This is printed with 'end='&''\")for item in fruits: print(item, end='&')# This is printed with 'end='&''apple&banana& 条件语句if 语句12if expression: exp_true_action 如果 expression 为真,则执行 exp_true_action;否则不会执行。expression 可为多重条件判断。 123if 2 > 1 and not 2 > 3: print('Correct!')# Correct! if-else 语句1234if expression: exp_true_actionelse: exp_false_action 如果 expression 为真,则执行 exp_true_action;否则执行 exp_false_action。 123456color = 'red'if color == 'blue': print('Color is blue.')else: print('Color is not blue.')# Color is not blue. if-elif-else 语句12345678910if expression1: exp1_true_actionelif expression2: exp2_true_action . .elif expressionN: expN_true_actionelse: exp_false_action 分别判断哪一个 expression 为真,哪个为真就执行哪个动作;全为假则执行 exp_false_action。 12345678number = 5if number < 3: print('Number is smaller than 3.')elif number < 7: print('Number is between 3 and 7.')else: print('Number is greater than 7.')# Number is between 3 and 7. assert 语句1assert expression, text 如果 expression 为假,则中断程序运行,抛出 AssertionError 异常,异常信息为 text。 循环语句while 循环12while expression: action 如果 expression 为真,则执行 action,然后再判断 expression 是否为真,若还为真则再执行 action,再判断 expression 是否为真,…,直到 expression 为假,循环结束。 123456i = 0while i < 2: print(i) i += 1# 0# 1 while-else 循环当 while 循环正常执行完的情况下,执行 else 输出,如果 while 循环中执行了跳出循环的语句,比如 break,将不执行 else 代码块的内容。 1234567891011121314151617181920count = 0while count <5: print(f'{count} is less than 5') count += 1else: print(f'{count} is not less than 5')# count is less than 5# count is less than 5# count is less than 5# count is less than 5# count is less than 5# count is not less than 5count = 0while count < 5: print(f'{count} is less than 5') count = 6 breakelse: print(f'count is not less than 5')# 0 is less than 5 for 循环12for 迭代变量 in 迭代器: action for 循环是迭代循环,在 Python 中相当于一个通用的序列迭代器,可以遍历任何有序序列,如 str、list、tuple 等,也可以遍历任何可迭代对象,如 dict。 12345for s in 'abc': print(s)# a# b# c for-else 循环当 for 循环正常执行完的情况下,执行 else 输出,如果 for 循环中执行了跳出循环的语句,比如 break,将不执行 else 代码块的内容,与 while - else 语句一样。 1234567891011121314for i in range(2): print(i)else: print('done')# 0# 1# donefor i in range(2): if i % 2 == 1: break print(i)else: print('done')# 0 range 函数1range([start,] stop[, step=1]) range 这个内置函数的作用是生成一个从 start 参数的值开始到 stop参数的值结束的数字序列,该序列包含 start 的值但不包含 stop 的值。 1234for i in range(1, 5, 2): print(i)# 1# 3 enumerate 函数1enumerate(sequence, [start=0]) 返回枚举对象,可与 for 循环连用。 12345678910letters = ['a', 'b', 'c', 'd']lst = list(enumerate(letters))print(lst)# [(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')]for idx, letter in enumerate(letters, 1): print(idx, letter)# 1 a# 2 b# 3 c# 4 d break 语句break 语句可以跳出当前所在层的循环,例子见上。 continue 语句continue 终止本轮循环并开始下一轮循环。 12345for i in range(3): if not i % 2: continue print(i)# 1 pass 语句pass 语句的意思是“不做任何事”,即不做任何操作,只起到占位的作用,其作用是为了保持程序结构的完整性。尽管 pass 语句不做任何操作,但如果暂时不确定要在一个位置放上什么样的代码,可以先放置一个 pass 语句,让代码可以正常运行。 1234567for i in range(3): if not i % 2: pass print(i)# 0# 1# 2 解析式列表解析式1[expr for val in iterable [if condition]] 返回一个根据解析式条件创建的列表。 12[i for i in range(5) if i % 2 == 1]# [1 ,3] 字典解析式类似列表解析式,只是变量为键值对。 12{i:j for i, j in enumerate('abcde')}# {0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e'} 集合解析式类似列表解析式。 12{i for i in range(5) if i % 2 == 1}# {1, 3} 生成式类似列表解析式,只是返回一个迭代器对象。 12(i for i in range(3) if i % 2 == 1)# <generator object <genexpr> at 0x7fc3aad2b2d0> iter 与 nextiter 将一个可迭代对象转换为一个迭代器,可以使用 next 进行遍历。遍历结束以后若继续迭代,则抛出 StopIteration 异常。 12345678910111213141516iterator = iter(list(range(3)))print(iterator)<list_iterator object at 0x7fc3aa756990>next(iterator)# 0next(iterator)# 1next(iterator)# 2next(iterator)---------------------------------------------------------------------------StopIteration Traceback (most recent call last)<ipython-input-74-4ce711c44abc> in <module>----> 1 next(iterator)StopIteration: 异常处理Python 常用标准异常 AssertionError:Assertion 的条件为 False AttributeError:尝试访问未知的对象属性 IndexError:索引超出序列的范围 KeyError:字典中查找一个不存在的关键字 NameError:尝试访问一个不存在的变量 TypeError:不同类型间的无效操作 ValueError:传入无效的参数try-except 语句1234try: expressionexcept Exception[ as reason]: action try 语句按照如下方式工作: 首先,执行 try 子句(在关键字 try 和关键字 except 之间的语句) 如果没有异常发生,忽略 except 子句,try 子句执行后结束。 如果在执行 try 子句的过程中发生了异常,那么 try 子句余下的部分将被忽略。如果异常的类型和 except 之后的名称相符,那么对应的 except 子句将被执行。最后执行try - except 语句之后的代码。 如果一个异常没有与任何的 except 匹配,那么这个异常将会传递给上层的 try 中。 一个 try 语句可能包含多个 except 子句,分别来处理不同的特定的异常。最多只有一个分支会被执行。123456789101112131415try: int(\"abc\") s = 1 + '1' f = open('test.txt') print(f.read()) f.close()except OSError as error: print('打开文件出错\\n原因是:' + str(error))except TypeError as error: print('类型出错\\n原因是:' + str(error))except ValueError as error: print('数值出错\\n原因是:' + str(error))# 数值出错# 原因是:invalid literal for int() with base 10: 'abc' try-except-finally 语句123456try: 检测范围except Exception[as reason]: 出现异常后的处理代码finally: 无论如何都会被执行的代码 不管try子句里面有没有发生异常,finally子句都会执行。1234567891011121314151617181920212223242526272829303132333435def divide(x, y): try: result = x / y print(\"result is\", result) except ZeroDivisionError: print(\"division by zero!\") finally: print(\"executing finally clause\")divide(2, 1)# result is 2.0# executing finally clausedivide(2, 0)# division by zero!# executing finally clausedivide(\"2\", \"1\")# executing finally clause---------------------------------------------------------------------------TypeError Traceback (most recent call last)<ipython-input-79-16805cf48925> in <module> 15 # division by zero! 16 # executing finally clause---> 17 divide(\"2\", \"1\") 18 # executing finally clause 19 # TypeError: unsupported operand type(s) for /: 'str' and 'str'<ipython-input-79-16805cf48925> in divide(x, y) 1 def divide(x, y): 2 try:----> 3 result = x / y 4 print(\"result is\", result) 5 except ZeroDivisionError:TypeError: unsupported operand type(s) for /: 'str' and 'str' try-except-else 语句123456try: 检测范围except: 出现异常后的处理代码else: 如果没有异常执行这块代码 如果 except语句没有执行,则继续执行 else 语句;若执行则跳过 else 语句。1234567891011121314151617181920dict1 = {'a': 1, 'b': 2, 'v': 22}try: x = dict1['y']except KeyError: print('键错误')except LookupError: print('查询错误')else: print(x)# 键错误dict1 = {'a': 1, 'b': 2, 'v': 22}try: x = dict1['a']except KeyError: print('键错误')except LookupError: print('查询错误')else: print(x)# 1 raise 语句抛出一个错误异常。1234567raise NameError()---------------------------------------------------------------------------NameError Traceback (most recent call last)<ipython-input-80-1d90210dd9ab> in <module>----> 1 raise NameError()NameError:","categories":[],"tags":[{"name":"基础","slug":"基础","permalink":"https://vincent507cpu.github.io/tags/%E5%9F%BA%E7%A1%80/"}]},{"title":"[工作站] 我的第一台个人深度学习工作站之配置环境篇","slug":"工作站-我的第一台个人深度学习工作站之配置环境篇","date":"2020-11-03T04:17:30.000Z","updated":"2020-11-10T02:30:32.045Z","comments":true,"path":"2020/11/02/工作站-我的第一台个人深度学习工作站之配置环境篇/","link":"","permalink":"https://vincent507cpu.github.io/2020/11/02/%E5%B7%A5%E4%BD%9C%E7%AB%99-%E6%88%91%E7%9A%84%E7%AC%AC%E4%B8%80%E5%8F%B0%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%E4%B9%8B%E9%85%8D%E7%BD%AE%E7%8E%AF%E5%A2%83%E7%AF%87/","excerpt":"工作站的配置有两种方式: 传统方法; Docker。 理论上 Docker 更好一点,因为 nvidia-docker2 是一个已经配置好的环境,不需要手动安装 CUDA 和 cuDNN,而且不需要了可以删除,更新也很方便。然而本文中将采用传统方法对工作站进行配置。使用 Docker 可以参考这篇文章。","text":"工作站的配置有两种方式: 传统方法; Docker。 理论上 Docker 更好一点,因为 nvidia-docker2 是一个已经配置好的环境,不需要手动安装 CUDA 和 cuDNN,而且不需要了可以删除,更新也很方便。然而本文中将采用传统方法对工作站进行配置。使用 Docker 可以参考这篇文章。 安装系统我选择的是 Ubuntu 20.04。我在 MacOS 上制作引导盘,方法在这里。一路安装都很简单,有几个建议: 在选择安装模式的时候选择“Minimal Installation”,不安装更新和第三方软件,一会系统安装好了以后手动更新。 在分区时选择默认分区就好了,不需要 LVM,不要选择 ZFS。 在设置用户的时候选择 “Log in automatically”。 系统更新安装好了 Ubuntu 并设置好网络以后,我们要做的第一件事就是更新系统、安装基础组件。工作站配置好了以后就不要轻易更新了,以免破坏环境。 12>>> sudo apt-get update && sudo apt-get upgrade && sudo apt-get autoremove>>> sudo apt install build-essential vim git curl wget make 设置 SSH 安装 SSH:sudo apt install Openssh-server 启动 SSH:sudo /etc/init.d/ssh start 开机自动启动 SSH:sudo systemctl enable ssh 在客户端生成 SSH 秘钥ssh-keygen 或 强秘钥 ssh-keygen -t rsa -b 4096 在客户端上传秘钥至服务器:ssh-copy-id remote-user@server-ip 关闭 SSH 密码登录 sudo vim /etc/ssh/sshd_config找到 #PasswordAuthentication yes 修改为 PasswordAuthentication no找到 ChallengeResponseAuthentication 修改为 ChallengeResponseAuthentication no 重启 SSH 服务sudo service ssh restart 或 sudo systemctl restart ssh (可选)备份 SSH keycp ~/.ssh/id_rsa* /path/to/safe/location/ 设置好 SSH 以后,我们可以在个人电脑上登录工作站。 设置防火墙下面来设置一下防火墙,防止有坏人来捣乱。 123>>> sudo ufw allow OpenSSH>>> sudo ufw allow 22 # 开放端口 22>>> ufw enable 安装显卡驱动Ubuntu 提供了一个很简单的命令来安装显卡驱动。 12>>> sudo ubuntu-drivers autoinstall>>> sudo reboot # 重启工作站 安装 cuda 11.1这里安装最新的 CUDA Toolkit 11.1。记得安装的时候把”安装驱动程序“取消。 安装 cuda12>>> wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda_11.1.1_455.32.00_linux.run>>> sudo sh cuda_11.1.1_455.32.00_linux.run 将以下内容加进 /etc/profile:12export PATH=/usr/local/cuda-11.1/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64$LD_LIBRARY_PATH 重启电脑 sudo reboot 检查cuda 版本123456>>> nvcc -Vnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2020 NVIDIA CorporationBuilt on Mon_Oct_12_20:09:46_PDT_2020Cuda compilation tools, release 11.1, V11.1.105Build cuda_11.1.TC455_06.29190527_0 测试1234567891011121314>>> cuda-install-samples-11.1.sh ~Copying samples to /home/nlp/NVIDIA_CUDA-11.1_Samples now...Finished copying samples.>>> cd /home/nlp/NVIDIA_CUDA-11.1_Samples/>>> make # 耗时约 20 分钟>>> ./1_Utilities/deviceQuery/deviceQuery # 如果通过测试会显示如下信息./1_Utilities/deviceQuery/deviceQuery Starting... CUDA Device Query (Runtime API) version (CUDART static linking)Detected 2 CUDA Capable device(s)...deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.0, CUDA Runtime Version = 11.1, NumDevs = 2Result = PASS 安装 cuDNN 8.0.4安装以前要先注册新用户。 在注册后,到 https://developer.nvidia.com/rdp/cudnn-download 下载 libcudnn8_8.0.4.30-1+cuda11.1_amd64.deb,libcudnn8-dev_8.0.4.30-1+cuda11.1_amd64.deb 和 libcudnn8-samples_8.0.4.30-1+cuda11.1_amd64.deb。可以在个人电脑上下载然后 scp 给工作站,下同。 解包:1>>> sudo dpkg -i libcudnn* 检查 cudnn:1234567>>> cp -r /usr/src/cudnn_samples_v8/ $HOME>>> cd $HOME/cudnn_samples_v8/mnistCUDNN>>> make clean && make...>>> ./mnistCUDNN...Test passed! 安装 Miniconda没必要安装 Anaconda(用不到 GUI),安装 Miniconda 就可以了。 到 https://docs.conda.io/en/latest/miniconda.html#linux-installers 下载 Miniconda3 Linux 64-bit。运行123>>> bash Miniconda3-latest-Linux-x86_64.sh>>> source ~/.bashrc 更新 bash 环境>>> conda update conda 安装虚拟环境1>>> conda create --name nlp python=3.8 配置远程 Jupyter lab安装 Jupyter lab 后可以选择 Jupyter lab 还是 Jupyter notebook,方法是在登录的域名后面加 “/lab?” 或者 “/tree?”。 生成配置文件:123>>> pip install jupyterlab nodejs>>> jupyter lab --generate-config # 生成配置文件Writing default config to: /home/nlp/.jupyter/jupyter_notebook_config.py 设置登录密码:12345# 首先进入 python 命令行>>> python3 # 在命令行下输入>>> from notebook.auth import passwd; passwd()# 按照提示输入密码,这是 jupyter 的登陆密码 设置成功会出现形如下面的哈希(hash)密码, 保存好,下面会用到1'argon2:$argon2id$v=19$m=10240,t=10,p=8$mYbUFvU1Csiwz3UGlsRwEA$q7r2mSN5RbFwjbhZCew4fg' 配置 Jupyter lab:12345678>>> sudo vim /home/nlp/.jupyter/jupyter_notebook_config.py # 配置 Jupyter labc.NotebookApp.ip = '*'c.NotebookApp.token = ''c.NotebookApp.password = 'argon2:$argon2id$v=19$m=10240,t=10,p=8$mYbUFvU1Csiwz3UGlsRwEA$q7r2mSN5RbFwjbhZCew4fg'c.NotebookApp.open_browser = Falsec.NotebookApp.notebook_dir = '/home/nlp/Documents' # 设置默认根目录c.NotebookApp.allow_remote_access = Truec.NotebookApp.port = 8889 # 设置端口 防火墙开放端口1>>> sudo ufw allow 8889 注册虚拟环境123>>> conda activate nlp>>> conda install ipykernel notebook>>> python -m ipykernel install --user --name nlp --display-name \"NLP\" 设置以后在 SSH 状态中输入 “jupyter lab” 后在浏览器地址栏里输入 “域名:IP” 就可以启动 Jupyter lab 了。 因为工作站很少关机,在 ssh 以后输入 nohup jupyter lab & 就可以让 Jupyter lab 保持在后台运行。 设置 Jupyter notebook 开机自动在后台启动(可选)这里要注意是开机自动启动的是 Jupyter notebook,设定好以后就不能启动 Jupyter lab 了。我更喜欢 Jupyter lab,所以调试好以后又删掉了。反正工作站不关机,把 Jupyter lab 挂在后台也不麻烦。 在 terminal 中输入1>>> sudo vim /lib/systemd/system/ipython-notebook.service 在编辑器里粘贴如下:12345678910111213[Unit] Description=IPython notebook[Service] Type=simple PIDFile=/var/run/ipython-notebook.pid # 环境是 Jupyter 的默认环境,可以在编辑器内更改 Environment=\"PATH=/home/*用户名*/miniconda3/envs/*kernel 环境名*/bin:/home/*用户名*/miniconda3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin\" ExecStart=/home/*用户名*/miniconda3/envs/*kernel 环境名*/bin/jupyter-notebook --no-browser --notebook-dir=/home/nlp/Documents --NotebookApp.token=*token* --ip=0.0.0.0 User=*用户名* Group=*用户组名* WorkingDirectory=/home/*用户名* # 此处可根据需要自由设定[Install] WantedBy=multi-user.target 依次输入1234>>> sudo systemctl daemon-reload>>> sudo systemctl enable ipython-notebookCreated symlink /etc/systemd/system/multi-user.target.wants/jupyter.service → /lib/systemd/system/jupyter.service.>>> sudo systemctl start ipython-notebook 验证 Jupyter notebook 是否设置成功,输入sudo systemctl status ipython-notebook,成 成功的话会输出如下类似的信息:12345678910111213141516● ipython-notebook.service - IPython notebook Loaded: loaded (/lib/systemd/system/ipython-notebook.service; enabled; vendor preset: enabled) Active: active (running) since Mon 2020-11-02 20:53:51 EST; 7s ago Main PID: 3838 (jupyter-noteboo) Tasks: 1 (limit: 19026) Memory: 60.1M CGroup: /system.slice/ipython-notebook.service └─3838 /home/nlp/miniconda3/envs/notebook_env/bin/python /home/nlp/miniconda3/envs/notebook_env/bin/jupyter-notebook --no-browser --notebook-dir=/home/nlp --NotebookApp.token=argon2:$argon2id$v=1>Nov 02 20:53:51 WORKSTATION systemd[1]: Started IPython notebook.Nov 02 20:53:51 WORKSTATION jupyter-notebook[3838]: [I 20:53:51.858 NotebookApp] [nb_conda_kernels] enabled, 3 kernels foundNov 02 20:53:52 WORKSTATION jupyter-notebook[3838]: [I 20:53:52.036 NotebookApp] Serving notebooks from local directory: /home/nlpNov 02 20:53:52 WORKSTATION jupyter-notebook[3838]: [I 20:53:52.037 NotebookApp] Jupyter Notebook 6.1.4 is running at:Nov 02 20:53:52 WORKSTATION jupyter-notebook[3838]: [I 20:53:52.037 NotebookApp] http://WORKSTATION:8889/?token=...Nov 02 20:53:52 WORKSTATION jupyter-notebook[3838]: [I 20:53:52.037 NotebookApp] or http://127.0.0.1:8889/?token=...Nov 02 20:53:52 WORKSTATION jupyter-notebook[3838]: [I 20:53:52.037 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation). 安装 Python 包、配置 Jupyter、Vim、IDE现在工作站基本上配置好啦!之后安装各种包,配置 Jupyter、Vim 和各种 IDE 就看各位的喜好啦。我用的 IDE 是 VS code(不想搞破解版 PyCharm),安装 Remote - SSH 就可以远程炼丹啦。 Bonus: Benchmark工作站配置好了,来简单做一下 benchmark。作为对照的是 Google Colab,Colab 上的 GPU 是随机分配的,这次分配到的是 Tesla T4。脚本在此。每个 epoch 用时大约 40 分钟。 1234567891011+-----------------------------------------------------------------------------+| NVIDIA-SMI 455.32.00 Driver Version: 418.67 CUDA Version: 10.1 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. || | | MIG M. ||===============================+======================+======================|| 0 Tesla T4 Off | 00000000:00:04.0 Off | 0 || N/A 45C P8 11W / 70W | 0MiB / 15079MiB | 0% Default || | | ERR! |+-------------------------------+----------------------+----------------------+ 然后分别使用一张 2060 和两张 2060 显卡在工作站上测试,脚本在此。batch size 设置为 64 的话会爆显存,所以设置成了 32。单卡在运行时的显卡状态为 123456789101112131415+-----------------------------------------------------------------------------+| NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. || | | MIG M. ||===============================+======================+======================|| 0 GeForce RTX 2060 Off | 00000000:08:00.0 On | N/A || 90% 83C P2 163W / 170W | 5077MiB / 5926MiB | 96% Default || | | N/A |+-------------------------------+----------------------+----------------------+| 1 GeForce RTX 2060 Off | 00000000:09:00.0 Off | N/A || 46% 44C P8 7W / 170W | 9MiB / 5934MiB | 0% Default || | | N/A |+-------------------------------+----------------------+----------------------+ 每个 epoch 用时大约 27 分钟。双卡在运行时的状态为 123456789101112131415+-----------------------------------------------------------------------------+| NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. || | | MIG M. ||===============================+======================+======================|| 0 GeForce RTX 2060 Off | 00000000:08:00.0 On | N/A || 92% 84C P2 162W / 170W | 5702MiB / 5926MiB | 93% Default || | | N/A |+-------------------------------+----------------------+----------------------+| 1 GeForce RTX 2060 Off | 00000000:09:00.0 Off | N/A || 88% 82C P2 161W / 170W | 3148MiB / 5934MiB | 34% Default || | | N/A |+-------------------------------+----------------------+----------------------+ 每个 epoch 用时大约 17 分钟,脚本在此。可以看到两张显卡的显存的利用不同(5702MiB vs 3146MiB),这种不平衡已经超过本文的讨论范围了。 可以看到,Colab 唯一的优势在于显存比较大,算力被入门级的 2060 完爆。我的这台工作站待机时两个 GPU 功耗为 17W,24 小时待机也没有负担。根据谣言,3060 Ti 的性能与 2080 Super 相当,那么根据 Tom’s Hardware 的 GPU 性能排行榜,3060 Ti 相比 2060 预计有 50% 的性能提升,使用一张 3060 Ti 时每个 epoch 用时会在 20 分钟左右,相比 Colab 时间减少了一半。一个字,香!","categories":[],"tags":[{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"}]},{"title":"[工作站] 我的第一台个人深度学习工作站之硬件篇","slug":"工作站-我的第一台个人深度学习工作站之硬件篇","date":"2020-11-01T21:32:01.000Z","updated":"2020-11-02T02:59:05.373Z","comments":true,"path":"2020/11/01/工作站-我的第一台个人深度学习工作站之硬件篇/","link":"","permalink":"https://vincent507cpu.github.io/2020/11/01/%E5%B7%A5%E4%BD%9C%E7%AB%99-%E6%88%91%E7%9A%84%E7%AC%AC%E4%B8%80%E5%8F%B0%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%E4%B9%8B%E7%A1%AC%E4%BB%B6%E7%AF%87/","excerpt":"工作站配置我的计划是使用入门级显卡配一台双 GPU 工作站使用两年,预留两年之内升级一次的空间,在保证性能和可扩展性的前提下,够用就好。经过若干次修改,最终的配置为:","text":"工作站配置我的计划是使用入门级显卡配一台双 GPU 工作站使用两年,预留两年之内升级一次的空间,在保证性能和可扩展性的前提下,够用就好。经过若干次修改,最终的配置为: CPU:Ryzen 3 3100 可能很多人觉得现在都 2020 年了,还用 4 核 CPU 太落伍。其实我想买 3600,但是没货,不得已买了 3100(不想多花钱买 3600X)。在深度学习中 4 核 CPU 搭配 2 块 GPU 已经足够了。不过在考虑明年升级成 5600。 散热器:九州风神 GAMMAXX 200T 虽然 CPU 的原装散热器已经可以满足需要,我买它的原因是有折扣,就算为明年换 5600 提前买好了。 主板:Asus Prime X570-Pro 随便一块 X570 主板基本都有两条 PCI-E 插槽(ITX 小主板除外),不过通常是 16-4 通道的配置。虽然 PCI-E 4.0 下 x4 应该不是瓶颈,用起来心里还是有点不舒服。所以选择了支持 SLI 的主板中最便宜的一块。 内存:OLOy DDR4 RAM 16GB (2x8GB) 3200 MHz OLOy 是一个新牌子,买它完全是因为便宜。Tom Hardware 认为它的产品质量还可以,先买来试试。 显卡:两块 EVGA 06G-P4-2066-KR GeForce RTX 2060 KO Gaming 我的目标是 3060 Ti,但是还没有发布,所以先用两块 2060 当亮机卡。 硬盘:Crucial P1 500GB 这块硬盘的性能很一般,买它因为折扣很大(超过一半),而且再不济也是一块 NVMe 硬盘,性能与顶级 PCI-E 3.0 NVMe 硬盘最多差 10%,完全够用。 还有一块差不多 10 年前买的 3T 硬盘,里面有很多以前的文件,现在读不出来了,把外壳拿掉直接插电脑上看看能不能读出来。 电源:Thermaltake ToughPower 750W 80 Plus Gold Semi Modular Power Supply 买它的原因也是有折扣,而且 750W 带 5600 + 两块 3060 Ti 应该也没问题。 显示器、键盘、鼠标用现成的,机箱买的最便宜的,另外买了一个 150M 的 WiFi 接收器。这就是全部配件了: 关于配件的选择请参考: 《2020 年 10 月的多 GPU 深度学习工作站配置指南》 《2020 年 10 月的单 GPU 深度学习工作站配置指南》升级计划 第一次升级:2021 年上半年把 CPU 升级到 5600,如果 3100 用的还行,就不升级了。 传说中 NVIDIA 计划在 12 月份发布 16GB 显存的 3070 Super,不过现在有消息说计划已经取消。那就把显卡换成两块 8GB 显存的 30 系列的最低款(目前可能是 3060 Ti)。内存升级到 32GB。 第二次升级:2022 年下半年如果两年以后进步很大,这台电脑不能满足需要了,就再升级一次。这应该是一台全新的工作站,目标是高性能,所有配件都要换,应该可以使用五年。 CPU:Ryzen 9 5950 的下一代 内存:64 ~ 128 GB 显卡:2 块带水冷的 3090 显卡 硬盘:1 块 2T SSD 硬盘 电源:1200W 电源 机箱:具有风道设计的机箱 装机过程首先要了解需要连接哪些线,可以先看说明书。这台工作站没有任何灯效,所以少了一点麻烦。主板上需要连接的线有: 24 pin 主板供电(图中右侧 1) 8 pin CPU 供电(图中上侧 1) 4 pin CPU 风扇供电(图中上侧 3) 4 pin 机箱风扇供电(图中中部左侧 3) 机箱前面板 USB 3 接口(图中中部右侧 9) 机箱控制面板排针(图中下方右侧 14) 机箱前面板 USB 2.0 接口(图中下方中部 18) 机箱音频连接排针(虽然我不用工作站的声音,还是接上了。图中下方左侧 21) 还有两张显卡需要两条 8 pin 供电线,与电源相连。这些插口都有防呆设计,插反了是插不进去的。 CPU先把拨杆拉开。主板的 CPU 插槽和 CPU 的一角上都有一个三角标记,对准了把 CPU 放下去,拉下拨杆。拉下拨杆的时候有一点阻力,稍微用力一点就可以了。 内存现在的电脑都是双通道内存设计,假如有 4 个内存插槽需要插两根内存,要以 1-3 或 2-4 这样插。扳开卡扣,看准了方向把内存插紧,听到“咔”的一声就插好了。插反了是插不进去的。 SSD 硬盘有的主板上有一些 SSD 插槽有扇热片,需要先把扇热片取下来。SSD 硬盘一般是 2280 尺寸,对应离插槽第 3 远的螺丝。先要拧一颗加高螺丝(用手就可以拧),然后将 SSD 硬盘插进去,拧上固定螺丝。扇热片上一般有散热胶贴纸,先把贴纸撕下来,再把扇热片放回去。 CPU 散热器CPU 插槽的两边有两个卡扣,将 CPU 散热器卡在上面就可以了,需要用点力气。需要插第一根供电线了。 把电源放进机箱里并固定在把电源放进机箱前可以把要用的线先接上。电源分全模组、半模组和非模组三种。非模组电源是所有线事先连接在电源上,全模组电源是所有线都根据需要连接,半模组电源介于二者之间。我的电源是半模组电源,需要再连接两条 8 pin 供电线。现在可以把电源放进机箱了。 把主板放进机箱并固定把主板放进机箱前需要先看看那些螺丝孔需要基座螺丝,需要的话要先拧上。我的这张主板一共需要固定 9 颗螺丝,上中下各 3 颗。 连接所有信号线和供电线这应该是整个过程里最麻烦的一步了,然而说明书和接头上都有标记,耐心一点一根根插上就行了。 插上显卡并连接供电首先把机箱上对应位置的挡板拿下去,把 PCI-E 插槽右侧的卡扣扳下去,把显卡插上听见“咔”的一声就行了。然后在显卡上插上对应数量的供电线。 理线这一步不是必须的,但是规整的内部空间有利于风道的畅通。一般电源和机箱会送几根 zip tie 或者尼龙扣,用它们把线捆在一起就可以了。正面的理线在上图里有,下面是背部的理线:至此电脑就组装完了,很简单吧?在合上机箱盖之前可以先把电脑点亮测试一下:这绿油油的光好像魔兽世界西瘟疫之地上的绿光。如果连接到显示器上,应该可以看到开机自检(这里显示的 BIOS):至此工作站就组装完毕了,下一篇来谈谈环境设置。","categories":[],"tags":[{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"}]},{"title":"[工作站] 2020 年 10 月的多 GPU 深度学习工作站配置指南","slug":"工作站-2020-年-10-月的多-GPU-深度学习工作站配置指南","date":"2020-10-11T01:58:39.000Z","updated":"2020-10-25T00:42:15.938Z","comments":true,"path":"2020/10/10/工作站-2020-年-10-月的多-GPU-深度学习工作站配置指南/","link":"","permalink":"https://vincent507cpu.github.io/2020/10/10/%E5%B7%A5%E4%BD%9C%E7%AB%99-2020-%E5%B9%B4-10-%E6%9C%88%E7%9A%84%E5%A4%9A-GPU-%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%E9%85%8D%E7%BD%AE%E6%8C%87%E5%8D%97/","excerpt":"本文接上一篇《2020 年 10 月的单 GPU 深度学习工作站配置指南》,探讨多 GPU 工作站的搭建。很多在单 GPU 工作站中不甚重要的因素在多 GPU 工作站中变得举足轻重。","text":"本文接上一篇《2020 年 10 月的单 GPU 深度学习工作站配置指南》,探讨多 GPU 工作站的搭建。很多在单 GPU 工作站中不甚重要的因素在多 GPU 工作站中变得举足轻重。 本文主要参考了以下文章: Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning A Full Hardware Guide to Deep Learning Deep Learning Hardware Deep Dive – RTX 3090, RTX 3080, and RTX 3070 What’s the Difference Between a Blower and an Open-Air GPU Cooler? 搭建多 GPU 工作站的要点是避免显卡过热与电源过载,其它很多方面与单 GPU 工作站的原则相似,没有提到的方面(包括显卡的选择)请参考《2020 年 10 月的单 GPU 深度学习工作站配置指南》。 双 GPU 工作站PCI-E 带宽随着 GPU 的增加,模型训练的并行程度和 GPU 之间的数据传输增加,PCI-E 带宽变得越来越重要。然而对于双 GPU 工作站来说,PCI-E 带宽的重要性仍然有限。已经有人对 PCI-E 3.0 下 x16 和 x8 通道进行过测试,结论是影响非常小。那么在 x4 甚至 x2 或 x1 时带宽对深度学习有影响吗?目前还不清楚。 一个现实是 CPU 拥有的 PCI-E 通道是有限的: CPU 支持 PCI-E 等级 通道数 Ryzen 3000/5000 4.0 24 Core 3.0 20 而有限的通道中至少要给 NVME 存储器分配 4~8 个通道。既然 x8 通道对深度学习没什么影响,双 GPU 完全可以使用双 x8 通道。这里支持 PCI-E 4.0 的优势显示出来了,一个 x8 PCI-E 4.0 通道相当于一个 x16 PCI-E 3.0 通道(30 系列显卡才支持 PCI-E 4.0)。双 x8 PCI-E 通道并联被 NVIDIA 称为 SLI 技术,高端芯片组 X570 和 Z490 都支持 SLI,所以在买主板的时候留意是否支持 SLI 就可以了。根据我的经验,只要主板上的两个 PCI-E 插槽都有金属包装,很可能就支持 SLI: 支持 SLI 的主板上如果还有第三个 PCI-E x16 插槽,这个插槽的通道要么走主板芯片要么与第二个插槽平分通道。比如上图,如果在最上面的两个插槽的任意一个中插一张卡,则为 x16 通道;在上面两个插槽插两张卡,则为 8-8 通道;三个插槽都插卡,则为 8-8-4 或 8-4-4 通道。 X570 主板中支持双路 x8 PCI-E 的型号有: ASRock X570 Phantom Gaming X ASRock X570 Creator ASRock X570 TAICHI ASUS PRIME X570-PRO ASUS AMD AM4 ROG Crosshair VIII Hero ASUS ROG Strix X570-E Gaming ASUS ROG Strix X570-F Gaming GIGABYTE X570 AORUS PRO GIGABYTE X570 AORUS ULTRA GIGABYTE X570 AORUS MASTER GIGABYTE X570 AORUS XTREME MSI MEG X570 ACE Gaming MSI MEG X570 UNIFY MSI MEG X570 GODLIKE MSI MEG X570 GODLIKE 有 4 个 x16 PCI-E 插槽,前三个可以以 8-4-4 通道数连接;第四个 PCI-E 插槽走主板芯片以 4 条通道连接(8-4-4-4)。 Z490 主板中支持双路 x8 PCI-E 的型号有: ASRock Z490 Taichi ASUS ProART Z490-CREATOR ASUS ROG STRIX Z490-E GAMING ASUS ROG MAXIMUS XII APEX ASUS ROG MAXIMUS XII FORMULA GIGABYTE Z490 VISION GIGABYTE Z490 AORUS PRO AX GIGABYTE Z490 AORUS ULTRA GIGABYTE Z490 AORUS MASTER GIGABYTE Z490 AORUS ULTRA MSI MPG Z490 GAMING CARBON MSI MEG Z490 UNIFY MSI MEG Z490 ACE X570 和 Z490 芯片组是最高端的芯片组,比 B550 和 B460 贵一些;支持 SLI 的功能算是进阶设计,价格要更贵一些。 CPU、内存、电源的选择 理论上 4 核 CPU 足够,如果有很多预处理任务也可以买 6 核的 3600 和 10400F 或者 8 核的 3700x 和 10700F,再多就没有必要。 内存的大小看实际需求和 pipeline 设计,要么不小于单卡显存 + 6~8G,要么不小于显存之和 + 6~8G。 如果使用 4 核 CPU 配两张 3070 显卡,可选 750W 或 850W 电源;如果使用 6 核 CPU 配两张 3080/3090 显卡,至少要使用 1000W 电源。 散热如果安装两块 3070,发热与两块 2080 Ti 差不多,散热应该不是大问题;如果安装两块 3080 或 3090,请参考下面的散热部分。 三 GPU 工作站PCI-E 带宽如果希望三张卡都有至少 x8 带宽,Core 和 Ryzen 就不能满足了,必须是 Core X-Series,Xeon,Threadripper 或者 EPYC。我对 Xeon 和 EPYC 完全不了解,此处略。 CPU 支持 PCI-E 等级 通道数 Threadripper 4.0 64 10 代 Core X-Series 3.0 48 若主板上有三个 PCI-E 插槽,Intel X299 和 AMD sTRX40 主板都支持 16-8-16 分配;若有第四个插槽,sTRX40 可以支持 16-8-16-8 分配,而 X299 支持 8-8-8-8 分配。此处 AMD 的优势又体现出来了,不要说 Threadripper 支持更多的 PCI-E 通道,而且 PCI-E 4.0 x8 已经相当于全速 PCI-E 3.0 x16。Threadripper 唯二的缺点是贵和功耗大(然而未必比 Core X-Series 的满载功耗更大)。 ASRock TRX40 TAICHI 主板支持 16-16-16 通道分配,是 Threadripper 的最佳搭配。 供电常见的 CPU 与 GPU 的热设计功率(TDP)为: CPU TDP Threadripper 280W Core X-Series 165W 新 30 系列 GPU 的热设计功率为: GPU TDP RTX 3090 350W RTX 3080 320W RTX 3070 220W 如果使用 Core 10920X 搭配三块 3070,推荐 1000W 电源;其它搭配推荐 1500W 电源。 散热GPU 到了三块,散热开始需要重视,不然显卡会因为过热自动降频。显卡的散热方式有风冷和水冷两种,风冷又分涡轮式散热(blower)和开放式两种(open-air)两种。 开放式散热:由风扇吸入冷空气,冷空气在散热片上进行热交换,热空气在 GPU 的周围排出。 涡轮式散热:整个 PCB 板被包裹起来,冷空气被风扇吸入后在散热片上进行热交换后在 GPU 后挡板处排出。 水冷散热:冷水被水泵抽到芯片上吸收芯片的热量,热水随后被抽到散热片与冷空气进行热交换。 使用开放式散热的显卡会面临热空气被其它显卡吸收的问题,会降低散热的效果,极端情况下会造成显卡过热自动降频,从而降低性能。如果显卡之间有超过 1 个 PCI-E 空位,则基本不会存在散热的问题,但是这样由于空间的限制可能仅可以使用双卡;对于三卡工作站而言,涡轮式散热显卡或水冷散热显卡是必需的,然而是否可行仍需实践。 风道与机箱的选择当使用了 3 块以上的 GPU 以后,机箱的风道变得很重要,否则热空气会在机箱内积累,一样会造成显卡过热。一款合适的深度学习服务器机箱应该有充足的内部空间和足够多放风扇的位置。我推荐两款机箱: Thermaltake Core X71 这个机箱的优点是可以装下足够多的风扇(上面 3 个,前面 2 个,下面 3 个,后面 1 个),非常适合多个水冷设备。 Corsair Carbide Series Air 540 这个机箱的优点是内部空间非常充足,可以安装风扇的位置也不少(上面 3 个,前面 2 个,后面 1 个)。 显卡选择如果显卡之间有足够的空间,那么可以使用开放式散热显卡;3 块以上显卡空间有限,需要使用涡轮式散热显卡或水冷显卡。现在各个厂商只发布了开放式散热设计的显卡,下面的型号可能还没有公开发布: 涡轮式散热显卡: GIGABYTE MSI GeForce RTX 3090 TURBO 24G 水冷散热显卡: Colorful iGame Neptune GeForce RTX 30 系列 EVGA GeForce RTX 3080 10GB HYDRO COPPER EVGA GeForce RTX 3090 KINGPIN Hybrid 四 GPU 工作站供电如果使用四张显卡,应该把主机放在专业机房内;在普通民用环境中目前只可能使用四张 3070 显卡,推荐 1500W 电源。 美国电脑供应商 Puget Systems 近期发表了一篇研究搭建一台拥有 1~4 张 GIGABYTE MSI GeForce RTX 3090 TURBO 24G 显卡的工作站的可能性的博客。当使用 4 块 3090 显卡时,使用了双 1600W 供电。在美国,3 块 3090 已经接近了普通民用电路的供电极限。 主板的选择如果使用四张显卡,最好每张显卡都有 8 条通道。对于 Threadripper 来说,目前唯一的选择是 Gigabyte TRX40 DESIGNARE Motherboard: 而对于 Core X-Series 来说,可以选择以下主板: GIGABYTE X299X AORUS MASTER(8-8-8-8 通道) MSI Creator X299 LGA(8-8-16-8 通道) MSI MEG X299 CREATION(8-8-16-8 通道) EVGA X299 DARK(8 x 3 + 16 x 2 通道) 还有两张主板有 7 个 PCI-E 插槽,因为有桥接芯片,支持 4 路 x16 PCI-E 通道: GIGABYTE X299-WU8 ASUS WS X299 SAGE CPU 与内存Threadripper 是 24 核起,Core X-Series 是 12 核起,配 4 张 GPU 足够用了。 内存请参考双 GPU 部分。 现在是购买 RTX 30 系列显卡的好时候吗?我认为不是。 现在根本买不到啊; 深度学习框架对新 CUDA 和 CuDNN 的支持还不够; 各个厂家的显卡还没有开发完全; 新显卡的散热效果有待观察。 NVIDIA 已经说了,目前的缺货会延续到 2021 年。我们还是耐心等待吧。另外也希望 Big Navi 的性能和供货给力,让本来打算买 N 卡的人去买 A 卡,给我们深度学习民工一条生路啊。","categories":[],"tags":[{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"}]},{"title":"[工作站] 新 RTX 3090 搭建深度学习工作站的一些思考","slug":"工作站-新-RTX-3090-搭建深度学习工作站的一些思考","date":"2020-10-11T01:58:39.000Z","updated":"2020-10-18T01:33:11.403Z","comments":true,"path":"2020/10/10/工作站-新-RTX-3090-搭建深度学习工作站的一些思考/","link":"","permalink":"https://vincent507cpu.github.io/2020/10/10/%E5%B7%A5%E4%BD%9C%E7%AB%99-%E6%96%B0-RTX-3090-%E6%90%AD%E5%BB%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%E7%9A%84%E4%B8%80%E4%BA%9B%E6%80%9D%E8%80%83/","excerpt":"今天在班上看完了 NVIDIA 的 GeForce RTX 30 系列发布会。看完感觉游戏玩家应该做梦都会笑醒: RTX 3070 RTX 3080 RTX 3090 RTX 2080 Ti CUDA Core 5888 8704 10496 4352 Core Clock 1500 Mhz 1440 Mhz 1400 Mhz 1350 Mhz Boost Clock 1730 Mhz 1710 Mhz 1700 Mhz 1545 Mhz Memory Capacity 8 GB DDR6 10 GB DDR6X 24 GB DDR6X 11 GB DDR6 Memory Bus 256 bit 320 bit 384 bit 352 bit Memory Speed 16 Gbps 19 Gbps 19.5 Gbps 14 Gbps Memory Bandwidth 512 Gbps 760 Gbps 936 Gbps 616 Gbps TDP 220w 320W 350W 275W MSRP $499 US $699 US $1499 US $999 US","text":"今天在班上看完了 NVIDIA 的 GeForce RTX 30 系列发布会。看完感觉游戏玩家应该做梦都会笑醒: RTX 3070 RTX 3080 RTX 3090 RTX 2080 Ti CUDA Core 5888 8704 10496 4352 Core Clock 1500 Mhz 1440 Mhz 1400 Mhz 1350 Mhz Boost Clock 1730 Mhz 1710 Mhz 1700 Mhz 1545 Mhz Memory Capacity 8 GB DDR6 10 GB DDR6X 24 GB DDR6X 11 GB DDR6 Memory Bus 256 bit 320 bit 384 bit 352 bit Memory Speed 16 Gbps 19 Gbps 19.5 Gbps 14 Gbps Memory Bandwidth 512 Gbps 760 Gbps 936 Gbps 616 Gbps TDP 220w 320W 350W 275W MSRP $499 US $699 US $1499 US $999 US 一张中端卡吊打上代卡皇:新一代卡皇 RTX 3090 据老黄说可以以 8k 分辨率全开特效无压力玩任何游戏。苏妈现在应该是压力山大吧。 RTX 30 系列对游戏玩家是一个巨大的提升,但对深度学习研究者呢?假设想组一台 4 块 RTX 3090 的服务器,个人认为现在现有的 3090 显卡是不现实的。原因有三: 功耗是一个巨大的隐患 普通居民区、写字楼内的单根电线的最大载荷约为 2000W,超过这个数字会跳闸,用电器必须放在专门设计的机房里。以前 RTX 2080 Ti 在超频时最大功耗为不到 350W,四个 RTX 2080 Ti 加上 CPU 的功耗接近 2000W,还可以放在办公室里,而 RTX 3090 的 TDP 已经是 350W。NVIDIA 专门设计了一个 12 pin 的供电接口,最大载荷暂时未知,但有传言说最大载荷为 600W。而 RTX 2080 Ti 的供电接口为双 8 pin,其最大载荷为 150W (单个 8 pin 接口的供电)* 2 + 75W(PCIE 插槽供电)= 375W。目前已知的 12 pin 接口均为双 8 pin 转接而来,其最大载荷不会超过 375W;一旦电脑电源原生支持 12 pin 接口,功耗就难说了。 版型太大,主板上容纳不下 GeForce RTX 3090 is massive…这可能是第一张单卡三插槽的显卡,PCB 板在中间,前后都有风扇。三插槽就有问题了:主板上没位置插,机箱里也装不下。比如下面的一张主板:一般的双槽显卡可以插四张,而 RTX 3090 只能插两张(1x 和 3x),因为一张 RTX 3090 需要两边都有空位。就算主板上有充足的空间,一般机箱上只有 8 个 PCI-E 槽位。所以想要 4 x RTX 3090,需要更大的机箱(EATX 或者 WATX)和专用的主板,或者希望以后会出双卡槽的 RTX 3090。 散热问题 如果只有 1 张显卡,那么散热不是主要问题;而如果想放多张显卡,那么显卡一定要是涡轮散热设计。话说回来,显卡的风冷散热主要分涡轮散热和涡扇散热两种,主要区别在于出风的方向。涡扇散热的出风口在显卡背板:而涡扇散热的出风口在显卡的四周:如果机箱里有超过两张显卡,那么一定要选择涡轮散热,否则散热放出的热风会被其他显卡重新使用,造成散热失效。 目前公布的所有 RTX 3090 都是涡扇设计,所以并不适合多块显卡组装深度学习工作站。而公版 RTX 3090 简直是单卡的福音,多卡的噩梦,看看 founder edition 的风道设计:假如几块 RTX 3090 并联排列,头一块显卡的热风直接被第二块显卡利用,以此类推… 现在已经有板厂(貌似是 EVGA)计划推出双卡槽的水冷散热版 RTX 3090。不过四个水冷风扇也不好摆。 那两张 RTX 3090 能超过四张 RTX 2080 Ti 吗?Only time will tell. 有传言说 NVIDIA 其实还有 20GB 显存的 RTX 3080 (个人猜测可能会被叫做 super)和 16GB 显存的 RTX 3070 (super)没有被发布,可能是在观望 AMD 的下一代显卡 Big Navi 的表现。双卡槽的 RTX 3080 如果有 20GB 显存无疑会解决以上的所有问题,成为深度学习 GPU 的理想工具。希望苏妈能够给力一点,让老黄早点发布 RTX 3080 super 和 RTX 3070 super。 现在没有合适的显卡,不代表以后也没有。反正我准备入一块 RTX 3070 先用着,等 20GB RTX 3080 super 出了直接换 4 卡哈哈哈。","categories":[],"tags":[{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"}]},{"title":"[工作站] 2020 年 10 月的单 GPU 深度学习工作站配置指南","slug":"工作站-2020-年-10-月的单-GPU-深度学习工作站配置指南","date":"2020-09-20T22:04:45.000Z","updated":"2020-10-18T01:30:48.576Z","comments":true,"path":"2020/09/20/工作站-2020-年-10-月的单-GPU-深度学习工作站配置指南/","link":"","permalink":"https://vincent507cpu.github.io/2020/09/20/%E5%B7%A5%E4%BD%9C%E7%AB%99-2020-%E5%B9%B4-10-%E6%9C%88%E7%9A%84%E5%8D%95-GPU-%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%E9%85%8D%E7%BD%AE%E6%8C%87%E5%8D%97/","excerpt":"随着电脑硬件的性能提升、价格下降,搭建个人用深度学习工作站的支出越来越低,需求也会越来越大。因此从今年开始,每年的 5、10 月份均会发布最新的深度学习工作站的配置指南。 随着 NVIDIA 的新一代 Ampere 架构的 GeFore 30 系列显卡的发布,在算力得到了极大提升的同时价格也大幅下降,花费不到 $1000 搭建一台性能强大的深度学习工作站已经成为了可能。适逢 AMD 的新一代 Ryzen 处理器也在 10 月 8 日发布,硬件性能的提升毫无疑问会再次推动深度学习的热潮。 我最近准备搭建自己的第一台深度学习工作站,本文(单 GPU 工作站)与下一篇文章(多 GPU 工作站)正是基于本人最近的研究。水平有限,没有实践,欢迎指正。","text":"随着电脑硬件的性能提升、价格下降,搭建个人用深度学习工作站的支出越来越低,需求也会越来越大。因此从今年开始,每年的 5、10 月份均会发布最新的深度学习工作站的配置指南。 随着 NVIDIA 的新一代 Ampere 架构的 GeFore 30 系列显卡的发布,在算力得到了极大提升的同时价格也大幅下降,花费不到 $1000 搭建一台性能强大的深度学习工作站已经成为了可能。适逢 AMD 的新一代 Ryzen 处理器也在 10 月 8 日发布,硬件性能的提升毫无疑问会再次推动深度学习的热潮。 我最近准备搭建自己的第一台深度学习工作站,本文(单 GPU 工作站)与下一篇文章(多 GPU 工作站)正是基于本人最近的研究。水平有限,没有实践,欢迎指正。 本文主要参考了以下文章: Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning A Full Hardware Guide to Deep Learning Deep Learning Hardware Deep Dive – RTX 3090, RTX 3080, and RTX 3070 工作站与个人游戏电脑不同,在配置上有一些需要改变的地方。对于深度学习来说,目前的唯一选择是 NVIDIA 的 GPU 产品;又因为本文的主题是个人深度学习工作站,所以本文仅涉及 NVIDIA 的 GeForce 系列消费级显卡(Tesla 以及 Quadro 系列都已经成为历史,统一到 GeForce 系列下)。本文首先来讨论深度学习工作站 must have 的部分,然后是 nice to have 的部分,再后是 don’t matter much 的部分,最后是 try to avoid 的部分。 Must Have这部分不够就不行,但是超过也完全没用。 显存通常来说,对显存的要求如下: 研究 SOTA 模型:>= 11GB 一般的研究:8GB Kaggle 及其它竞赛:4 - 8GB 公司业务:8GB 用于部署及原型测试,>= 11GB 用于训练 对应到 RTX 30xx 系列显卡来说,可将 3060(6GB 显存),3060 Ti/3070 (8GB 显存)/3080(10GB 显存),3070 Super(16GB 显存)/3080 Super(20GB 显存)/3090(24GB 显存)对号入座。 注: 3070 显卡将于 10 月 29 日上市,3060 Ti/2070 Super/3080 Super 预计在今年底前会陆续发布,3060 预计在明年年初发布。 内存对于最大需要多少内存难以下定论,而 Tim Dettmers 说“额外的内存对特征工程非常有帮助”。综上,本人的推荐是 内存容量 = 显存容量 + 6 ~ 8GB。 电源没人想在训练一半的时候因为供电不足而电脑重启,因此要预留足够的电源供电。主机内耗电的部分主要为 GPU、CPU 和主板上的其它部件。通过研究 GPU 与 CPU 的耗电数据,我发现 GPU 的峰值功耗要超过 TDP 100w 左右,而 8 核以下的 CPU 的峰值功耗大概可以归纳为 核心数量 峰值功耗(w) 4 100 6 150 8 200 主板的功耗(内存和硬盘之类的总和)大概为 80w,故电源功率的最低要求为:CPU 峰值功耗 + GPU 峰值功耗 + 80。因为 CPU 和 GPU 很少同时满负荷工作,因此不需要考虑冗余电源。比如 RTX 3080 的 TDP 为 320w,故一台 Ryzen 5 3600 与 一张 RTX 3080 的工作站需要一个额定功率最少为 150 + 320 + 100 + 80 = 650w 的电源。 另外不像游戏主机在不运行的时候关闭,工作站一般是 7 * 24 小时开机的,所以电源的转换效率也很重要。以下为 80 Plus 认证在 115V 电压下 100% 负载时的转换效率表: 认证等级 利用率 White 80% Bronze 82% Silver 85% Gold 87% Platinum 89% Titanium 90% 一般来说,功耗在 600w 以下 Bronze 就可以了,600w ~ 1000w 之间推荐 Gold,1000w 以上推荐 Platinum 或 Titanium。 Nice to Have以上的因素决定了模型能不能训练,下面的因素决定了训练模型的速度和操作者的体验。 Tensor CoreTensor Core 可以极大地加快矩阵乘法,深度学习优先使用 Tensor Core 进行训练。由于 RTX 架构的 Tensor Core 可以以半精度(16bit)进行训练,显存需求减半,所以相比 GTX 显卡在同样的显存下可以训练大一倍的模型,因此除非预算极度有限,应该优先考虑 RTX 20/30 系列显卡。一张显卡有多少 Tensor Core 决定了这张显卡的算力,而 Tensor FLOPS 则量化了显卡的算力。 芯片型号 Tensor Core Tensor FLOPS (万亿) 显存(GB) TDP (W) MSRP (USD) 2060 240 51.6 6 160 349 2060 super 272 57.4 8 175 399 2070 super 320 72.5 8 215 499 2080 super 384 89.2 8 250 699 2080 Ti 544 107.6 11 250 999 Titan RTX 576 130.5 24 280 2499 3070 184 163 8 220 499 3080 272 238 10 320 699 3090 328 285 24 350 1499 虽然 30 系列的 Tensor Core 数量比 20 系列少, 但官方称 30 系列的 Tensor Core 的性能是 20 系列的 4 倍,所以(如果官方宣传为真的话)3070 的实际算力要强于 2080 Ti。3060 Ti 尚未被官方确认,但估计其算力应该与 2080 Ti 相当。 购买建议:消息说 3060 Ti 的官方指导价格是 $349。在 3060 Ti 存在的前提下 3070 是比较尴尬的存在,比上不足,比下有余。而 20 系列显卡毫无性价比,除非预算有限买二手 2060/2060 Super,否则不推荐。我的购买建议是: 预算严重不足的入门菜鸟:二手 1660 Super 预算不足的入门菜鸟:二手 2060/2060 Super/2070 有一点预算的入门菜鸟:3060 Ti 中阶使用者:3070 Super/3080 Super 高阶使用者:3090 现在避免购买任何 2080/2080 Super/2080 Ti 显卡(包括二手显卡)。 外设除了 GPU,1 到 2 台额外的显示器和一把趁手的键盘可能是最有价值的投资。不过这部分比较主观,如何选择由各位读者考虑。 购买建议: 购买带翻转屏功能的显示器;我现在用的两台显示器中有一台 Dell 2718Q。 购买高分辨率的显示器;我现在用的是两台 27” 4K 显示器。 选择机械键盘。轴体根据自己的喜好选择,我现在用的是茶轴。 Don’t Matter Much这部分对性能提升非常有限,不如节省下来减少开支。 CPU 的核心数量和主频在深度学习中,CPU 的主要工作是数据预处理。有两种策略: Loop: Load mini-batch Preprocessing mini-batch Train on mini-batch 或者 Preprocess data Loop: Load preprocessed mini-batch Train on mini-batch 对于第一种策略,一颗强大的 CPU 会显著提高性能,推荐为 GPU 配备至少 4 个 CPU 线程;而第二种策略通常不需要非常好的 CPU,2 个线程足够。所以对于单 GPU 工作站而言,最低端的 Core i3 10100F 或者 Ryzen 3 3100 已经足够(两者都是 4 核心 8 线程),6 核以上完全没有必要。 而对于 CPU 频率而言,频率的影响非常有限(因为 CPU 在深度学习中不起主导作用),主频从 1.1GHz 提升到 3.6GHz 的综合性能提升在 4% ~ 8% 之间。 PCI-E 等级 & 通道数PCI-E(Peripheral Component Interconnect Express)总线在 2003 年推出,取代了曾经的 PCI 和 AGP 总线,目前在使用的标准为 PCI-E 3.0 和 PCI-E 4.0。PCI-E 总线是一种串行总线,单个插槽上可以有 1、2、4、8、16 条通道,带宽如下: PCI-E 版本 x1 x2 x4 x8 x16 3.0 1.97GB/s 7.88GB/s 15.75GB/s 31.5GB/s 4.0 3.98GB/s 15.75GB/s 31.51GB/s 63GB/s 可以看到,PCI-E 4.0 的带宽是 PCI-E 3.0 的两倍,因为 AMD 的 X570 和 B550 芯片组支持 PCI-E 4.0,而 Intel 要到明年上半年的 11 代 Core 才支持,所以使用 Ryzen 3 代以后的 CPU 和 500 系列主板会有带宽的优势。 通常显卡占用 8 或 16 条 PCI-E 通道,而一块 NVME M.2 存储器占用 4 条 PCI-E 通道。虽然显卡接收与传递数据经过 PCI-E 总线,然而在仅有 1 张显卡的时候,PCI-E 总线的带宽与级别对显卡性能的影响并不大,PCI-E 的带宽对文件的读取/写入性能的影响更大一点。不过在一个 pipeline 里面数据一般仅仅读取/写入一次,因此 PCI-E 4.0 或者 3.0 对性能影响有限。 内存频率与延迟同上面一条,因为数据在 GPU 与 CPU 之间的交互次数有限,故速度更快、延迟更低的内存对性能提升有限。 散热对于一台仅有 1 张显卡的工作站而言,散热不是需要考虑的问题。 Try to Avoid超频对于长时间运行的工作站来说,超频会减少原件的寿命,降低系统的稳定性,增加功耗,因此超频是大忌。不要购买任何出厂预超频( Overclock 或 OC 版)的显卡或自己超频。 灯光效果不是说不能有光效,但是工作站是用来干活的,不是用来欣赏的,而且工作站一般放在不起眼的地方,有光效也看不见。看得见的光效除了分散注意力以外还耗费额外的电能(还费钱),实在没有意义。","categories":[],"tags":[{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"}]},{"title":"[NLP] 新手的第一个 NLP 项目:文本分类(4)","slug":"NLP-新手的第一个-NLP-项目:文本分类(4)","date":"2020-08-23T21:12:39.000Z","updated":"2020-08-23T21:13:58.509Z","comments":true,"path":"2020/08/23/NLP-新手的第一个-NLP-项目:文本分类(4)/","link":"","permalink":"https://vincent507cpu.github.io/2020/08/23/NLP-%E6%96%B0%E6%89%8B%E7%9A%84%E7%AC%AC%E4%B8%80%E4%B8%AA-NLP-%E9%A1%B9%E7%9B%AE%EF%BC%9A%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%EF%BC%884%EF%BC%89/","excerpt":"在之前的文章中,我们使用了 CNN 和 RNN 对 IMDB 数据集进行了分析,10 个 epoch 以后准确率不到 85%。除了使用更复杂的模型以外,我们还可以使用更好的词向量。本文中我们将使用 Bert 词向量和 GRU 层搭建另一个简单的神经网络模型。由于 transformers 涉及到大量计算,本文中将使用 Google Colab 提供的 GPU。 与前面的数据预处理流程不同,这里我们将使用 torchtext 来封装数据。有关 torchtext 的知识请看 PyTorch 折桂 13:TorchText。","text":"在之前的文章中,我们使用了 CNN 和 RNN 对 IMDB 数据集进行了分析,10 个 epoch 以后准确率不到 85%。除了使用更复杂的模型以外,我们还可以使用更好的词向量。本文中我们将使用 Bert 词向量和 GRU 层搭建另一个简单的神经网络模型。由于 transformers 涉及到大量计算,本文中将使用 Google Colab 提供的 GPU。 与前面的数据预处理流程不同,这里我们将使用 torchtext 来封装数据。有关 torchtext 的知识请看 PyTorch 折桂 13:TorchText。 安装所需的包: 123!pip install -U torch # 1.7!pip install -U torchtext # 0.7!pip install -U transformers # 3.0.2 设置随机种子: 1234567891011import torchimport randomimport numpy as npSEED = 1988random.seed(SEED)np.random.seed(SEED)torch.manual_seed(SEED)torch.cuda.manual_seed(SEED)torch.backends.cudnn.deterministic = True # 这样可以稍微增加训练的速度 数据准备之前的文章中,我们仅仅使用了 <PAD> 来填充不足的空位;而在 Bert 里,除了 <PAD> 还使用了 BOS 和 <EOS> 来表示句子的开始和结束以及 <UNK> 来表示单词表以外的单词。另外 Bert 取每句话前 512 个单词。 123456init_token_id = tokenizer.cls_token_id # BOSeos_token_id = tokenizer.sep_token_id # EOSpad_token_id = tokenizer.pad_token_id # PADunk_token_id = tokenizer.unk_token_id # UNKmax_length_input = tokenizer.max_model_input_sizes['bert-base-uncased'] 我们载入预训练好的 Bert 分词器并以此构建分词函数。 1234567from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')def tokenize_and_cut(sentence): tokens = tokenizer.tokenize(sentence) tokens = tokens[:max_length_input - 2] return tokens 下一步是构建数据集的域。所谓“域”指的是数据集里对文本与标签的处理方式的声明。 123456789101112from torchtext.data import Field, LabelFieldTEXT = Field(batch_first=True, use_vocab=False, tokenize=tokenize_and_cut, preprocessing=tokenizer.convert_tokens_to_ids, init_token=init_token_id, eos_token=eos_token_id, pad_token=pad_token_id, unk_token=unk_token_id)LABEL = LabelField(dtype=torch.float) 最后就是读取与封装数据。batch size 设置为 64。因为使用 GPU 训练,数据需要转移到 GPU 上。 123456789101112131415from torchtext import datasetstrain, test = datasets.IMDB.splits(TEXT, LABEL)LABEL.build_vocab(train)from torchtext.data import BucketIteratorBATCH_SIZE = 64device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')train_iter, test_iter = BucketIterator.splits( (train, test), batch_size=BATCH_SIZE, device=device) 模型搭建载入 Bert 预训练模型: 12from transformers import BertTokenizer, BertModelbert = BertModel.from_pretrained('bert-base-uncased') 根据 Bert 论文,Bert base 模型的超参数有:transformers 层数为 12,隐藏层维度为 768,self-attention head 数量为 12。我们在实际模型中只需要隐藏层维度。现在我们搭建一个在 Bert 后面连接一个双层、双向 GRU 的模型。 12345678910111213141516171819202122232425262728293031from torch import nnclass BertGRU(nn.Module): def __init__(self, bert, hidden_dim, n_layers, bidirectional, dropout): super().__init__() self.bert = bert embed_dim = bert.config.to_dict()['hidden_size'] self.gru = nn.GRU(embed_dim, hidden_dim, num_layers=n_layers, bidirectional=bidirectional, batch_first=True, dropout=0 if n_layers < 2 else dropout) self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, 1) self.dropout = nn.Dropout(dropout) def forward(self, text): # text: [BATCH_SIZE, SEQ_LENGTH] with torch.no_grad(): embedded = self.bert(text)[0] # embedded: [BATCH_SIZE, SEQ_LENGTH, EMBED_DIM] _, hidden = self.gru(embedded) # hidden: [N_LAYERS * n_driections, BATCH_SIZE, EMBED_DIM] if self.gru.bidirectional: hidden = self.dropout(torch.cat((hidden[-2, :, :], hidden[-1, :, :]), dim=1)) else: hidden = self.dropout(hidden[-1, :, :]) output = self.fc(hidden) # hidden: [BATCH_SIZE, 1] return output 首先实例化这个模型。 123456HIDDEN_DIM = 768N_LAYERS = 2BIDIRECTIONAL = TrueDROPOUT = 0.5model = BertGRU(bert, HIDDEN_DIM, N_LAYERS, BIDIRECTIONAL, DROPOUT) 因为 Bert 是已经训练好的词向量,我们不希望它被训练,也不希望它的权重被更新,所以模型里有 with torch.no_grad() 代码块。另外我们也手动关闭 Bert 有关的权重更新: 123for name, param in model.named_parameters(): if name.startswith('bert'): param.requires_grad = False 优化器和损失函数和前面一样,使用 Adam 和二分类交叉熵。同样将优化器和损失函数转移到 GPU 上。 12345678from torch import optimoptimizer = optim.Adam(model.parameters())criterion = nn.BCEWithLogitsLoss()model = model.to(device)criterion = criterion.to(device) 后面的训练和预测同以前的文章一样,不再赘述。训练 10 个 epoch 后的表现为: 123Epoch: 10 | Epoch Time: 38m 7s Train Loss: 0.094 | Train Acc: 96.62% Val. Loss: 0.243 | Val. Acc: 92.39% 有了 Bert 的加持,模型的性能提高了约 10%。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[NLP] 新手的第一个 NLP 项目:文本分类(3)","slug":"NLP-新手的第一个-NLP-项目:文本分类(3)","date":"2020-08-18T13:00:27.000Z","updated":"2020-08-18T13:32:04.187Z","comments":true,"path":"2020/08/18/NLP-新手的第一个-NLP-项目:文本分类(3)/","link":"","permalink":"https://vincent507cpu.github.io/2020/08/18/NLP-%E6%96%B0%E6%89%8B%E7%9A%84%E7%AC%AC%E4%B8%80%E4%B8%AA-NLP-%E9%A1%B9%E7%9B%AE%EF%BC%9A%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%EF%BC%883%EF%BC%89/","excerpt":"前文回顾在前两篇文章新手的第一个 NLP 任务:文本分类(1)和新手的第一个 NLP 项目:文本分类(2)中,我们读取了数据、对数据进行了预处理和封装,并搭建了一个 CNN 模型。本文中,我们将 CNN 模型换为 RNN 模型。 数据的准备同新手的第一个 NLP 任务:文本分类(1)一样,不再赘述。","text":"前文回顾在前两篇文章新手的第一个 NLP 任务:文本分类(1)和新手的第一个 NLP 项目:文本分类(2)中,我们读取了数据、对数据进行了预处理和封装,并搭建了一个 CNN 模型。本文中,我们将 CNN 模型换为 RNN 模型。 数据的准备同新手的第一个 NLP 任务:文本分类(1)一样,不再赘述。 基础 RNN 模型有关 RNN 的知识可以参考我以前写的文章 PyTorch 折桂 11:CNN & RNN。 12345678910111213141516171819from torch import nn, optimfrom torch.nn import functional as Fclass RNN(nn.Module): def __init__(self, vocab_size, embed_dim, hidden_dim): super(RNN, self).__init__() self.embedding = nn.Embedding(vocab_size, embed_dim) # (BATCH_SIZE, SEQ_LEN, EMBED_DIM) self.rnn = nn.RNN(embed_dim, hidden_dim, batch_first=True) self.fc = nn.Linear(hidden_dim, 1) def forward(self, x): x = self.embedding(x) output, hidden = self.rnn(x) # output: (BATCH_SIZE, SEQ_LENGTH, HIDDEN_DIM) # hidden: (1, BATCH_SIZE, HIDDEN_DIM) return self.fc(hidden.squeeze(0)) 我们首先使用一层单向 RNN。RNN 网络生成两个张量:输出层与保存了历史信息的隐藏层。使用哪一个呢?这要具体问题具体分析。对于文本摘要类任务,一般使用保存了历史信息的隐藏层。 这里要注意隐藏层的维度:当 batch_first=True 时,隐藏层的维度为((num_layers * directions, BATCH_SIZE, HIDDEN_DIM));当 batch_first=False 时,隐藏层的维度为((num_layers * directions, SEQ_LENGTH, HIDDEN_DIM))。 因为这是一个单词单向的 RNN,所以第 0 维为 1;在将隐藏层进行全连接处理以前,先去除无用的第 0 维。 实例化 RNN 网络: 123EMBED_DIM = 128HIDDEN_DIM = 256rnn = RNN(len(vocab), EMBED_DIM, HIDDEN_DIM) 损失函数、优化器、训练过程与前文一致,不再赘述。训练 10 个 epoch 后的结果如下: 123Epoch: 10 | Epoch Time: 1m 8s Train Loss: 0.590 | Train Acc: 68.58% Val. Loss: 0.682 | Val. Acc: 61.32% 可以看到,模型过拟合了。下面我们改进一下这个 RNN 模型。 改进 RNN 模型我们主要从以下两个方面进行改进: 改进词嵌入; 增加模型的复杂度(使用两层双向 LSTM); 增加正则化。1234567891011121314151617181920212223242526272829class LSTM(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, n_layers, bidirectional, dropout): super(LSTM, self).__init__() self.embed = nn.Embedding(vocab_size, embedding_dim, padding_idx=0) self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=n_layers, bidirectional=bidirectional, dropout=dropout, batch_first=True) self.dropout = nn.Dropout(dropout) self.num_directions = 2 if bidirectional else 1 self.fc = nn.Linear(hidden_dim * self.num_directions, 1) def forward(self, x): embedded = self.dropout(self.embed(x)) # (BATCH_SIZE, SEQ_LEN, EMBED_DIM) output, (hidden, cell) = self.lstm(embedded) # output: (BATCH_SIZE, SEQ_LENGTH, HIDDEN_DIM) # hidden: (n_layers * num_directions, BATCH_SIZE, HIDDEN_DIM) # cell: (n_layers * num_directions, BATCH_SIZE, HIDDEN_DIM) hidden = self.dropout(torch.cat((hidden[-2, :, :], hidden[-1, :, :]), dim=1)) # hidden: (BATCH_SIZE, HIDDEN_DIM * 2) return self.fc(hidden) 首先,填充 <PAD> 应该恒为 0,所以我们在词嵌入层中加入 padding_idx=0 条件。这里 padding_idx 为 0 是因为我们在数据准备过程中将填充占位设为 0。 其次,将 RNN 层变成 LSTM 层。LSTM 模型的输出有三个,output, (hidden, cell),隐藏层与细胞状态在一个元组内。当 batch_first=True 时,隐藏层与细胞状态的维度为((num_layers * directions, BATCH_SIZE, HIDDEN_DIM));当 batch_first=False 时,隐藏层与细胞状态的维度为((num_layers * directions, SEQ_LENGTH, HIDDEN_DIM))。当方向为双向且层数多于 1 时,隐藏层与细胞状态的堆叠层次为:$[第一层正向,第一层反向,…,最后一层正向,最后一层反向]$。这里使用了两层双向 LSTM。我们需要最后一层的正向与反向隐藏层,并把它们拼接在一起。 最后,还加入了 dropout 正则化。LSTM 内部的 dropout 可以使用 dropout 声明,LSTM 与全连接层之间的 dropout 可以使用 nn.Dropout 层。 实例化这个 LSTM 模型。 1234567EMBED_DIM = 128HIDDEN_DIM = 256N_LAYERS = 2BIDIRECTIONAL = TrueDROPOUT = 0.5lstm = LSTM(len(vocab), EMBED_DIM, HIDDEN_DIM, N_LAYERS, BIDIRECTIONAL, DROPOUT) 损失函数、优化器、训练过程与前面相同。最终的训练效果为: 123Epoch: 10 | Epoch Time: 7m 34s Train Loss: 0.303 | Train Acc: 87.30% Val. Loss: 0.412 | Val. Acc: 83.43% 比前面的 CNN 效果稍好。下文中我们将使用 SOTA 的预训练模型 - BERT。 本文的代码可以在 https://github.com/vincent507cpu/nlp\\_project/blob/master/text%20classification/02%20RNN.ipynb 查看。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[NLP] 新手的第一个 NLP 项目:文本分类(2)","slug":"NLP-新手的第一个-NLP-项目:文本分类(2)","date":"2020-08-07T18:00:47.000Z","updated":"2020-08-07T18:27:43.547Z","comments":true,"path":"2020/08/07/NLP-新手的第一个-NLP-项目:文本分类(2)/","link":"","permalink":"https://vincent507cpu.github.io/2020/08/07/NLP-%E6%96%B0%E6%89%8B%E7%9A%84%E7%AC%AC%E4%B8%80%E4%B8%AA-NLP-%E9%A1%B9%E7%9B%AE%EF%BC%9A%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%EF%BC%882%EF%BC%89/","excerpt":"现在数据已经准备就绪,可以构建模型了。 本文的模型参考了论文 《Convolutional Neural Networks for Sentence Classification》,原文代码在此。 论文里使用了两个词嵌入:随模型进行训练的词嵌入和 Google 预训练好的 Word2Vec 词嵌入。本文里为了直观,没有采用预训练的词嵌入。 构建模型论文里使用了三个卷积核分别为 3、4、5 的二维卷积层,拼接后经过一个范围为 4 的池化层。最后经过一个全连接层,经过 sigmoid 函数处理后输出。","text":"现在数据已经准备就绪,可以构建模型了。 本文的模型参考了论文 《Convolutional Neural Networks for Sentence Classification》,原文代码在此。 论文里使用了两个词嵌入:随模型进行训练的词嵌入和 Google 预训练好的 Word2Vec 词嵌入。本文里为了直观,没有采用预训练的词嵌入。 构建模型论文里使用了三个卷积核分别为 3、4、5 的二维卷积层,拼接后经过一个范围为 4 的池化层。最后经过一个全连接层,经过 sigmoid 函数处理后输出。 123456789101112131415161718192021222324252627282930313233from torch import nnfrom torch.nn import functional as Fclass CNN(nn.Module): def __init__(self, vocab_size, embed_size, dropout, batch_size): super(CNN, self).__init__() self.batch_size = batch_size self.embedding = nn.Embedding(vocab_size, embed_size) # (BATCH_SIZE, SEQ_LEN, embed_size) self.conv1 = nn.Conv2d(1, 1, 3) self.conv2 = nn.Conv2d(1, 1, 4) self.conv3 = nn.Conv2d(1, 1, 5) self.dropout = nn.Dropout(dropout) self.fc = nn.Linear(2232, 1) def forward(self, x): x = self.embedding(x) x.unsqueeze_(1) # (BATCH_SIZE, 1, SEQ_LEN, embed_size) output1 = self.conv1(x) output1 = F.max_pool2d(F.relu(output1), 4) output2 = self.conv2(x) output2 = F.max_pool2d(F.relu(output2), 4) output3 = self.conv3(x) output3 = F.max_pool2d(F.relu(output3), 4) output = torch.cat([output1, output2, output3], axis=1) output = self.dropout(output) return self.fc(output.view(self.batch_size, -1)) 注意:因为经过词嵌入的张量维度为 (BATCH_SIZE, SEQ_LEN, embed_size),而 nn.Conv2d 的输入张量的维度要求为 (BATCH_SIZE, CHANNEL, NONE, NONE),所以我们需要使用 x.unsqueeze_(1) 为张量添加一个维度。我们使用 Adam 为优化器,nn.BCEWithLogitsLoss() 为损失函数。 1234from torch import optimoptimizer = optim.Adam(model.parameters())criterion = nn.BCEWithLogitsLoss() 注意:nn.BCEWithLogitsLoss() 是先进行了 sigmoid 运算后再求交叉熵的损失函数,无需额外的 sigmoid 运算。然后我们再定义一个求准确率的函数: 12345def binary_accuracy(preds, y): rounded_preds = torch.round(torch.sigmoid(preds)) correct = (rounded_preds == y).float() acc = correct.sum() / len(correct) return acc 紧接着我们开始定义训练和验证的函数: 12345678910111213141516171819202122232425262728293031323334353637# 训练函数def train(model, iterator, optimizer, criterion): epoch_loss = 0 epoch_acc = 0 model.train() # 训练模式 for text, label in iterator: optimizer.zero_grad() preds = model(text) loss = criterion(preds.squeeze(), label.float()) acc = binary_accuracy(preds.squeeze(), label) loss.backward() optimizer.step() epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) # 验证函数def evaluate(model, iterator, criterion): epoch_loss = 0 epoch_acc = 0 model.eval() # 验证模式 with torch.no_grad(): for text, label in iterator: preds = model(text) loss = criterion(preds.squeeze(), label.float()) acc = binary_accuracy(preds.squeeze(), label) epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) 可以看到,训练函数与验证函数大同小异,主要区别在于: 训练模式下权重更新,验证模式下权重不更新; 验证模式没有优化器。注意:在计算损失函数时,真实标签也要转换成 float 格式,否则会报错。下面就可以构建真正的训练、评估循环了:123456789101112131415161718192021222324252627import timedef epoch_time(start_time, end_time): # 计算每一轮花费的时间 elapsed_time = end_time - start_time elapsed_mins = int(elapsed_time / 60) elapsed_secs = int(elapsed_time - elapsed_mins * 60) return elapsed_mins, elapsed_secs N_EPOCHS = 10best_test_loss = float('inf')for epoch in range(N_EPOCHS): start_time = time.time() train_loss, train_acc = train(model, train_iter, optimizer, criterion) test_loss, test_acc = evaluate(model, test_iter, criterion) end_time = time.time() epoch_mins, epoch_secs = epoch_time(start_time, end_time) if test_loss < best_test_loss: best_test_loss = test_loss torch.save(model.state_dict(), 'model.pt') print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s') print(f'\\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%') print(f'\\t Val. Loss: {test_loss:.3f} | Val. Acc: {test_acc*100:.2f}%') 我们进行 10 轮训练,如果验证集的准确率大于最大准确率,则保存模型。最佳结果为:123Epoch: 10 | Epoch Time: 4m 5s Train Loss: 0.171 | Train Acc: 93.41% Val. Loss: 0.426 | Val. Acc: 82.85% 这个结果马马虎虎,希望在后面将模型改进后,模型的表现会更好。 可以在 https://github.com/vincent507cpu/nlp\\_project/blob/master/text%20classification/01%20CNN.ipynb 查看全部代码。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[NLP] 新手的第一个 NLP 任务:文本分类(1)","slug":"NLP-新手的第一个-NLP-任务:文本分类(1)","date":"2020-08-01T17:57:01.000Z","updated":"2020-08-07T18:28:24.248Z","comments":true,"path":"2020/08/01/NLP-新手的第一个-NLP-任务:文本分类(1)/","link":"","permalink":"https://vincent507cpu.github.io/2020/08/01/NLP-%E6%96%B0%E6%89%8B%E7%9A%84%E7%AC%AC%E4%B8%80%E4%B8%AA-NLP-%E4%BB%BB%E5%8A%A1%EF%BC%9A%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%EF%BC%881%EF%BC%89/","excerpt":"从终端任务来说,NLP 任务有文本分类、文本生成、翻译、文本摘要等等,其中文本分类是一个比较基础的任务。所以让我们从文本分类开始练习,从最简单的模型开始做起,然后尽量一步步提高它的性能。 文本分类有主题分类和感情分类两种。其中感情分类又比主题分类更加简单一点,因为很多感情分类是二分类任务(主题分类其实也可以,但是一般很少只分两个主题),所以我们将使用 IMDB 电影评论数据集进行一个感情分类任务。","text":"从终端任务来说,NLP 任务有文本分类、文本生成、翻译、文本摘要等等,其中文本分类是一个比较基础的任务。所以让我们从文本分类开始练习,从最简单的模型开始做起,然后尽量一步步提高它的性能。 文本分类有主题分类和感情分类两种。其中感情分类又比主题分类更加简单一点,因为很多感情分类是二分类任务(主题分类其实也可以,但是一般很少只分两个主题),所以我们将使用 IMDB 电影评论数据集进行一个感情分类任务。 NLP 的 pipeline简单来说,NLP 的 pipeline 的主要步骤为: 载入数据; 数据探索与分析(EDA); 数据预处理; 数据的封装; 构建模型; 训练模型; 评估模型; (可选)模型的推断。 本文主要关注第 1、3、4 步。数据分析这里就略过了,因为 1)这个数据集是一个很经典的数据集,网上已经有无数人做了 EDA;2)我对 pandas 和 matplotlib 还不熟。因为我们现在要构建一个基线模型,采用的方法也比较原始,后面会介绍更高效、简便的方式。 准备工作首先安装、升级所需的库(代码在 Jupyter Notebook 里运行,在 shell 里运行需要把每个命令前面的 ! 去掉): 12345678!pip install -U tqdm # 4.48.0!pip install -U nltk # 3.5!pip install -U spacy # 2.3.2!pip install -U numpy # 1.19.1!pip install -U pandas # 1.1.0!pip install -U sklearn # 0.23!pip install -U torch # 1.6!pip install -U torchtext # 0.7.0 后续文章中默认使用以上最新的库。然后下载 spacy 和 nltk 的数据: 1234!python -m spacy download en_core_web_mdfrom nltk.stem import WordNetLemmatizernltk.download() 载入数据我们首先使用 pandas 读取 csv 文件。IMDB 电影评论一共有 50000 条,分为 positive 和 negative 两种。 123import pandas as pddata = pd.read_csv('.../datasets/IMDB Dataset.csv') 数据预处理对于 NLP 任务来说,数据即文本。文本预处理任务一般有: 文本清洗(去除乱码、停用词等); 分词; (仅限英文)将词语进行还原; 文本的截取与补全; 构建词汇表; 创建一个将 token 转换为 id 的映射并将文本转换为 id(有时候还需要创建一个将 id 转换为token 的映射)。 nltk 和 spacy 是处理英文 NLP 任务的两个常用的库。本来我习惯使用 nltk 进行分词,然而发现 nltk 的效果没有 spacy 好。所以我这次使用 spacy 进行分词,使用 nltk 将词语还原成原型。 首先做一些准备工作: 12345from nltk.stem import WordNetLemmatizerlemmatizer = WordNetLemmatizer() # 初始化 lemmatizerimport spacynlp = spacy.load('en_core_web_md') # 初始化语言处理引擎,用于分词 因为深度学习模型只能处理数字,我们需要将文本转换为数字。我把所有的事情放在一起做了: 12345678910111213141516171819202122232425262728293031323334353637from tqdm import tqdmimport reprocessed_review = []sentiment = []word2id = {'<PAD>':0} # token 到 id 的映射# id2word = {0:'<PAD>'} # id 到 token 的映射,这个任务用不到vocab = set(['<PAD>']) # 词汇表count = 1SEQ_LEN = 100 # 每条文本的固定长度for i in tqdm(range(len(data))): # tqdm 显示进度 text = data.review[i].lower() # 转换为小写 text = re.sub('<.+?>', '', text) # 去掉 HTML 文本 text = re.sub('[<>]', '', text) # 去掉 HTML 文本 text = [lemmatizer.lemmatize(token.text) for token in nlp.tokenizer(text)][:SEQ_LEN] # 先分词,再还原,最后截取 tmp = [0] * (SEQ_LEN - len(text)) if len(text) < SEQ_LEN else [] # 用 0 补全短文本 # 构建词汇表以及映射 for word in text: if word not in vocab: vocab.add(word) word2id[word] = count tmp.append(count) count += 1 else: tmp.append(word2id[word]) processed_review.append(tmp) # 将 positive 转换 为 1,将 negative 转换为 0 if data.sentiment[i] == 'positive': sentiment.append(1) elif data.sentiment[i] == 'negative': sentiment.append(0) 数据封装现在数据和标签都变成了数字,然后是划分训练集和测试集(我们暂时不用验证集)。这里使用 sklearn 里的函数实现,产生 40000 条训练集和 10000 条测试集。 123from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(processed_review, sentiment, train_size=0.8, random_state=1988) 在构建模型之前的最后一步是封装数据,以便以 batch 的数量将数据送进网络。 12345678910from torch.utils.data import TensorDataset, DataLoaderimport torchBATCH_SIZE = 64train_ds = TensorDataset(torch.as_tensor(X_train), torch.as_tensor(y_train))test_ds = TensorDataset(torch.as_tensor(X_test), torch.as_tensor(y_test))train_iter = DataLoader(train_ds, batch_size=BATCH_SIZE, drop_last=True) # (BATCH_SIZE, SEQ_LEN)test_iter = DataLoader(test_ds, batch_size=BATCH_SIZE, drop_last=True) # (BATCH_SIZE, ) 首先使用 TensorDataset 将训练集和测试集转换成 PyTorch 可以识别的格式,然后使用 DataLoader 将数据集进行封装,生成一个以 BATCH_SIZE 为读取批量的生成器。 下一篇文章将进行建模和训练。可以在 https://github.com/vincent507cpu/nlp_project/blob/master/text%20classification/01%20CNN.ipynb 查看全部代码。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"DL-PyTorch-折桂-18:使用-TorchText-和-transformers-进行情感分类(2)","slug":"DL-PyTorch-折桂-18:使用-TorchText-和-transformers-进行情感分类-2","date":"2020-08-01T17:52:36.000Z","updated":"2020-11-01T21:36:56.694Z","comments":true,"path":"2020/08/01/DL-PyTorch-折桂-18:使用-TorchText-和-transformers-进行情感分类-2/","link":"","permalink":"https://vincent507cpu.github.io/2020/08/01/DL-PyTorch-%E6%8A%98%E6%A1%82-18%EF%BC%9A%E4%BD%BF%E7%94%A8-TorchText-%E5%92%8C-transformers-%E8%BF%9B%E8%A1%8C%E6%83%85%E6%84%9F%E5%88%86%E7%B1%BB-2/","excerpt":"接上文 9. 搭建模型首先是载入预训练模型。 123from transformers import BertTokenizer, BertModelbert = BertModel.from_pretrained('bert-base-uncased') 我们使用 Bert 预训练词向量与 GRU 组成模型,然后接一个全连接层。我们需要使用 with torch.no_grad() 避免预训练词向量发生变化。","text":"接上文 9. 搭建模型首先是载入预训练模型。 123from transformers import BertTokenizer, BertModelbert = BertModel.from_pretrained('bert-base-uncased') 我们使用 Bert 预训练词向量与 GRU 组成模型,然后接一个全连接层。我们需要使用 with torch.no_grad() 避免预训练词向量发生变化。 12345678910111213141516171819202122232425262728293031323334353637383940class BERTGRUSentiment(nn.Module): def __init__(self, bert, hidden_dim, output_dim, n_layers, bidirectional, dropout): super().__init__() self.bert = bert embedding_dim = bert.config.to_dict()['hidden_size'] self.rnn = nn.GRU(embedding_dim, hidden_dim, num_layers = n_layers, bidirectional = bidirectional, batch_first = True, dropout = 0 if n_layers < 2 else dropout) self.out = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim) self.dropout = nn.Dropout(0.5) def forward(self, text): #text = [batch size, sent len] with torch.no_grad(): embedded = self.bert(text)[0] #embedded = [batch size, sent len, emb dim] _, hidden = self.rnn(embedded) #hidden = [n layers * n directions, batch size, emb dim] if self.rnn.bidirectional: hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1)) else: hidden = self.dropout(hidden[-1,:,:]) #hidden = [batch size, hid dim] output = self.out(hidden) #output = [batch size, out dim] return output 接下来我们使用标准超参数将模型实例化。 123456789101112HIDDEN_DIM = 256OUTPUT_DIM = 1N_LAYERS = 2BIDIRECTIONAL = TrueDROPOUT = 0.25model = BERTGRUSentiment(bert, HIDDEN_DIM, OUTPUT_DIM, N_LAYERS, BIDIRECTIONAL, DROPOUT) 由于 transformer 的训练量实在比较大,我们设置不更新 bert 的权重: 123for name, param in model.named_parameters(): if name.startswith('bert'): param.requires_grad = False 10. 训练模型优化器使用 Adam,损失函数使用 nn.BCEWithLogitsLoss()。除此以外,我们再定义一个评价准确率的函数: 123456789def binary_accuracy(preds, y): \"\"\" Returns accuracy per batch, i.e. if you get 8/10 right, this returns 0.8, NOT 8 \"\"\" #round predictions to the closest integer rounded_preds = torch.round(torch.sigmoid(preds)) correct = (rounded_preds == y).float() #convert into float for division acc = correct.sum() / len(correct) return acc 训练函数: 1234567891011121314151617def train(model, iterator, optimizer, criterion): epoch_loss = 0 epoch_acc = 0 model.train() for batch in iterator: optimizer.zero_grad() predictions = model(batch.text).squeeze(1) loss = criterion(predictions, batch.label) acc = binary_accuracy(predictions, batch.label) loss.backward() optimizer.step() epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) 验证函数与训练函数类似,区别在于: 不更新权重; 没有优化器。123456789101112131415def evaluate(model, iterator, criterion): epoch_loss = 0 epoch_acc = 0 model.eval() with torch.no_grad(): for batch in iterator: predictions = model(batch.text).squeeze(1) loss = criterion(predictions, batch.label) acc = binary_accuracy(predictions, batch.label) epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) 训练函数与验证函数都写好了以后就可以进行真正的训练了。在每一轮里,我们首先更新权重,然后用新的权重去验证。如果验证的损失小于之前的最小值,我们保存当前的模型。1234567891011121314N_EPOCHS = 10best_valid_loss = float('inf')for epoch in range(N_EPOCHS): train_loss, train_acc = train(model, train_iterator, optimizer, criterion) valid_loss, valid_acc = evaluate(model, valid_iterator, criterion) if valid_loss < best_valid_loss: best_valid_loss = valid_loss torch.save(model.state_dict(), 'tut6-model.pt') print(f'Epoch: {epoch+1:02} print(f'\\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%') print(f'\\t Val. Loss: {valid_loss:.3f} | Val. Acc: {valid_acc*100:.2f}%') 训练过程如下:123456789101112131415161718192021222324252627282930Epoch: 01 | Epoch Time: 7m 5s Train Loss: 0.468 | Train Acc: 76.80% Val. Loss: 0.266 | Val. Acc: 89.47%Epoch: 02 | Epoch Time: 7m 4s Train Loss: 0.280 | Train Acc: 88.42% Val. Loss: 0.244 | Val. Acc: 90.20%Epoch: 03 | Epoch Time: 7m 4s Train Loss: 0.239 | Train Acc: 90.48% Val. Loss: 0.220 | Val. Acc: 91.07%Epoch: 04 | Epoch Time: 7m 4s Train Loss: 0.211 | Train Acc: 91.66% Val. Loss: 0.236 | Val. Acc: 90.85%Epoch: 05 | Epoch Time: 7m 5s Train Loss: 0.187 | Train Acc: 92.91% Val. Loss: 0.222 | Val. Acc: 91.12%Epoch: 06 | Epoch Time: 7m 5s Train Loss: 0.164 | Train Acc: 93.71% Val. Loss: 0.251 | Val. Acc: 91.29%Epoch: 07 | Epoch Time: 7m 4s Train Loss: 0.137 | Train Acc: 94.94% Val. Loss: 0.231 | Val. Acc: 90.73%Epoch: 08 | Epoch Time: 7m 4s Train Loss: 0.115 | Train Acc: 95.73% Val. Loss: 0.374 | Val. Acc: 86.99%Epoch: 09 | Epoch Time: 7m 4s Train Loss: 0.095 | Train Acc: 96.57% Val. Loss: 0.259 | Val. Acc: 91.22%Epoch: 10 | Epoch Time: 7m 5s Train Loss: 0.078 | Train Acc: 97.30% Val. Loss: 0.282 | Val. Acc: 91.77% 11. 模型推断训练好模型以后,我们可以用这个模型来做推断。123456789101112def predict_sentiment(model, tokenizer, sentence): model.eval() tokens = tokenizer.tokenize(sentence) tokens = tokens[:max_input_length-2] indexed = [init_token_idx] + tokenizer.convert_tokens_to_ids(tokens) + [eos_token_idx] tensor = torch.LongTensor(indexed).to(device) tensor = tensor.unsqueeze(0) prediction = torch.sigmoid(model(tensor)) return prediction.item() predict_sentiment(model, tokenizer, \"This film is terrible\") # 0.021611081436276436predict_sentiment(model, tokenizer, \"This film is great\") # 0.9428628087043762 上面直接返回概率,也可以处理一下返回 positive 或 negative。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[DL] PyTorch 折桂 17:使用 TorchText 和 transformers 进行情感分类(1)","slug":"DL-PyTorch-折桂-17:使用-TorchText-和-transformers-进行情感分类","date":"2020-06-10T19:51:36.000Z","updated":"2020-08-01T16:10:05.712Z","comments":true,"path":"2020/06/10/DL-PyTorch-折桂-17:使用-TorchText-和-transformers-进行情感分类/","link":"","permalink":"https://vincent507cpu.github.io/2020/06/10/DL-PyTorch-%E6%8A%98%E6%A1%82-17%EF%BC%9A%E4%BD%BF%E7%94%A8-TorchText-%E5%92%8C-transformers-%E8%BF%9B%E8%A1%8C%E6%83%85%E6%84%9F%E5%88%86%E7%B1%BB/","excerpt":"我们已经了解了 PyTorch 的基本操作和功能,现在让我们实践一下。自从 transformer 横空出世以后,在 NLP 领域有”大一统“ 的趋势。但 transformer 的本质是什么?transformer 的本质是一个能够有效提取语义信息的词嵌入生成器,它比前辈 word2vec、GloVe 等等能够更有效地提取词语的语义信息,所以以 transformer 生成的词嵌入可以有 SOTA(state-of-the-art,最高水平)的性能。这等于电脑可以更好地理解文本中每个词语的意思,理解了每个词语的意思自然就可以更好地理解文本的整体意思。所以 transformer 只是取代了以前用的 Embedding 层,根据具体的任务的不同还可以接上 CNN、RNN 等层。 本文及下一篇文章中,我们将使用 PyTorch,TorchText 和 transformers 库里的 Bert 预训练模型来进行一个基本的情感分类任务:IMDB 影片评论的情感分类。","text":"我们已经了解了 PyTorch 的基本操作和功能,现在让我们实践一下。自从 transformer 横空出世以后,在 NLP 领域有”大一统“ 的趋势。但 transformer 的本质是什么?transformer 的本质是一个能够有效提取语义信息的词嵌入生成器,它比前辈 word2vec、GloVe 等等能够更有效地提取词语的语义信息,所以以 transformer 生成的词嵌入可以有 SOTA(state-of-the-art,最高水平)的性能。这等于电脑可以更好地理解文本中每个词语的意思,理解了每个词语的意思自然就可以更好地理解文本的整体意思。所以 transformer 只是取代了以前用的 Embedding 层,根据具体的任务的不同还可以接上 CNN、RNN 等层。 本文及下一篇文章中,我们将使用 PyTorch,TorchText 和 transformers 库里的 Bert 预训练模型来进行一个基本的情感分类任务:IMDB 影片评论的情感分类。 Bert 之类的 transformer 预训练模型虽然性能强大,它也有一个致命的缺点,即资源的消耗非常巨大。简单的模型跑小数据库还可以在个人 PC 上运行,Bert 之类的模型必须用到 GPU。写这篇文章的时候,我是在 Google Colab 上完成模型的训练的。 1234567891011121314151617>>> !nvidia-smi Wed Jun 10 18:00:42 2020 +-----------------------------------------------------------------------------+| NVIDIA-SMI 440.82 Driver Version: 418.67 CUDA Version: 10.1 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. ||===============================+======================+======================|| 0 Tesla P100-PCIE... Off | 00000000:00:04.0 Off | 0 || N/A 69C P0 48W / 250W | 9149MiB / 16280MiB | 0% Default |+-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+| Processes: GPU Memory || GPU PID Type Process name Usage ||=============================================================================|+-----------------------------------------------------------------------------+ 本文的代码来自 Transformers for Sentiment Analysis。 *注:本文的很多资源可能需要科学上网,不能科学上网的话我也没办法哈。 1. 必要库的加载 首先安装最新版 PyTorch,TorchText 和 transformers。 1234567891011121314!pip install -U torchtext!pip install -U torch!pip install -U transformersimport torchimport randomSEED = 1234# 初始化随机种子random.seed(SEED)np.random.seed(SEED)torch.manual_seed(SEED)torch.backends.cudnn.deterministic = True # 可以加快训练速度一点点虽然每一步都会加载必需的库,我还是会把完整路径写出来,方便确认从属。 2. 获取数据:在 Kaggle 上下载数据。 3. 分词器的准备我们将使用 Bert 预训练模型的分词器。 123from transformers import BertTokenizertokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased') ‘uncased’ 意味着这个分词器是不区分大小写的,意味着仅仅处理小写字母。不用担心,分词器会自动把文本转换成小写形式再处理。 123456789>>> tokens = tokenizer.tokenize('Hello WORLD how ARE yoU?') # 大小写不敏感的预训练模型会自动转换大小写>>> print(tokens)['hello', 'world', 'how', 'are', 'you', '?']>>> indexes = tokenizer.convert_tokens_to_ids(tokens) # 找到 token 对应的 id>>> print(indexes)[7592, 2088, 2129, 2024, 2017, 1029] 接下来我们需要指定 4 个特殊的 token:句起始 token,句结束 token,填充 token 和未知词语 token 备用。 1234567>>> init_token_idx = tokenizer.cls_token_id # 起始>>> eos_token_idx = tokenizer.sep_token_id # 结束>>> pad_token_idx = tokenizer.pad_token_id # 填充>>> unk_token_idx = tokenizer.unk_token_id # 未知>>> print(init_token_idx, eos_token_idx, pad_token_idx, unk_token_idx)101 102 0 100 然后我们还需要获得预训练 Bert 模型的序列长度。 1234>>> max_input_length = tokenizer.max_model_input_sizes['bert-base-uncased']>>> print(max_input_length)512 4. 构建分词器上一篇文章里说我们可以使用 spacy 作为分词器,这里我们使用 BertTokenizer。 1234def tokenize_and_cut(sentence): tokens = tokenizer.tokenize(sentence) tokens = tokens[:max_input_length-2] return tokens 因为预训练 Bert 模型的最长序列为 512,为给数据点加上 [CLS] 和 [EOS],我们需要把分词后的序列长度减 2. 5. 定义 field123456789101112from torchtext import dataTEXT = torchtext.data.Field(batch_first = True, use_vocab = False, tokenize = tokenize_and_cut, preprocessing = tokenizer.convert_tokens_to_ids, init_token = init_token_idx, eos_token = eos_token_idx, pad_token = pad_token_idx, unk_token = unk_token_idx)LABEL = torchtext.data.LabelField(dtype = torch.float) 因为 batch 在第一维,所以我们设定 batch_first = True。由于我们已经有了单词表(bert 的 embedding),所以需要设置 use_vocab = False。然后我们在 preprocessing 这里将 token 转换成对应的 id。最后,我需要定义特殊的 token id。 6. 加载数据12345from torchtext import datasetstrain_data, test_data = torchtext.datasets.IMDB.splits(TEXT, LABEL)train_data, valid_data = train_data.split(random_state = random.seed(SEED)) IMDB 数据库使用 splts 方法创建训练集和测试集,具体参数如下: 1splits(text_field, label_field, root='.data', train='train', test='test', **kwargs) 两个必需参数 text_field 和 label_field 分别对应了文本与标签的 field。 7. 建立标签的词汇表虽然我们已经在定义 field 的时候定义了 TEXT 的词汇表,我们还需要将 LABEL 转换为数字。 1LABEL.build_vocab(train_data) 8. 创建训练集、验证集和测试集最后我们使用 BucketIterator 创建训练集、验证集和测试集的迭代器。这里我们使用 128 作为 batch size。 12345678BATCH_SIZE = 128device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits( (train_data, valid_data, test_data), batch_size = BATCH_SIZE, device = device) 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"},{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"}]},{"title":"[DL] PyTorch 折桂 16:transformers","slug":"DL-PyTorch-折桂-16:transformers","date":"2020-06-05T16:47:59.000Z","updated":"2020-06-17T11:04:34.173Z","comments":true,"path":"2020/06/05/DL-PyTorch-折桂-16:transformers/","link":"","permalink":"https://vincent507cpu.github.io/2020/06/05/DL-PyTorch-%E6%8A%98%E6%A1%82-16%EF%BC%9Atransformers/","excerpt":"严格意义上讲 transformers 并不是 PyTorch 的一部分,然而 transformers 与 PyTorch 或 TensorFlow 结合的太紧密了,而且可以把 transformers 看成是 PyTorch 或 TensorFlow 的延伸,所以也在这里一并讨论了。","text":"严格意义上讲 transformers 并不是 PyTorch 的一部分,然而 transformers 与 PyTorch 或 TensorFlow 结合的太紧密了,而且可以把 transformers 看成是 PyTorch 或 TensorFlow 的延伸,所以也在这里一并讨论了。 transformers 内置了 17 种以 transformer 结构为基础的神经网络: T5 model DistilBERT model ALBERT model CamemBERT model XLM-RoBERTa model Longformer model RoBERTa model Reformer model Bert model OpenAI GPT model OpenAI GPT-2 model Transformer-XL model XLNet model XLM model CTRL model Flaubert model ELECTRA model 这些模型的参数、用法大同小异。默认框架为 PyTorch,使用 TensorFlow 框架在类的前面加上 ‘TF” 即可。 每种模型都有至少一个预训练模型,限于篇幅,这里仅仅列举 Bert 的常用预训练模型: 模型 模型细节 bert-base-uncased 12-layer, 768-hidden, 12-heads, 110M parameters. Trained on lower-cased English text. bert-large-uncased 24-layer, 1024-hidden, 16-heads, 340M parameters. Trained on lower-cased English text. bert-base-cased 12-layer, 768-hidden, 12-heads, 110M parameters. Trained on cased English text. bert-large-cased 24-layer, 1024-hidden, 16-heads, 340M parameters. Trained on cased English text. bert-base-multilingual-cased 12-layer, 768-hidden, 12-heads, 110M parameters. Trained on cased text in the top 104 languages with the largest Wikipedias bert-base-chinese 12-layer, 768-hidden, 12-heads, 110M parameters. Trained on cased Chinese Simplified and Traditional text. 完整的预训练模型列表可以在 transformers 官网上找到。 使用 transformers 库有三种方法: 使用 pipeline; 指定预训练模型; 使用 AutoModels 加载预训练模型。 1. transformers.pipeline这个管线函数包含三个部分: Tokenizer; 一个模型实例; 其它增强模型输出的功能。 它只有一个必需参数 task,接受如下变量之一: ”feature-extraction” ”sentiment-analysis” ”ner” ”question-answering” ”fill-mask” ”summarization” ”translation_xx_to_yy” ”text-generation” 这个函数还有其它可选参数,但是我的试用经验是,什么都不要动,使用默认参数即可。 例子: 123456789>>> from transformers import pipeline>>> nlp = pipeline(\"sentiment-analysis\")>>> print(nlp(\"I hate you\"))[{'label': 'NEGATIVE', 'score': 0.9991129040718079}]>>> print(nlp(\"I love you\"))[{'label': 'POSITIVE', 'score': 0.9998656511306763}] 2. 指定预训练模型这里我们以 Bert 为例。 2.1 配置 Bert 模型(可选,推荐不使用)transformers.BertConfigtransformers.BertConfig 可以自定义 Bert 模型的结构,以下参数都是可选的: vocab_size:词汇数,默认 30522; hidden_size:编码器内隐藏层神经元数量,默认 768; num_hidden_layers:编码器内隐藏层层数,默认 12; num_attention_heads:编码器内注意力头数,默认 12; intermediate_size:编码器内全连接层的输入维度,默认 3072; hidden_act:编码器内激活函数,默认 ‘gelu’,还可为 ‘relu’、’swish’ 或 ‘gelu_new’ hidden_dropout_prob:词嵌入层或编码器的 dropout,默认为 0.1; attention_probs_dropout_prob:注意力的 dropout,默认为 0.1; max_position_embeddings:模型使用的最大序列长度,默认为 512; type_vocab_size:词汇表类别,默认为 2; initializer_range:神经元权重的标准差,默认为 0.02; layer_norm_eps:layer normalization 的 epsilon 值,默认为 1e-12. 使用方法: 12345configuration = BertConfig() # 进行模型的配置,变量为空即使用默认参数model = BertModel(configuration) # 使用自定义配置实例化 Bert 模型configuration = model.config # 查看模型参数 2.2 分词 transformers.BertTokenizer所有的 tokenizer 都继承自 transformers.PreTrainedTokenizer 基类,因此有共同的参数和方法实例化的参数有: model_max_length:可选参数,最大输入长度,默认为 1e30; padding_side:可选参数,填充的方向,应为 ‘left’ 或 ‘right’; bos_token:可选参数,每句话的起始标记,默认为 ‘‘; eos_token:可选参数,每句话的结束标记,默认为 ‘‘; unk_token:可选参数,未知的标记,默认为 ‘‘; sep_token:可选参数,分隔标记,默认为 ‘‘; pad_token:可选参数,填充标记,默认为 ‘‘; cls_token:可选参数,分类标记,默认为 ‘‘; mask_token:可选参数,遮盖标记,默认为 ‘‘。 为了演示,我们先实例化一个 BertTokenizer。 1tokenizer = BertTokenizer.from_pretrained('bert-base-cased') 常用的方法有: from_pretrained(model):载入预训练词汇表; tokenizer.tokenize(str):分词;12>>> tokenizer.tokenize('Hello word!')['Hello', 'word', '!'] encode(text, ...):将文本分词后编码为包含对应 id 的列表;12>>> tokenizer.encode('Hello word!')[101, 8667, 1937, 106, 102] encode_plus(text, ...):将文本分词后创建一个包含对应 id,token 类型及是否遮盖的词典;12tokenizer.encode_plus('Hello world!'){'input_ids': [101, 8667, 1937, 106, 102], 'token_type_ids': [0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1]} convert_ids_to_tokens(ids, skip_special_tokens):将 id 映射为 token;12>>> tokenizer.convert_ids_to_tokens(tokens)['[CLS]', 'Hello', 'word', '!', '[SEP]'] decode(token_ids):将 id 解码;12>>> tokenizer.decode(tokens)'[CLS] Hello word! [SEP]' convert_tokens_to_ids(tokens):将 token 映射为 id。12>>> tokenizer.convert_tokens_to_ids(['[CLS]', 'Hello', 'word', '!', '[SEP]'])[101, 8667, 1937, 106, 102] 2.3 使用预训练模型根据任务的需要,既可以选择没有为指定任务 finetune 的模型如 transformers.BertModel,也可以选择为指定任务 finetune 之后的模型如 transformers.BertForSequenceClassification。一共有 6 个指定的任务类型: transformers.BertForMaskedLM:语言模型; transformers.BertForNextSentencePrediction:判断下一句话是否与上一句有关; transformers.BertForSequenceClassification:序列分类如 GLUE; transformers.BertForMultipleChoice:文本分类; transformers.BertForTokenClassification:token 分类如 NER, transformers.BertForQuestionAnswering;问答。 3. 使用 AutoModels使用 AutoModels 与上面的指定模型进行预训练大同小异,只不过是另一种方式加载模型而已。 3.1 加载自动配置 transformers.AutoConfig使用类方法 from_pretrained 加载模型配置,参数既可以为模型名称,也可以为具体文件。 123config = AutoConfig.from_pretrained('bert-base-uncased')# 或者直接加载模型文件config = AutoConfig.from_pretrained('./test/bert_saved_model/') 3.2 加载分词器 transformers.AutoTokenizer与上面的 BertTokenizer 非常相似,也是使用 from_pretrained 类方法加载预训练模型。 123tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')# 或者直接加载模型文件tokenizer = AutoTokenizer.from_pretrained('./test/bert_saved_model/') 3.3 加载模型 transformers.AutoModel可以使用 from_pretrained 加载预训练模型: 123model = AutoModel.from_pretrained('bert-base-uncased')# 或者直接加载模型文件model = AutoModel.from_pretrained('./test/bert_model/') 选好了预训练模型以后,只需要给模型接一个全连接层,这个神经网络就搭好了(当然可以根据需要添加更复杂的结构)。是不是香? 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 15:TorchText","slug":"DL-PyTorch-折桂-15:TorchText","date":"2020-06-04T19:29:44.000Z","updated":"2020-06-04T19:31:33.252Z","comments":true,"path":"2020/06/04/DL-PyTorch-折桂-15:TorchText/","link":"","permalink":"https://vincent507cpu.github.io/2020/06/04/DL-PyTorch-%E6%8A%98%E6%A1%82-15%EF%BC%9ATorchText/","excerpt":"TorchText 是 PyTorch 的一个功能包,主要提供文本数据读取、创建迭代器的的功能与语料库、词向量的信息,分别对应了 torchtext.data、torchtext.datasets 和 torchtext.vocab 三个子模块。本文参考了三篇文章。","text":"TorchText 是 PyTorch 的一个功能包,主要提供文本数据读取、创建迭代器的的功能与语料库、词向量的信息,分别对应了 torchtext.data、torchtext.datasets 和 torchtext.vocab 三个子模块。本文参考了三篇文章。 1. 语料库 torchtext.datasetsTorchText 内建的语料库有: Language Modeling WikiText-2 WikiText103 PennTreebank Sentiment Analysis SST IMDb Text Classification TextClassificationDataset AG_NEWS SogouNews DBpedia YelpReviewPolarity YelpReviewFull YahooAnswers AmazonReviewPolarity AmazonReviewFull Question Classification TREC Entailment SNLI MultiNLI Machine Translation Multi30k IWSLT WMT14 Sequence Tagging UDPOS CoNLL2000Chunking Question Answering BABI20 Unsupervised Learning EnWik9 2. 预训练的词向量 torchtext.vocabTorchText 内建的预训练词向量有: charngram.100d fasttext.en.300d fasttext.simple.300d glove.42B.300d glove.840B.300d glove.twitter.27B.25d glove.twitter.27B.50d glove.twitter.27B.100d glove.twitter.27B.200d glove.6B.50d glove.6B.100d glove.6B.200d glove.6B.300d 3. 数据读取、数据框的创建 torchtext.data3.1 创建 FieldField 可以理解为一个告诉 TorchText 如何处理字段的声明。 torchtext.data.Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False, truncate_first=False, stop_words=None, is_target=False) 参数很多,这里仅仅介绍主要参数: sequential:是否为已经被序列化的数据,默认为 True; use_vocab:是否应用词汇表。若为 False 则数据应该已经是数字形式,默认为 True; init_token:序列开头填充的 token,默认为 None 即不填充; eos_token:序列结尾填充的 token,默认为 None 即不填充; lower:是否将文本转换为小写,默认为 False; tokenize:分词器,默认为 string.split; batch_first:batch 是否在第一维上; pad_token:填充的 token,默认为 ““; unk_token:词汇表以外的词汇的表示,默认为 ““; pad_first:是否在序列的开头进行填充;默认为 False; truncate_first:是否在序列的开头将序列超过规定长度的部分进行截断;默认为 False; stop_words:是否过滤停用词,默认为 False; is_target:这个 Field 是否为标签,默认为 False。 tokenize 可以使用 SpaCy 的分词功能,使用以前要先构建分词功能: 1234import spacyspacy_en = spacy.load('en')def tokenizer(text): return [token for toekn in spacy_en.tokenizer(text)] spacy 分词的效果比原生的 split 函数好一点,但是速度也慢一些。然后可以创建对应文本的 Field 了: 12TEXT = data.Field(sequential=True, tokenize=tokenizer, lower=True) # 假设文本为 raw dataLABEL = data.Field(sequential=False, use_vocab=False) # 假设标签为离散的数字变量 3.2 创建 Dataset如果文本数据保存在 csv、tsv 或 json 文件中,我们优先使用 torchtext.data.TabularDataset 进行读取。 torchtext.data.TabularDataset(path, format, fields, skip_header=False, csv_reader_params={}, **kwargs) path:数据的路径; format:文件的格式,为 csv、tsv 或 json; fields:上面已经定义好的 Field; skip_header:是否跳过第一行; csv_reader_params:当文件为 csv 或 tsv 时,可以自定义文件的格式。 例子: 1234567train, val = data.TabularDataset.splits( path='.', train='train.csv',validation='val.csv', format='csv',skip_header=True, fields=[('PhraseId',None),('SentenceId',None),('Phrase', TEXT), ('Sentiment', LABEL)])test = data.TabularDataset('test.tsv', format='tsv',skip_header=True, fields=[('PhraseId',None),('SentenceId',None),('Phrase', TEXT)]) 上面的例子说,'PhraseId' 和 'SentenceId' 不读取(Field 为 None),'Phrase' 以 TEXT 的方式进行读取,'Sentiment' 以 LABEL 的方式进行读取。 3.3 建立词汇表现在我们需要将词转化为数字,并在模型中载入预训练好的词向量。词汇表存储在之前声明好的 Field 里面。 1234567891011121314TEXT.build_vocab(train_data, # 建词表是用训练集建,不要用验证集和测试集 max_size=400000, # 单词表容量 vectors='glove.6B.300d', # 还有'glove.840B.300d'已经很多可以选 unk_init=torch.init.xavier_uniform # 初始化train_data中不存在预训练词向量词表中的单词)# 在神经网络里加载词向量pretrained_embeddings = TEXT.vocab.vectorsmodel.embedding.weight.data.copy_(pretrained_embeddings)UNK_IDX = REVIEW.vocab.stoi[REVIEW.unk_token]PAD_IDX = REVIEW.vocab.stoi[REVIEW.pad_token]# 因为预训练的权重的unk和pad的词向量不是在我们的数据集语料上训练得到的,所以最好置零model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM) 3.4 创建迭代器迭代器推荐使用 BucketIterator,因为它会将文本中长度相似的序列尽量放在同一个 batch 里,减少 padding,从而减少计算量,加速计算。 1torchtext.data.BucketIterator(dataset, batch_size, sort_key=None, device=None, batch_size_fn=None, train=True, repeat=False, shuffle=None, sort=None, sort_within_batch=None) dataset:目标数据; batch_size:batch 的大小; sort_key:排序的方式默认为 None; device:载入的设备,默认为 CPU; batch_size_fn:取 batch 的函数,默认为 None; train:是否为训练集,默认为 True; repeat:在不同的 epoch 中是否重复相同的 iterater,默认为 False; shuffle:在不同的 epoch 中是否打乱数据的顺序,默认为 None; sort:是否根据 sort_key 对数据进行排序,默认为 None; sort_within_batch:是否根据 sort_key 对每个 batch 内的数据进行降序排序。 举例: 123456train_iter, val_iter = data.BucketIterator.split((train, val), batch_size=128, sort_key=lambda x: len(x.Phrase), shuffle=True,device=DEVICE)# 在 test_iter , sort一定要设置成 False, 要不然会被 torchtext 搞乱样本顺序test_iter = data.Iterator(dataset=test, batch_size=128, train=False, sort=False, device=DEVICE) 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 14:其它功能","slug":"DL-PyTorch-折桂-14:其它功能","date":"2020-06-04T17:09:33.000Z","updated":"2020-06-04T19:33:17.060Z","comments":true,"path":"2020/06/04/DL-PyTorch-折桂-14:其它功能/","link":"","permalink":"https://vincent507cpu.github.io/2020/06/04/DL-PyTorch-%E6%8A%98%E6%A1%82-14%EF%BC%9A%E5%85%B6%E5%AE%83%E5%8A%9F%E8%83%BD/","excerpt":"本以为 PyTorch 的文章要写两个月,结果发现 PyTorch 真的太轻了,写了不到一个月就写完了。本篇为完结篇,对一些零星的功能进行总结。","text":"本以为 PyTorch 的文章要写两个月,结果发现 PyTorch 真的太轻了,写了不到一个月就写完了。本篇为完结篇,对一些零星的功能进行总结。 1. torch.nn.utils 里的一些功能1.1 梯度剪枝在 PyTorch 折桂 8:torch.nn.init 里提到过梯度爆炸的问题,当时我们的解决方法是对神经元权重的初始化进行控制,这里再介绍一个简单粗暴的方式:直接限制权重的上限。对应导数超过上限的权重,将其导数重置为上限值。 torch.nn.utils.clip_grad_value_(parameters, clip_value) parameters:需要修改的权重 clip_value:权重的上限12345678>>> weight = torch.tensor((10.), requires_grad=True)>>> relu = nn.ReLU() # 对大于 0 的值,ReLU 的处理结果为 1.>>> out = relu(weight)>>> weight.backward() # 反向传播>>> nn.utils.clip_grad_value_(weight, 0.5) # 梯度从 1.0 被限制为 0.5>>> print(weight.grad)tensor(0.5000) 可以看到,clip_grad_value_ 为 inplace 操作,需要在 Tensor.backward 与 optimizer.step 之间使用。 除此以外,还有一个 torch.nn.utils.clip_grad_norm_(parameters, max_norm, norm_type=2) 函数,将若干个权重修改为服从正态分布的范围,这里不多赘述。 1.2 PyTorch 对可变长度序列的处理在 NLP 任务中,我们经常要处理不定长度的序列。PyTorch 提供了将不定长度的序列进行打包的函数。 torch.nn.utils.rnn.pad\\_sequence(sequences, batch\\_first=False, padding\\_value=0) 将不定长序列补全至最长序列的长度。接受三个参数: sequences:接受补全的序列; batch\\_first:批是否为第一个维度,默认为 False; padding\\_value:填充的值,默认为 0。12345>>> a = torch.ones(25, 300)>>> b = torch.ones(22, 300)>>> c = torch.ones(15, 300)>>> torch.nn.utils.rnn.pad_sequence([a, b, c]).size()torch.Size([25, 3, 300]) torch.nn.utils.rnn.pack\\_sequence(sequences, enforce\\_sorted=True) 将序列直接打包成一个 PackedSequence 实例。有两个参数: sequences:要打包的序列; enforce\\_sorted:若为 True,则将序列以长度的降序进行排列,默认为 True。12345>>> a = torch.tensor([1,2,3])>>> b = torch.tensor([4,5])>>> c = torch.tensor([6])>>> torch.nn.utils.rnn.pack_sequence([a, b, c], enforce_sorted=False)PackedSequence(data=tensor([1, 4, 6, 2, 5, 3]), batch_sizes=tensor([3, 2, 1]), sorted_indices=tensor([0, 1, 2]), unsorted_indices=tensor([0, 1, 2])) 除了 padding 与裁剪将所有序列统一为定长以外,PyTorch 还提供了两个函数将不定长度序列打包和解包。 torch.nn.utils.rnn.pack\\_padded\\_sequence(input, lengths, batch\\_first=False, enforce\\_sorted=True) 将一个不定长度的序列进行打包,返回一个 PackedSequence 实例。有 4 个参数: input:一个 T x B x * 尺寸的序列,T 为序列中最长的序列的长度,B 为 batch 的数量,* 为每个序列的维度(可以为 0); lengths:单个序列长度的列表; batch\\_first:是否以 batch 为第一个维度; enforce\\_sorted:是否对序列以每个序列的长度进行降序排序。123456>>> seq = torch.tensor([[1,2,0], [3,0,0], [4,5,6]])>>> lens = [2, 1, 3]>>> packed = torch.nn.utils.rnn.pack_padded_sequence(seq, lens, batch_first=True, enforce_sorted=False)>>> packedPackedSequence(data=tensor([4, 1, 3, 5, 2, 6]), batch_sizes=tensor([3, 2, 1]), sorted_indices=tensor([2, 0, 1]), unsorted_indices=tensor([1, 2, 0])) 还有一个与之相反的解包函数: torch.nn.utils.rnn.pad\\_packed\\_sequence(sequence, batch\\_first=False, padding\\_value=0.0, total\\_length=None) 这个函数接受一个 PackedSequence 实例,有 4 个参数: sequence:需要进行解包的序列; batch\\_first:是否以 batch 为第一维; padding\\_value:解包后填充的值,默认为 0; total\\_length:将所有序列填充至 total\\_length 的长度。如果这个值小于最长序列的长度,将抛出异常。 这个函数返回两个张量,解包后的序列和原始序列的长度。 1234567>>> seq_unpacked, lens_unpacked = torch.nn.utils.rnn.pad_packed_sequence(packed, batch_first=True)>>> seq_unpackedtensor([[1, 2, 0], [3, 0, 0], [4, 5, 6]])>>> lens_unpackedtensor([2, 1, 3]) 2. GPU 的使用2.1 检查系统内 GPU 的状态可以使用 nvidia-smi 命令。在 Jupyter Notebook 里要在命令前加上 !。下面为 Google Colab 上的 GPU 状态: 123456789101112131415161718>>> !nvidia-smiThu Jun 4 16:47:42 2020 +-----------------------------------------------------------------------------+| NVIDIA-SMI 440.82 Driver Version: 418.67 CUDA Version: 10.1 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. ||===============================+======================+======================|| 0 Tesla K80 Off | 00000000:00:04.0 Off | 0 || N/A 69C P8 33W / 149W | 11MiB / 11441MiB | 0% Default |+-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+| Processes: GPU Memory || GPU PID Type Process name Usage ||=============================================================================|| No running processes found |+-----------------------------------------------------------------------------+ 2.2 在 PyTorch 内检查可用 GPU可以使用 torch.cuda.is\\_available()。 12>>> torch.cuda.is_available()True 2.3 将神经网络与张量在 CPU 与 GPU 之间移动有两种方法: 1234567# 第一种方法x = x.cuda() # 将 x 移动到 GPU 上x = x.cpu() # 将 x 移动到 CPU 上# 第二种方法x = x.to('cuda') # 将 x 移动到 GPU 上x = x.to('cpu') # 将 x 移动到 CPU 上 以上仅为一张 GPU 的情况。GPU 上仅可以进行运算,其它操作需要将张量移动到 CPU 上完成。 3. 模型的保存与读取保存的模型如果在 GPU 上,需要先转移到 CPU 上。保存模型既可以保存整个模型,也可以只保存模型的参数权重。 123456789# 保存整个模型torch.save(the_model, PATH)# 只保存模型的参数torch.save(the_model.state_dict(), PATH)# 读取整个模型the_model = torch.load(PATH)# 只读取模型的权重the_model.load_state_dict(torch.load(PATH)) 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 13:RNN","slug":"DL-PyTorch-折桂-13:RNN","date":"2020-05-30T18:49:05.000Z","updated":"2020-06-01T17:54:52.295Z","comments":true,"path":"2020/05/30/DL-PyTorch-折桂-13:RNN/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/30/DL-PyTorch-%E6%8A%98%E6%A1%82-13%EF%BC%9ARNN/","excerpt":"RNN(recurrent neural network)擅长处理序列内容,因此在 NLP 中应用较多。然而 RNN 的拓扑结构与 MLP、CNN 完全不同,因此学习起来会有很大的困扰。本文是介绍如何用锤子敲钉子的,而不是如何造锤子或者为什么要敲的。所以 RNN 的原理与使用场景在这里从略。然而了解 RNN 的工作原理对正确使用 RNN 大有裨益,所以在此附上参考资料 ,供读者参考。","text":"RNN(recurrent neural network)擅长处理序列内容,因此在 NLP 中应用较多。然而 RNN 的拓扑结构与 MLP、CNN 完全不同,因此学习起来会有很大的困扰。本文是介绍如何用锤子敲钉子的,而不是如何造锤子或者为什么要敲的。所以 RNN 的原理与使用场景在这里从略。然而了解 RNN 的工作原理对正确使用 RNN 大有裨益,所以在此附上参考资料 ,供读者参考。 RNN 主要有三个实现:原始 RNN 和 RNN 的改进版 LSTM 和 GRU。一个循环神经网络主要由输入层、隐藏层(RNN 层)、输出层构成,两层之间由激活函数相连。不像 MLP、CNN 那样多个隐藏层必须显式地写出来,RNN 的隐藏层可以以一个 RNN 的参数表示。所以 RNN 网络的格式是:$$y=\\alpha(RNN(x))$$而 RNN、LSTM 和 GRU 的类也是大同小异: 123torch.nn.RNN(input_size, hidden_size, num_layers=1, nonlinearity='tanh', bias=True, batch_first=False, dropout=0, bidirectional=False)torch.nn.LSTM(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False)torch.nn.GRU(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False) 可以看到,torch.nn.RNN 比其它两个类就多了一个参数 nonlinearity,这是因为 RNN 里的激活函数可以是 tanh 也可以说 relu,而另外两个类的激活函数已经定义好了。下面逐一说明一下: input_size:输入 x 中的特征数; hidden_size:隐藏层的特征数; num_layers:隐藏层的数量; bias:是否有偏置项; batch_first:数据维度中批是否在第一项; dropout:是否有 dropout; bidirectional:RNN 是单向还是双向。 RNN 实例接受的参数有两个:一个张量和上一次的隐藏层: 12>>> rnn = RNN(input_size, hidden_size)>>> output, hidden_current = rnn(input, hidden_previous) RNN 的输出有两个,分别是输出值和当前的隐藏层。在 batch_first=True 的时候,当前的隐藏层的维度为 (batch, seq_len, num_directions*hidden_size),而前一个隐藏层的维度为 batch, num_layers*num_directions, hidden_size。我们来看一个例子:我们首先创建一个接受维度为 (1, 5, 2)(每批一个数据点,每个数据点有 5 个特征,两个隐藏层)的 RNN 层,其它参数使用默认参数: 1>>> rnn = torch.nn.LSTM(1, 5, 2, batch_first=True) 然后创建一个两批、每批 3 个数据点、每个数据点一个特征的张量: 123456789>>> a = torch.rand(2, 3, 1)>>> print(a)tensor([[[0.9472], [0.1003], [0.7684]], [[0.8318], [0.7707], [0.2214]]]) 将这个张量喂给 RNN: 1>>> out, h = rnn(a) 这里我们没有给 RNN 网络是一个隐藏层的数值,所以 RNN 自动创建了一个权重全为 0 的隐藏层。我们看一下输出: 123456789101112131415161718192021222324252627>>> print(out.size())torch.Size([2, 3, 5])>>> print(out)tensor([[[ 0.0620, 0.0790, -0.0028, -0.1094, 0.1258], [ 0.0840, 0.0963, -0.0315, -0.1287, 0.1837], [ 0.0983, 0.1190, -0.0491, -0.1257, 0.2184]], [[ 0.0612, 0.0764, -0.0047, -0.1101, 0.1244], [ 0.0865, 0.1130, -0.0228, -0.1283, 0.1899], [ 0.0992, 0.1151, -0.0485, -0.1235, 0.2183]]], grad_fn=<TransposeBackward0>) >>> print(h[0].size())torch.Size([2, 2, 5])>>> print(h)(tensor([[[-0.0562, -0.0368, -0.1863, -0.2322, 0.0921], [-0.0424, -0.0347, -0.1600, -0.1809, 0.1258]], [[ 0.0983, 0.1190, -0.0491, -0.1257, 0.2184], [ 0.0992, 0.1151, -0.0485, -0.1235, 0.2183]]], grad_fn=<StackBackward>), tensor([[[-0.1437, -0.0643, -0.3578, -0.3889, 0.1648], [-0.1044, -0.0650, -0.3243, -0.3031, 0.2357]], [[ 0.1939, 0.1787, -0.0983, -0.2349, 0.3685], [ 0.1932, 0.1733, -0.0973, -0.2295, 0.3687]]], grad_fn=<StackBackward>)) 为什么会是这样呢?模型和输入张量的维度分别为: 1234LSTM(input_size, hidden_size, num_layer)1 5 2trnsor(batch (if 'batch_first=True'), seq_len, input_size)2 3 1 输出张量的维度为: 1234out.shape: 2, 3, 5 batch, seq_len, num_directions*hidden_sizehidden.shape: 2, 2, 5 num_layers*num_directions, batch, hidden_zie 是不是一目了然?这里要注意,RNN 在内部运算的时候,张量的维度是 (inpu_size, batch, hidden_size),虽然我们设置 batch_first=True 将输入和输出的张量的 batch 放到了第一维,输入和输出的 hidden 的 batch 仍然在第二维。 RNN 的改进版 LSTM 和 GRU 的原理可以看这里 1 2 3。 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 12:CNN","slug":"DL-PyTorch-折桂-12:CNN","date":"2020-05-27T17:31:32.000Z","updated":"2020-05-27T17:59:06.305Z","comments":true,"path":"2020/05/27/DL-PyTorch-折桂-12:CNN/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/27/DL-PyTorch-%E6%8A%98%E6%A1%82-12%EF%BC%9ACNN/","excerpt":"本文尽量不涉及 CNN(卷积神经网络)的原理,仅讨论 CNN 的 PyTorch 实现。CNN 独有的层包括卷积层(convolution layer),池化层(pooling layer),转置卷积层(transposed convolution layer),反池化层(unpooling layer)。卷积层与池化层在 CNN 中最常用,而转置卷积层与反池化层通常用于计算机视觉应用里的图像再生,对于 NLP 来说应用不多,不再赘述。","text":"本文尽量不涉及 CNN(卷积神经网络)的原理,仅讨论 CNN 的 PyTorch 实现。CNN 独有的层包括卷积层(convolution layer),池化层(pooling layer),转置卷积层(transposed convolution layer),反池化层(unpooling layer)。卷积层与池化层在 CNN 中最常用,而转置卷积层与反池化层通常用于计算机视觉应用里的图像再生,对于 NLP 来说应用不多,不再赘述。 1. 卷积神经网络工作原理 从工程实现的角度来说,一个 CNN 网络可以分成两部分:特征学习阶段与分类阶段。 特征学习层由多层卷积层与池化层叠加,之间使用 relu 作为激活函数。卷积层的作用是使信息变深(层数增加),通常会使层的长宽减小;池化层的作用是使信息变窄,提取主要信息。之后进入分类层,将信息变成一维向量,经过 1-3 层全连接层与 relu 之后,经过最终的 softmax 层进行分类;若目标为二分类,则也可以经过 sigmoid 层。 2. convolution layer 卷积层 卷积层有三个类,分别是: torch.nn.Conv1d torch.nn.Conv2d torch.nn.Conv3d这三个类分别对应了文本(一维数据)、图片(二维数据)和视频(三维数据)。它们的维度如下: 一维数据是一个 3 维张量:batch * channel * feature; 二维数据是一个 4 维张量:batch * channel * weight * height; 三维数据是一个 5 维张量:batch * channel * frame * weight * height。 可见,三个类处理的数据的前两维是完全一致的。此外,三个类的参数也完全一致,以 torch.nn.Conv2d 为例: 1torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros') in_channels:输入张量的层数; out_channels:输出张量的层数; kernel_size:卷积核的大小,整数或元组; stride:卷积的步长,整数或元组; padding:填充的宽度,整数或元组; dilation:稀释的跨度,整数或元组; groups:卷积的分组; bias:偏置项; padding_mode:填充的方法。 当所有尺寸均为矩形的时候,输出张量的长和宽的数值为:$$dimension=\\frac{H_{in}+2\\times padding-dilution\\times (kernel_size-1)-1}{stride}$$ 一个 trick:当 $kernel_size=3$,$padding=1$,$stride=1$ 的时候,输入张量和输出张量的长宽是不变的。 池化层的权重是随机初始化的,不过我们也可以手动设定。 123456789101112131415>>> conv = torch.nn.Conv2d(1, 1, 3, bias=0.) # 定义一个 3x3 的卷积核>>> nn.init.constant_(conv.weight.data, 1.) # 卷积核的权重设为 1.>>> print(Convolutional.weight.data)tensor([[[[1., 1., 1.], [1., 1., 1.], [1., 1., 1.]]]])>>> tensor = torch.linspace(16., 1., 16).reshape(1, 1, 4, 4) # 定义一个张量>>> print(tensor)tensor([[[[16., 15., 14., 13.], [12., 11., 10., 9.], [ 8., 7., 6., 5.], [ 4., 3., 2., 1.]]]])>>> conv(tensor) # 卷积操作tensor([[[[99., 90.], [63., 54.]]]], grad_fn=<MkldnnConvolutionBackward>) 上例中,卷积核是一个 $3\\times3$ 的全 1 张量;在卷积运算中,卷积核先与张量中前三排中的前三个元素进行 elementwise 的乘法,然后相加,得到输出张量中的第一个元素。然后向右滑动一个元素(因为 stride 默认是 1),重复卷积运算;既然达到末尾,返回左侧向下滑动一个单位,继续运算,直到到达末尾。 3. pool layer 池化层与卷积层对应的,池化层分为最大池化和平均池化两种,每种也有三个类: torch.nn.MaxPool1d torch.nn.MaxPool2d torch.nn.MaxPool3d torch.nn.AvgPool1d torch.nn.AvgPool2d torch.nn.AvgPool3d 所谓“池化”,就是按照一定的规则(选取最大值或计算平均值)在输入层的窗口里计算数据,返回计算结果。它们的参数也一致,最大池化层只有三个参数: kernel_size:卷积核的大小,整数或元组; stride:卷积的步长,整数或元组; padding:填充的宽度,整数或元组; 一维平均池化层有额外的两个参数: ceil_mode:对结果进行上取整; count_include_pad:是否将 padding 纳入计算; 二维及三维平均池化层有额外的一个参数: divisor_override:指定一个除数。 一个 trick:当 $\\text{kernel_size}=2$,$\\text{stride}=2$ 的时候,输出张量的尺寸是输入张量的一半。 1234>>> pool = torch.nn.MaxPool2d(2) # 定义一个大小为 2x2 的核>>> pool(tensor) # 池化操作tensor([[[[16., 14.], [ 8., 6.]]]]) 4. CNN 实战我们还是使用《[DL] PyTorch 折桂 11:使用全连接网络进行手写数字识别》 里的任务,只不过这一次我们使用 CNN 搭建神经网络。除了第 2、5 步,其它代码都是一样的,所以这里只有这两步的代码,其它代码请看前文。 构建神经网络时唯一要注意的是最后的全连接层的入度。 1234567891011121314class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() self.conv = nn.Conv2d(1, 4, 3, 1, 1) # 维度不变 self.pool = nn.MaxPool2d(2, 2) # 维度减半 self.fc = nn.Linear(28*28, 10) self.softmax = nn.LogSoftmax(dim=1) def forward(self, x): x = F.relu(self.conv(x)) x = F.relu(self.pool(x)) x = self.fc(x.view(x.shape[0], -1)) out = self.softmax(x) return out 这个模型里,每一个 batch 经过卷积层以前的维度是 [batch, 1, 28, 28],经过卷积层后长宽不变而通道数变成了 4;通过池化层以后每个 batch 的维度变成了 [batch, 4, 14, 14],所以全连接层的入度不变。还有一点要注意的是因为 CNN 接受一个二维张量。所以打平这个操作要放在模型里面的全连接层之前,而不是训练中。训练 15 个 epoch: 123456789101112131415Epoch 0 - Training loss: 0.5372020660528242Epoch 1 - Training loss: 0.25464658567836795Epoch 2 - Training loss: 0.19804853362156383Epoch 3 - Training loss: 0.1687760797144571Epoch 4 - Training loss: 0.15073536825316675Epoch 5 - Training loss: 0.13678724837126033Epoch 6 - Training loss: 0.1266822514833132Epoch 7 - Training loss: 0.11664468624781985Epoch 8 - Training loss: 0.10935285677617071Epoch 9 - Training loss: 0.1023956656144229Epoch 10 - Training loss: 0.09896873006684535Epoch 11 - Training loss: 0.09299984435115986Epoch 12 - Training loss: 0.08871795376762748Epoch 13 - Training loss: 0.08644302016886662Epoch 14 - Training loss: 0.08259313310315805 上一次使用全连接神经网络训练 15 轮后的 loss 是 0.27,看来 CNN 网络的效果好很多。测试一下: 123456789101112131415>>> correct_count, all_count = 0, 0>>> with torch.no_grad():... for data in valloader:... images, labels = data... outputs = cnn(images)... _, predicted = torch.max(outputs.data, 1)... all_count += labels.size(0)... correct_count += (predicted == labels).sum().item()... print(\"Number Of Images Tested =\", all_count)... print(\"\\nModel Accuracy =\", (correct_count/all_count))Number Of Images Tested = 10000Model Accuracy = 0.9705 准确率果然超过了 97%。CNN YES! 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 11:使用全连接网络进行手写数字识别","slug":"DL-PyTorch-折桂-11:使用全连接网络进行手写数字识别","date":"2020-05-27T13:36:00.000Z","updated":"2020-05-27T13:46:12.229Z","comments":true,"path":"2020/05/27/DL-PyTorch-折桂-11:使用全连接网络进行手写数字识别/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/27/DL-PyTorch-%E6%8A%98%E6%A1%82-11%EF%BC%9A%E4%BD%BF%E7%94%A8%E5%85%A8%E8%BF%9E%E6%8E%A5%E7%BD%91%E7%BB%9C%E8%BF%9B%E8%A1%8C%E6%89%8B%E5%86%99%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB/","excerpt":"光说不练假把式,现在我们已经积累了那么多的 PyTorch 知识,让我们实践一下吧! 本文从简单的手写数字识别入手,参考了若干文章: Handwritten Digit Recognition Using PyTorch — Intro To Neural Networks Building Your First PyTorch Solution 1. PyTotch 使用总览使用 PyTorch 进行深度学习的步骤主要分以下七步: 准备数据,包括数据的预处理和封装; 模型搭建; 选择损失函数; 选择优化器; 迭代训练; 评估模型; 保存模型。","text":"光说不练假把式,现在我们已经积累了那么多的 PyTorch 知识,让我们实践一下吧! 本文从简单的手写数字识别入手,参考了若干文章: Handwritten Digit Recognition Using PyTorch — Intro To Neural Networks Building Your First PyTorch Solution 1. PyTotch 使用总览使用 PyTorch 进行深度学习的步骤主要分以下七步: 准备数据,包括数据的预处理和封装; 模型搭建; 选择损失函数; 选择优化器; 迭代训练; 评估模型; 保存模型。 其实第 3 - 5 步反而是最简单的,复杂的地方主要集中在第 1、6 步上。在本文中,我们将使用 PyTorch 搭建一个全连接神经网络,用来识别 MNIST 数据框中的手写数字。本文不涉及 GPU 的使用。 2. PyTorch实践2.0 载入必须的库1234567import numpy as npimport matplotlib.pyplot as pltimport torchimport torchvisionfrom torchvision import datasets, transformsfrom torch import nn, optim 2.1 准备数据首先简单介绍一下我们使用的数据库。MNIST 数据库由美国国家标准和科技局推出,包含了 70000 张手写的 0 - 9 的图片,每个数字 7000 张。训练集 60000 张,测试集 10000 张。每张图片都经过预处理,转换成了 28*28 尺寸的一维黑白图像。 2.1.1 获取数据我们从 torchvision.datasets 获取数据: 123456transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)), ])trainset = datasets.MNIST('./data', download=True, train=True, transform=transform)testset = datasets.MNIST('./data', download=True, train=False, transform=transform) transforms 库在下载图像数据时会对数据进行处理。transforms.ToTensor() 将一个维度为 (H x W x C) 的 RGB 文件转换为一个维度为 (C x H x W) 的张量,数值范围从 [0, 255] 转换为 [0, 1]。transforms.Normalize() 将数据进行标准化处理,使其满足正态分布。transforms.Compose() 将所有转换打包。 设置好下载时的预处理方式,我们就可以下载数据了。第一个参数 './data' 指定了保存的地址,第三个参数 train 的值 True 和 False 分别对应了训练集和测试集。 2.1.2 封装数据我们不能把 60000 个图片一次全部给神经网络,需要按照 batch 的尺寸分批给。有时候在给之前还要进行随机选择。关于封装数据,请见前文《[DL] PyTorch 折桂 5:PyTorch 模块总览 & torch.utils.data》。这一次我们设置 batch size 为 64. 12trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=True) 2.1.3 exploratory data analysis (EDA)拿到数据以后很重要的步骤是对数据进行基本的了解,包括数量、维度等等。 1234>>> len(trainset)60000>>> len(testset)10000 接下来对图片进行可视化: 12345678def show_batch(batch): im = torchvision.utils.make_grid(batch) plt.imshow(np.transpose(im.numpy(), (1, 2, 0)))dataiter = iter(trainloader)images, labels = dataiter.next()show_batch(images) 查看图片的尺寸: 12>>> images[0].shapetorch.Size([1, 28, 28]) 2.2 搭建模型搭建模型有两种方法:简单但稍欠灵活性的 nn.Sequential 和相反的模块化搭建方法。因为后续还会有实战,这次我们仅仅搭建一个最简单的一层全连接网络。关于搭建模型使用的 nn.Module 的详情请看 《[DL] PyTorch 折桂 6:torch.nn.Module》。 首先来看如何使用 nn.Sequential: 12model = nn.Sequential(nn.Linear(28\\*28, 10), nn.LogSoftmax(dim=1)) 我们也可以使用模块化方式搭建模型,与 nn.Sequential 方法搭建的模型时等价的: 123456789101112class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc = nn.Linear(28*28, 10) self.softmax = nn.LogSoftmax(dim=1) def forward(self, x): x = self.fc(x) x = self.softmax(x) return xmodel = Net() # 模块化构建神经网络需要先实例化 因为全连接层使用矩阵乘法进行运算,输入应该是一个一维向量,而且输入的最后一维的维度要与全连接层的入度相同。所以我们需要先把一个图片打平(后面训练的时候做),然后将打平后的长度作为全连接层的入度。对于一个分类模型来说,全连接层的出度是分类的数量。因为我们想对 0 - 9 一共 10 个数字进行分类,所以出度为 10。 重点说一下 nn.LogSoftmax。softmax 是分类任务中常用的手段,将目标值转化为范围为 $(0,1)$ 之间的,所有值的和为 1 的概率分布。因为 softmax 的计算公式为 $\\frac{e^{x_i}}{\\sum e^{x_i}}$,如果 $x$ 过小会导致它的概率极小,超过 Python 的数据精度而为 0,所以我们一般对概率分布取对数,将概率分布转化为 $(-\\infty,0)$ 的分布。nn.LogSoftmax 就是进行这个运算的的类。nn.LogSoftmax 对应的损失函数为 nn.NLLLoss。因为我们要对第二维进行似然估计,所以明确 dim=1。 关于损失函数的具体介绍请看《[DL] PyTorch 折桂 9:损失函数》。 2.3 损失函数上面已经提到了,如果使用 nn.LogSoftmax 作为模型的输出,损失函数应该使用 nn.NLLLoss。这里不多赘述。 1criterion = nn.NLLLoss() 2.4 优化器《[DL] PyTorch 折桂 10:torch.optim》 提到,通常我们可以无脑选择 torch.optim.Adam。但是 MNIST 手写数字识别是一个非常简单的任务,使用 SGD 足矣,这次我们使用 torch.optim.SGD。 1optimizer = optim.SGD(model.parameters(), lr=0.003, momentum=0.9) 2.5 迭代训练每一次的训练的流程如下: 优化器的导数记录清零; 使用模型得到预测值; 使用损失函数计算预测值与真实值之间的损失; 反向传播; 更新权重。 因为优化器里的导数是累积的,在每一轮训练中都要执行第一步,在第四步前还是第五步后无所谓。此外可以根据需要加入进度报告。代码如下: 123456789101112131415for e in range(epochs): running_loss = 0 for images, labels in trainloader: images = images.view(images.shape[0], -1) # 打平数据 optimizer.zero_grad() # 导数清零 output = model(images) # 得到预测值 loss = criterion(output, labels) # 计算损失 loss.backward() # 反向传播 optimizer.step() # 优化权重 running_loss += loss.item() else: print(\"Epoch {} - Training loss: {}\".format(e, running_loss/len(trainloader))) 我们设置 epochs = 15 运行一下: 123456789101112131415Epoch 0 - Training loss: 0.46956403385093215Epoch 1 - Training loss: 0.33383476238515075Epoch 2 - Training loss: 0.31380205746017287Epoch 3 - Training loss: 0.3029081499509847Epoch 4 - Training loss: 0.2956352831442346Epoch 5 - Training loss: 0.2905418651063305Epoch 6 - Training loss: 0.2873595496103453Epoch 7 - Training loss: 0.2838163320173714Epoch 8 - Training loss: 0.2816906003777915Epoch 9 - Training loss: 0.27968987264930567Epoch 10 - Training loss: 0.27738782898512987Epoch 11 - Training loss: 0.2752566468248616Epoch 12 - Training loss: 0.27330243247134217Epoch 13 - Training loss: 0.2733802362513949Epoch 14 - Training loss: 0.27021837964463336 可以看到,模型似乎在学习,在第 10 个 epoch 稳定。 2.6 评估模型PyTorch 没有 TensorFlow 方便的评估功能,所有评估都要手工定义。 123456789101112131415161718192021correct_count, all_count = 0, 0for images,labels in valloader: for i in range(len(labels)): img = images[i].view(1, 784) # 取出第 i 个元素 with torch.no_grad(): # 关闭求导功能 logps = model(img) # 获得预测值 ps = torch.exp(logps) # 将对数去掉 pred_label = torch.argmax(ps[0]) # 获得最大概率的标签 true_label = labels[i] # 获得真实数据的标签 if(true_label == pred_label): # 如果预测与真实值相同则加 1 correct_count += 1 all_count += 1print(\"Number Of Images Tested =\", all_count)print(\"Model Accuracy =\", (correct_count/all_count)) 详情见代码评论。这里只说一点:在测试的时候我们不需要模型进行更新,关闭模型更新的方法除了代码里的 with torch.no_grad() 以外,还可以使用 model.eval()。我们看一下测试结果: 12Number Of Images Tested = 10000Model Accuracy = 0.9222 我们的模型仅仅使用了一个全连接层就获得了 92.2%的准确率,如果我们加入多个全连接层并且使用 dropout 等方法,准确率可以轻松超过 97%。 2.7 保存模型PyTorch 的模型文件的扩展名一般是 pt 或 pth。 1torch.save(model, './my_mnist_model.pt')","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 10:torch.optim","slug":"DL-PyTorch-折桂-10:torch-optim","date":"2020-05-24T20:44:12.000Z","updated":"2020-05-27T13:46:56.934Z","comments":true,"path":"2020/05/24/DL-PyTorch-折桂-10:torch-optim/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/24/DL-PyTorch-%E6%8A%98%E6%A1%82-10%EF%BC%9Atorch-optim/","excerpt":"1. 优化器优化器就是根据导数对参数进行更新的类,不同的优化器本质上都是梯度下降法,只是在实现的细节上有所不同。类似的,PyTorch 里的所有优化器都继承自 torch.optim.Optimizer 这个基类。 1torch.optim.Optimizer(params, defaults) params 是优化器要优化的权重,是一个迭代器;defaults 是优化器在参数以外的默认参数,根据所被继承的类有所不同。","text":"1. 优化器优化器就是根据导数对参数进行更新的类,不同的优化器本质上都是梯度下降法,只是在实现的细节上有所不同。类似的,PyTorch 里的所有优化器都继承自 torch.optim.Optimizer 这个基类。 1torch.optim.Optimizer(params, defaults) params 是优化器要优化的权重,是一个迭代器;defaults 是优化器在参数以外的默认参数,根据所被继承的类有所不同。 1.1 优化器的种类 torch.optim.SGD(params, lr=<required parameter>, momentum=0, dampening=0, weight_decay=0, nesterov=False) 基础优化器,可以使用 momentum 来避免陷入 local minima。 torch.optim.ASGD:SGD 的改进版,使用平均随机梯度下降。 下面的若干种优化器都来自于同一个算法:Adaptive Gradient estimation,自适应梯度估计。 torch.optim.Rprop:实现 resilient backpropagation algorithm,弹性方向传播。不适用于 mini-batch,因此现在较少使用。 torch.optim.Adagrad:Adagrad 是一种自适应优化方法,是自适应的为各个参数分配不同的学习率。这个学习率的变化,会受到梯度的大小和迭代次数的影响。梯度越大,学习率越小;梯度越小,学习率越大。缺点是训练后期,学习率过小,因为 Adagrad 累加之前所有的梯度平方作为分母。 torch.optim.Adadelta:实现 Adadelta 优化方法。Adadelta 是 Adagrad 的改进。Adadelta分母中采用距离当前时间点比较近的累计项,这可以避免在训练后期,学习率过小。 torch.optim.RMSprop:实现 RMSprop 优化方法(Hinton提出),RMS 是均方根(root meam square)的意思。RMSprop 和 Adadelta 一样,也是对 Adagrad 的一种改进。RMSprop 采用均方根作为分母,可缓解 Adagrad 学习率下降较快的问题。并且引入均方根,可以减少摆动。 torch.optim.Adam:Adam 是对上面的自适应算法的改进,是一种自适应学习率的优化方法,Adam 利用梯度的一阶矩估计和二阶矩估计动态的调整学习率。吴老师课上说过,Adam 是结合了 Momentum 和 RMSprop,并进行了偏差修正。 torch.optim.Adamax:Adamax对Adam增加了一个学习率上限的概念。 torch.optim.SparseAdam:由于稀疏张量的优化器。 torch.optim.LBFGS:实现L-BFGS(Limited-memory Broyden–Fletcher–Goldfarb–Shanno)优化方法。L-BFGS属于拟牛顿算法。L-BFGS是对BFGS的改进,特点就是节省内存。1.2 创建优化器可以看出,Adam 优化器是集大成的优化器,一般无脑使用 Adam 即可。本文以 Adam 为例。1torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False) params (iterable):可用于迭代优化的参数或者定义参数组的dicts。 lr (float, optional) :学习率(默认: 1e-3) betas (Tuple[float, float], optional):用于计算梯度的平均和平方的系数(默认:(0.9, 0.999)) eps (float, optional):为了提高数值稳定性而添加到分母的一个项(默认:1e-8) weight_decay (float, optional):权重衰减(如 L2 惩罚,默认: 0) 对于 torch.optim.Adam 来说,只有 params 是必要的属性。可以以如下方法进行创建: 1optimizer = optim.Adam(model.parameters(), lr=0.0001) 也可以指定每个参数选项。 只需传递一个可迭代的 dict 来替换先前可迭代的 Variable。dict 中的每一项都可以定义为一个单独的参数组,参数组用一个 params 键来包含属于它的参数列表。其他键应该与优化器接受的关键字参数相匹配,才能用作此组的优化选项。比如: 1234optim.SGD([ {'params': model.base.parameters()}, {'params': model.classifier.parameters(), 'lr': 1e-3} ], lr=1e-2, momentum=0.9) 如上,model.base.parameters() 将使用 1e-2 的学习率,model.classifier.parameters() 将使用 1e-3 的学习率。0.9 的 momentum 作用于所有的 parameters。 1.3 优化器的属性因为优化器都继承自 torch.optim.Optimizer,所以它们的属性相同。我们先构建一个优化器的实例: 123456789101112>>> weight1 = torch.ones((2, 2))>>> optimizer = torch.optim.Adam([weight], lr=1e-2)>>> print(optimizer)Adam (Parameter Group 0 amsgrad: False betas: (0.9, 0.999) eps: 1e-08 lr: 0.01 weight_decay: 0) param_group返回优化器的参数组。参数组是一个列表,每个元素是一个组的字典。123>>> print(optimizer.param_groups)[{'params': [tensor([[1., 1.], [1., 1.]], requires_grad=True)], 'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False}] add_param_group(param_group)添加参数组。123456789101112131415161718>>> weight2 = torch.zeros(2,2)>>> optimizer.add_param_group({'params':weight2, 'lr':0.01})>>> optimizer.param_groups[{'params': [tensor([[1., 1.], [1., 1.]], requires_grad=True)], 'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False}, {'params': [tensor([[0., 0.], [0., 0.]])], 'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False}] state_dict()返回优化器的状态。这个属性与 param_group 的区别在于 state_dict() 的返回值包含了梯度的状态。12345678910111213141516171819202122232425262728>>> optimizer.state_dict(){'state': {}, # 进行反向传播以前梯度为空 'param_groups': [{'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False, 'params': [140685302219312]}]}>>> optimizer.step()>>> optimizer.state_dict(){'state': {140685302219312: {'step': 1, # 反向传播以后有了状态 'exp_avg': tensor([[0.1000, 0.1000], [0.1000, 0.1000]]), 'exp_avg_sq': tensor([[0.0010, 0.0010], [0.0010, 0.0010]])}}, 'param_groups': [{'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False, 'params': [140685302219312]}, {'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0, 'amsgrad': False, 'params': [140685312958784]}]} load_state_dict(state_dict) 载入已经保存的参数组。这个属性与模型的保存于载入一并介绍。 step()执行一次反向传播。 zero_grad()将优化器内存储的梯度清零。2. 改变学习率torch.optim.lr_scheduler 中提供了基于多种 epoch 数目调整学习率的方法。优化器需要被包含进 scheduler 实例里。12345>>> scheduler = ...(optimizer, ...) #优化器被包含进来>>> for epoch in range(100):>>> train(...)>>> validate(...)>>> scheduler.step() torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1):将每一个参数组的学习率设置为初始学习率 lr 的某个函数倍;12345678>>> # Assuming optimizer has two groups.>>> lambda1 = lambda epoch: epoch // 30>>> lambda2 = lambda epoch: 0.95 ** epoch>>> scheduler = LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])>>> for epoch in range(100):>>> train(...)>>> validate(...)>>> scheduler.step() torch.optim.lr_scheduler.MultiplicativeLR(optimizer, lr_lambda, last_epoch=-1):设置每个参数组的学习率为 $lr*\\lambda^n,n=\\frac{epoch}{step_size}$;123456>>> lmbda = lambda epoch: 0.95>>> scheduler = MultiplicativeLR(optimizer, lr_lambda=lmbda)>>> for epoch in range(100):>>> train(...)>>> validate(...)>>> scheduler.step() torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1):设置每个参数组的学习率在每 step_size 时变化一次;12345678910>>> # Assuming optimizer uses lr = 0.05 for all groups>>> # lr = 0.05 if epoch < 30>>> # lr = 0.005 if 30 <= epoch < 60>>> # lr = 0.0005 if 60 <= epoch < 90>>> # ...>>> scheduler = StepLR(optimizer, step_size=30, gamma=0.1)>>> for epoch in range(100):>>> train(...)>>> validate(...)>>> scheduler.step() torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1):设置每个参数组的学习率在达到 milestone 时变化。123456789>>> # Assuming optimizer uses lr = 0.05 for all groups>>> # lr = 0.05 if epoch < 30>>> # lr = 0.005 if 30 <= epoch < 80>>> # lr = 0.0005 if epoch >= 80>>> scheduler = MultiStepLR(optimizer, milestones=[30,80], gamma=0.1)>>> for epoch in range(100):>>> train(...)>>> validate(...)>>> scheduler.step() 它们的公共参数: lr_lambda:描述学习率变化的匿名函数; gamma:倍数系数; last_epoch:最后一次 epoch 的索引,若为 -1 则为初始 epoch。 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 9:损失函数","slug":"DL-PyTorch-折桂-9:损失函数","date":"2020-05-18T22:36:48.000Z","updated":"2020-05-24T15:27:10.474Z","comments":true,"path":"2020/05/18/DL-PyTorch-折桂-9:损失函数/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/18/DL-PyTorch-%E6%8A%98%E6%A1%82-9%EF%BC%9A%E6%8D%9F%E5%A4%B1%E5%87%BD%E6%95%B0/","excerpt":"1. 损失函数总览PyTorch 的 Loss Function(损失函数)都在 torch.nn.functional 里,也提供了封装好的类在 torch.nn 里。PyTorch 里有关有 18 个损失函数,常用的有 5 个,分别是: 回归模型: torch.nn.L1Loss torch.nn.MSELoss 分类模型: torch.nn.BCELoss torch.nn.BCEWithLogitsLoss torch.nn.CrossEntropyLoss torch.nn.NLLLoss","text":"1. 损失函数总览PyTorch 的 Loss Function(损失函数)都在 torch.nn.functional 里,也提供了封装好的类在 torch.nn 里。PyTorch 里有关有 18 个损失函数,常用的有 5 个,分别是: 回归模型: torch.nn.L1Loss torch.nn.MSELoss 分类模型: torch.nn.BCELoss torch.nn.BCEWithLogitsLoss torch.nn.CrossEntropyLoss torch.nn.NLLLoss 损失函数是用来衡量模型的单个预测与真实值的差异的:$$Loss=f(\\hat{y}-y)$$还有额外的两个概念:Cost Function(代价函数)是 N 个预测值的损失函数平均值:$$Cost=\\frac{1}{N}\\sum^N_if(\\hat{y_i}-y_i)$$而 Objective Function(目标函数)是最终需要优化的函数:$$Obj=Cost+Regularization$$ 还有其它的损失函数,学识有限,暂时不理解。希望以后有缘能够接触。 2. 回归损失函数回归模型有两种方法进行评估:MAE(mean absolute error) 和 MSE(mean squared error)。 torch.nn.L1Loss(reduction='mean') 这个类对应了 MAE 损失函数:$$\\ell=L={l_1,…l_n},\\quad l_n=|\\hat{y}-y|$$ torch.nn.MSELoss(reduction='mean') 这个类对应了 MSE 损失函数:$$\\ell=L={l_1,…l_n},\\quad l_n=(\\hat{y}-y)^2$$上面两个类中的 reduction 规定了获得 $\\ell$ 后的行为,有 none、sum 和 mean 三个。none 表示不对 $\\ell$ 进行任何处理;sum 表示对 $\\ell$ 进行求和;mean 表示对 $\\ell$ 进行平均。默认为求平均。 1234567891011121314>>> y = torch.tensor([1.1, 1.2, 1.3])>>> y_hat = torch.tensor([1., 1., 1.])>>> criterion_none = nn.L1Loss(reduction='none') # 什么都不做>>> criterion_none(y_hat, y)tensor([0.1000, 0.2000, 0.3000])>>> criterion_mean = nn.L1Loss(reduction='mean') # 求平均>>> criterion_mean(y_hat, y)tensor(0.2000)>>> criterion_sum = nn.L1Loss(reduction='sum') # 求和>>> criterion_sum(y_hat, y)tensor(0.6000) 3. 分类损失函数3.1 交叉熵自信息是一个事件发生的概率的负对数:$$I(x)=-log[p(x)]$$信息熵用来描述一个事件的不确定性公式为$$H(P)=-\\sum^N_iP(x_i)logP(x_i)$$一个确定的事件的信息熵为 0,一个事件越不确定,信息熵就越大。 交叉熵,用来衡量在给定的真实分布下,使用非真实分布指定的策略消除系统的不确定性所需要付出努力的大小,表达式为$$H(P,Q)=-\\sum^B_{i=1}P(x_i)logQ(x_i)$$相对熵又叫 “K-L 散度”,用来描述预测事件对真实事件的概率偏差。$$D_{KL}(P,Q)=E\\bigg[log\\frac{P(x)}{Q(x)}\\bigg]\\=E\\bigg[logP(x)-logQ(x)\\bigg]\\=\\sum^N_{i=1}P(x_i)[logP(x_i)-logQ(x_i)]\\=\\sum^N_{i=1}P(x_i)logP(x_i)-\\sum^N_{i=1}P(x_i)logQ(x_i)\\=H(P,Q)-H(P)$$而交叉熵的表达式为$$H(P,Q)=-\\sum^N_{i=1}P(x_i)logQ(x_i)$$可见 $H(P,Q)=H(P)+D_{KL}(P,Q)$,即交叉熵是信息熵和相对熵的和。上面的 $P$ 是事件的真实分布,$Q$ 是预测出来的分布。所以优化 $H(P,Q)$ 等价于优化 $H(Q)$,因为 $H(P)$ 是已知不变的。 3.2 分类损失函数下面我们来了解最常用的四个分类损失函数。 torch.nn.BCELoss(weight=None, reduction='mean')这个类实现了二分类交叉熵。$$l_n=-w_n[y_n\\cdot logx_n+(1-y_n)\\cdot log(1-x_n)]$$使用这个类时要注意,输入值(不是分类)的范围要在 $(0,1)$ 之间,否则会报错。123456789>>> inputs = torch.tensor([[1, 2], [2, 2], [3, 4], [4, 5]], dtype=torch.float)>>> target = torch.tensor([[1, 0], [1, 0], [0, 1], [0, 1]], dtype=torch.float)>>> criterion = nn.BCELoss()>>> criterion(inputs, target)---------------------------------------------------------------------------RuntimeError Traceback (most recent call last)...RuntimeError: all elements of input should be between 0 and 1 通常可以先使用 F.sigmoid 处理一下数据。 torch.nn.BCEWithLogitsLoss(weight=None, reduction='mean', pos_weight=None)与上面的 torch.nn.BCELoss 相似,只是 $x$ 先使用了 sigmoid 处理了一下,这样就不需要手动使用 sigmoid 的了。$$l_n=-w_n[y_n\\cdot log\\sigma(x_n)+(1-y_n)\\cdot log(1-\\sigma(x_n))]$$ torch.nn.NLLLoss(weight=None, ignore_index=-100, reduction='mean')NLLLoss 的全称为 “negative log likelihood loss”,其作用是实现负对数似然函数中的负号。$$\\ell=L={l_1,…,l_N},\\quad l_n=-w_{y_n}x_{n,y_n}$$ torch.nn.CrossEntropyLoss(weight=None, ignore_index=-100, reduction='mean')这个类结合了 nn.LogSoftmax 和 nn.NLLLoss。这个类的运算可以写成:$$loss(class)=weight[class]\\bigg(-\\text{log}\\bigg(\\frac{\\text{exp}(x[class])}{\\sum_j\\text{exp}(x[j])}\\bigg)\\bigg)\\=weight[class]\\bigg(-x[class]+\\text{log}\\bigg(\\sum_j\\text{exp}(x[j]\\bigg)\\bigg)$$对比上面 $H(P,Q)$ 的公式,因为已知的 $x$ 的事件概率已知,所以 $P(x)$ 为 1;因为是单个事件,所以 $\\sum^N_{i=1}$ 也为 1。所以上面的式子就简化成了 $H(P,Q)=-logQ(x)$。然后我们需要把 $x[class]$ 归一化到一个概率分布中,所以使用 softmax。 torch.nn.KLDivLoss(reduction='mean')这个类就是上面提到的相对熵。$$l(x,y)=L={1_1,…l_N}, l_n=y_n\\cdot(\\text{log}\\ y_n-x_n)$$这几个类的参数类似,除了上面提到的 reduction,还有一个 weight,就是每一个类别的权重。下面用例子来解释交叉熵和 weight 是如何运作的。我们先定义一组数据,使用 numpy 推演一下:1234567891011121314151617inputs = torch.tensor([[1, 1], [1, 2], [3, 3]], dtype=torch.float)target = torch.tensor([0, 0, 1],dtype=torch.long)idx = target[0]input_ = inputs.detach().numpy()[idx] # [1, 1]target_ = target.numpy()[idx] # [0]# 第一项x_class = input_[target_]# 第二项sigma_exp_x = np.sum(list(map(np.exp, input_)))log_sigma_exp_x = np.log(sigma_exp_x)# 输出 lossloss_1 = -x_class + log_sigma_exp_x 结果为12>>> print(\"第一个样本loss为: \", loss_1)第一个样本loss为: 0.6931473 现在我们再使用 PyTorch 来计算:123>>> criterion_ce = nn.CrossEntropyLoss(reduction='none')>>> criterion_ce(inputs, target)tensor([0.6931, 1.3133, 0.6931]) 可以看到,结果是一致的。现在我们再看看 weight:1234>>> weight = torch.tensor([0.1, 0.9], dtype=torch.float)>>> criterion_ce = nn.CrossEntropyLoss(weight=weight, reduction='none')>>> criterion_ce(inputs, target)tensor([0.0693, 0.1313, 0.6238]) 与没有权重的交叉熵进行比较后可以发现,每一个值都乘以了 $\\frac{p_i}{\\sum{p_i}}$。当 reduction 为 sum 和 mean 的时候,交叉熵的加权总和或者平均值再除以权重的和。3.3 总结 F.sigmoid + torch.nn.BCELoss = torch.nn.BCEWithLogitsLoss nn.LogSoftmax + nn.NLLLoss = torch.nn.CrossEntropyLoss 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 8:torch.nn.init","slug":"DL-PyTorch-折桂-8:torch-nn-init","date":"2020-05-18T17:03:19.000Z","updated":"2020-05-20T00:20:05.158Z","comments":true,"path":"2020/05/18/DL-PyTorch-折桂-8:torch-nn-init/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/18/DL-PyTorch-%E6%8A%98%E6%A1%82-8%EF%BC%9Atorch-nn-init/","excerpt":"1. torch.nn.init 概述因为神经网络的训练过程其实是寻找最优解的过程,所以神经元的初始值非常重要。如果初始值恰好在最优解附近,神经网络的训练会非常简单。而当神经网络的层数增加以后,一个突出的问题就是梯度消失和梯度爆炸。前者指的是由于梯度接近 0,导致神经元无法进行更新;后者指的是误差梯度在更新中累积得到一个非常大的梯度,这样的梯度会大幅度更新网络参数,进而导致网络不稳定。 torch.nn.init 模块提供了合理初始化初始值的方法。它一共提供了四类初始化方法: Xavier 分布初始化; Kaiming 分布初始化; 均匀分布、正态分布、常数分布初始化; 其它初始化。","text":"1. torch.nn.init 概述因为神经网络的训练过程其实是寻找最优解的过程,所以神经元的初始值非常重要。如果初始值恰好在最优解附近,神经网络的训练会非常简单。而当神经网络的层数增加以后,一个突出的问题就是梯度消失和梯度爆炸。前者指的是由于梯度接近 0,导致神经元无法进行更新;后者指的是误差梯度在更新中累积得到一个非常大的梯度,这样的梯度会大幅度更新网络参数,进而导致网络不稳定。 torch.nn.init 模块提供了合理初始化初始值的方法。它一共提供了四类初始化方法: Xavier 分布初始化; Kaiming 分布初始化; 均匀分布、正态分布、常数分布初始化; 其它初始化。 有梯度边界的激活函数如 sigmoid、tanh 和 softmax 等被称为饱和函数,没有梯度边界的激活函数如 relu 被称为不饱和函数,它们对应的初始化方法不同。2. 梯度消失和梯度爆炸假设我们有一个 3 层的全连接网络:对倒数第二层神经元的权重进行反向传播的公式为:$$\\Delta W_3=\\frac{\\partial loss}{\\partial W_3}=\\frac{\\partial loss}{\\partial out}*\\frac{\\partial out}{\\partial H_3}*\\frac{\\partial H_3}{\\partial W_3}$$而 $H_3=H_2*W_3$,所以$$\\Delta W_3=\\frac{\\partial loss}{\\partial out}*\\frac{\\partial out}{\\partial H_3}*H_2$$即 $Hi_2$ ,即上一层的神经元的输出值,决定了 $\\Delta W_3$ 的大小。如果 $H_2$ 太大或太小,即梯度消失或梯度爆炸,将导致神经网络无法训练。对于 sigmoid 和 tanh 等梯度绝对值小于 1 的激活函数来说,神经元的值会越来越小;对于其它情况,假设我们构建了一个 100 层的全连接网络:1234567891011121314151617181920212223242526class MLP(nn.Module): def __init__(self, neural_num, layers): super(MLP, self).__init__() self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for _ in range(layers)]) self.neural_num = neural_num def forward(self, x): for (i, linear) in enumerate(self.linears): x = linear(x) return x def init(self): for m in self.modules(): if isinstance(m, nn.Linear): nn.init.normal_(m.weight.data)layers=100neural_num=256batch_size=16net = MLP(neural_num, layers)net.init()inputs = torch.randn(batch_size, neural_num)output = net(inputs) 打印一下神经网络的输出:12345678>>> print(output)tensor([[nan, nan, nan, ..., nan, nan, nan], [nan, nan, nan, ..., nan, nan, nan], [nan, nan, nan, ..., nan, nan, nan], ..., [nan, nan, nan, ..., nan, nan, nan], [nan, nan, nan, ..., nan, nan, nan], [nan, nan, nan, ..., nan, nan, nan]], grad_fn=<MmBackward>) 可以看到,神经元的值都变成了 nan。这是为什么呢? 因为方差可以表征数据的离散程度,让我们来打印一下每次神经元的值的方差: 123456789101112131415161718192021222324252627layers: 0, std: 15.7603178024292layers: 1, std: 253.5698699951172layers: 2, std: 4018.8212890625layers: 3, std: 64962.9453125layers: 4, std: 1050192.125layers: 5, std: 16682177.0...layers: 28, std: 8.295319341711625e+34layers: 29, std: 1.2787049888311946e+36layers: 30, std: 2.0164275976565801e+37layers: 31, std: nanoutput is nan at 31th layerstensor([[ 1.3354e+38, -2.0165e+38, -3.2402e+37, ..., 1.0439e+37, -inf, 1.2574e+38], [ -inf, -inf, inf, ..., -inf, -inf, inf], [ 1.2230e+37, -inf, 5.6356e+37, ..., -1.2776e+38, inf, -inf], ..., [ 2.1591e+37, 2.5838e+38, -2.9146e+38, ..., inf, -inf, -inf], [ inf, 1.9056e+38, -inf, ..., inf, -inf, -inf], [ -inf, inf, -1.7735e+38, ..., 4.8110e+37, inf, -inf]], grad_fn=<MmBackward>) 可以看到,到第 30 层的时候,神经元的值已经非常大或非常小,终于在第 31 层的时候,神经元的值突破了存储精度的极限,只好变成了 nan。 我们知道,一组数的方差 $D$ 和 期望 $E$ 在 $X$ 与 $Y$ 相互独立的条件下满足下面的性质:$$E(X*Y)=E(X)*E(Y)$$$$D(X)=E(X^2)-[E(X)]^2$$$$D(X+Y)=D(X)+D(Y)$$所以有:$$D(X*Y)=D(X)*D(Y)+D(X)*[E(Y)]^2+D(Y)*[E(X)]^2$$当 $E(X)=0$,$E(Y)=0$ 的时候:$$D(X*Y)=D(X)*D(Y)$$在神经网络中,由于全连接层的性质$$H_{11}=\\sum^n_{i=0}X_I*W_{1i}$$得$$D(H_{11})=\\sum^n_{i=0}D(X_i)*D(W_{1i})\\=n*(1*1)\\=n$$因为 $X_i$ 服从一个方差为 1 的正态分布,而 $W_i$ 也服从一个方差为 1 的分布,所以 $D(H_{11})$ 的值就是神经元的个数,因此标准差就是 $\\sqrt{n}$。而全连接的性质决定了第 $k$ 层的神经元的标准差为 $\\sqrt{n^k}$,与上面例子中 256 个神经元的情况基本吻合。 为了让神经网络的神经元值稳定,我们希望将每一层神经元的方差维持在 1,这样每一次前向传播后的方差仍然是 1,使模型保持稳定。这被称为“方差一致性准则”。因为$D(H_{11})=n*D(X_i)*D(W_{1i})$,为了让 $D(H_i)=1$,我们只需要让 $D(W_i)=\\frac{1}{n}$ 即 $std(W)=\\sqrt{\\frac{1}{n}}$。我们验证一下: 1234567891011121314151617181920212223242526272829class MLP(nn.Module): def __init__(self, neural_num, layers): super(MLP, self).__init__() self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for _ in range(layers)]) self.neural_num = neural_num def forward(self, x): for (i, linear) in enumerate(self.linears): x = linear(x) print(f'layers: {i}, std: {x.std()}') if torch.isnan(x.std()): print(f'output is nan at {i}th layers') break return x def init(self): for m in self.modules(): if isinstance(m, nn.Linear): nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))layers=100neural_num=256batch_size=16net = MLP(neural_num, layers)net.init()inputs = torch.randn(batch_size, neural_num)output = net(inputs) 打印一下神经网络的神经元值: 1234567891011121314151617181920layers: 0, std: 0.9983504414558411layers: 1, std: 0.9868919253349304layers: 2, std: 0.9728540778160095layers: 3, std: 0.9823500514030457layers: 4, std: 0.9672497510910034layers: 5, std: 0.9902626276016235...layers: 95, std: 1.0507267713546753layers: 96, std: 1.0782362222671509layers: 97, std: 1.1384222507476807layers: 98, std: 1.1450780630111694layers: 99, std: 1.138461709022522tensor([[-0.6622, 0.4439, 0.5704, ..., -2.2066, -1.1012, 0.0450], [-0.1037, -0.3485, -0.0313, ..., -0.1562, -0.0520, 0.6481], [ 0.3136, -0.0966, -1.5647, ..., -0.8760, -0.7498, 0.6339], ..., [-0.6644, -0.4354, 0.8103, ..., 1.1510, 0.7699, 0.0607], [-0.7511, -0.1086, 0.4008, ..., 1.5456, 0.6027, -0.0303], [-0.5602, -0.1664, -0.9711, ..., -1.0884, -0.7040, 0.7415]], grad_fn=<MmBackward>) 神经元的值果然是稳定的。 3. torch.nn.init.calculate_gain这个函数计算激活函数之前和之后的方差的比例变化。比如 $D(X)=1$ 经过 rlue 以后还是 1,所以它的增益是 1。PyTorch 给了常见的激活函数的变化增益:|激活函数|变化增益||:–:|:–:||Linearity|1||ConvND|1||Sigmoid|1||Tanh|$\\frac{5}{3}$||ReLU|$\\sqrt{2}$||Leaky ReLU|$\\sqrt{\\frac{2}{1+negative_slope^2}}$|这个函数的参数如下:torch.nn.init.calculate_gain(nonlinearity, param=None) nonlinearity:激活函数; param激活函数的参数。4. Xavier initialization为了解决饱和激活函数里的权重初始化问题,2010 年 Glorot 和 Bengio 发表了《Understanding the difficulty of training deep feedforward neural networks》 论文,正式提出了 Xavier 初始化。Xavier 初始化通常使用均匀分布。由论文得,初始化后的张量中的值采样自 $U[-a,a]$ 且$$a=\\text{gain}\\times\\sqrt{\\frac{6}{n_i+n{i+1}}}$$均匀分布下的 Xavier 初始化函数为 torch.nn.init.xavier_uniform_(tensor, gain=1)。 Xavier 初始化也可以采用正态分布的方式。其初始化后的张量中的值采样自 $U[-a,a]$ 且$$a=\\text{gain}\\times\\sqrt{\\frac{2}{n_i+n{i+1}}}$$ 5. Kaiming initialization2011 年 ReLU 函数横空出世,Xavier 初始化对 ReLU 函数不再适用。2015 年,Kaiming He 提出了另一种初始化方法来适应 ReLU:$$a=\\frac{2}{(1+a^2)*n_i}$$a 是 ReLU 上 $x<0$ 时的斜率。同样的,Kaiming 初始化也有均匀分布和正态分布两种:torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu'):均匀分布的 Kaiming 初始化函数; torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu'):正态分布的 Kaiming 初始化函数。 6. 其它初始化方法 torch.nn.init.uniform_(tensor, a=0.0, b=1.0):初始化服从 [a, b] 范围的均匀分布; torch.nn.init.normal_(tensor, mean=0.0, std=1.0):初始化服从 mean=0,std=1 时的正态分布; torch.nn.init.constant_(tensor, val):初始化为任一常数; torch.nn.init.ones_(tensor):初始化为 1; torch.nn.init.zeros_(tensor)初始化为 0; torch.nn.init.eye_(tensor):初始化对角线为 1,其它为 0; torch.nn.init.orthogonal_(tensor, gain=1):对张量的矩形区域进行初始化。由于张量都是矩形,个人理解是这个函数会将整个张量进行初始化。 torch.nn.init.sparse_(tensor, sparsity, std=0.01):以 sparsity 为概率将张量填充 0,剩余的元素的标准差为 std。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 7:torch.nn 总览 & nn.Linear & 常用激活函数","slug":"DL-PyTorch-折桂-7:torch-nn-总览-nn-Linear-常用激活函数","date":"2020-05-18T17:01:19.000Z","updated":"2020-05-18T17:24:18.877Z","comments":true,"path":"2020/05/18/DL-PyTorch-折桂-7:torch-nn-总览-nn-Linear-常用激活函数/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/18/DL-PyTorch-%E6%8A%98%E6%A1%82-7%EF%BC%9Atorch-nn-%E6%80%BB%E8%A7%88-nn-Linear-%E5%B8%B8%E7%94%A8%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0/","excerpt":"1 torch.nn 总览PyTorch 把与深度学习模型搭建相关的全部类全部在 torch.nn 这个子模块中。根据类的功能分类,常用的有如下十几个部分: Containers:容器类,如 torch.nn.Module; Convolution Layers:卷积层,如 torch.nn.Conv2d; Pooling Layers:池化层,如 torch.nn.MaxPool2d; Non-linear activations:非线性激活层,如 torch.nn.ReLU; Normalization layers:归一化层,如 torch.nn.BatchNorm2d; Recurrent layers:循环神经层,如 torch.nn.LSTM; Transformer layers:transformer 层,如 torch.nn.TransformerEncoder; Linear layers:线性连接层,如 torch.nn.Linear; Dropout layers:dropout 层,如 torch.nn.Dropout; Sparse layers:稀疏层,如 torch.nn.Embedding; Vision layers:vision 层,如 torch.nn.Upsample; DataParallel layers:平行计算层,如 torch.nn.DataParallel; Utilities:其它功能,如 torch.nn.utils.clip_grad_value_。","text":"1 torch.nn 总览PyTorch 把与深度学习模型搭建相关的全部类全部在 torch.nn 这个子模块中。根据类的功能分类,常用的有如下十几个部分: Containers:容器类,如 torch.nn.Module; Convolution Layers:卷积层,如 torch.nn.Conv2d; Pooling Layers:池化层,如 torch.nn.MaxPool2d; Non-linear activations:非线性激活层,如 torch.nn.ReLU; Normalization layers:归一化层,如 torch.nn.BatchNorm2d; Recurrent layers:循环神经层,如 torch.nn.LSTM; Transformer layers:transformer 层,如 torch.nn.TransformerEncoder; Linear layers:线性连接层,如 torch.nn.Linear; Dropout layers:dropout 层,如 torch.nn.Dropout; Sparse layers:稀疏层,如 torch.nn.Embedding; Vision layers:vision 层,如 torch.nn.Upsample; DataParallel layers:平行计算层,如 torch.nn.DataParallel; Utilities:其它功能,如 torch.nn.utils.clip_grad_value_。 而在 torch.nn 下面还有一个子模块 torch.nn.functional,基本上是 torch.nn 里对应类的函数,比如 torch.nn.ReLU 的对应函数是 torch.nn.functional.relu。为什么要这么做呢? 你可能会疑惑为什么需要这两个功能如此相近的模块,其实这么设计是有其原因的。如果我们只保留 nn.functional 下的函数的话,在训练或者使用时,我们就要手动去维护 weight,bias,stride 这些中间量的值,这显然是给用户带来了不便。而如果我们只保留 nn 下的类的话,其实就牺牲了一部分灵活性,因为做一些简单的计算都需要创造一个类,这也与 PyTorch 的风格不符。(知乎回答) torch.nn 可以被 nn.Module 识别,并成为网络组成的一部分;torch.nn.functional 则不行。比较以下两个模型: 123456789101112131415161718192021222324252627282930>>> class Simple(nn.Module):... def __init__(self):... super(Simple, self).__init__()... self.fc = nn.Linear(10, 1)... self.dropout = nn.Dropout(0.5) # 使用 nn.Dropout 类 ... def forward(self, x):... x = self.fc(x)... x = self.dropout(x)... return x>>> simple = Simple()>>> print(simple)Simple( (fc): Linear(in_features=10, out_features=1, bias=True) (dropout): Dropout(p=0.5, inplace=False) #可以被识别成一层)>>> class Simple2(nn.Module):... def __init__(self):... super(Simple2, self).__init__()... self.fc = nn.Linear(10, 1) ... def forward(self, x):... x = F.dropout(self.fc(x)) # 使用 nn.functional.dropout,不能被识别... return x>>> simple2 = Simple2()>>> print(simple2)Simple2( (fc): Linear(in_features=10, out_features=1, bias=True)) 什么时候调用 torch.nn,什么时候调用 torch.nn.functional 呢?个人的经验是:不需要存储权重的时候使用 torch.nn.functional,需要存储权重的时候使用 torch.nn : 层、dropout 使用 torch.nn ; 激活函数使用 torch.nn.functional。 这里要额外说一下 dropout 层。理论上 dropout 没有权重,可以使用 torch.nn.functional.dropout,然而 dropout 有train 和 eval 模式,使用 torch.nn.Dropout 可以方便地对模式进行控制,而函数就不行。所以为了方便,推荐使用 torch.nn.Dropout。 以后若没有特殊说明,均在引入模块时省略 torch 模块名称。 2. nn.Linear线性连接层又叫做全连接层(fully connected layer),指的是通过矩阵乘法将前一层的矩阵变换为下一层的矩阵:$$layer1*W+b=layer2$$W 被称为全连接层的 weights,b 被称为全连接层的 bias。通常为了演示方便,我们忽略 bias。layer1 如果是一个 $m*n$ 的矩阵,$W$ 是一个 $n*k$ 的矩阵,那么下一层 layer2 就是一个 $m*k$ 的矩阵。n 称为输入特征数(input size),k 称为输出特征数(output size),那么这个线性连接层可以被这样初始化: 1fc = nn.Linear(input_size, output_size) multilayer perception(多层感知机,MLP)就是通过若干个全连接层组合而成的。但是事实证明 MLP 的性能并不好,为什么呢?假设一个 MLP 由三个全连接层组成,三层分别为$$x_3=x_2*W_2$$$$x_2=x_1*W_1$$我们把第二个式子中的 $x_2$ 代入第一个式子,可得:$$X_3=(x_1*W_1)*W_2=x_1*(W_1*W_2)$$可见若干层全连接层相连,最终可以化简为一个全连接层。为了解决这个问题,激活函数(activation function)出现了。 3. 激活函数激活函数就是非线性连接层,通过非线性函数将一层变为另一层。常用的激活函数有 sigmoid,tanh,relu 及其变种。虽然 torch.nn 有激活函数层,因为激活函数比较轻量级,使用 torch.nn.functional 里的函数功能就足够了。通常我们将 torch.nn.functional 写成 F: 1import torch.nn.functional as F F.sigmoidsigmoid 又叫做 logistic,通常写作 $\\sigma$,公式为$$sigmoid(x)=\\sigma(x)=\\frac{1}{1+e^{-x}}$$sigmoid 的值域为 $(0,1)$,所以通常用于二分类问题:大于 $0.5$ 为一类,小于 $0.5$ 为另一类。sigmoid 的导数公式为$$\\sigma’(x)=\\sigma(x)(1-\\sigma(x))$$导数的值域为 $(0,0.25)$。sigmoid 函数的特点为: 函数的值在 $(0,1)$ 之间,符合概率分布; 导数的值域为 $(0,0.25)$,容易造成梯度消失; 输出为非对称正值,破坏数据分布。 F.tanhtanh 是正切函数,公式为$$tanh(x)=\\frac{sin(x)}{cos(x)}=\\frac{e^x+e^{-x}}{e^x+e^{-x}}$$tanh 的值域为 $(0,1)$,对称分布。它的导数公式为$$tanh’(x)=1-tanh^2(x)$$导数的值域为 $(0,1)$。tanh 的特点为: 函数值域为 $(0,1)$,对称分布; 导数值域为 $(0,1)$,容易造成梯度消失。 F.relu为了解决上述两个激活函数容易产生梯度消失的问题,Rectified Linear Unit(relu) 横空出世了。它实际上是一个分段函数:$$relu(x)=\\begin{cases}0,\\ x<0\\x,\\ x>0\\end{cases}$$relu 的优点在于求导非常方便,而且非常稳定:$$relu’(x)=\\begin{cases}0,\\ x<0\\\\text{unidentified},\\ x=0\\1,\\ x>0\\end{cases}$$缺点在于 当 $x<0$ 时导数为 0,神经元“死亡”,即不再更新; 虽然没有梯度消失的问题,但有梯度爆炸的问题。 F.leakyrelu为了解决 relu 的问题,对其稍加改动成为了 leakyrelu:$$relu(x)=\\begin{cases}0,\\ x<0\\\\alpha x,\\ x>0\\end{cases}$$$\\alpha$ 是一个很小的数,通常是 0.01。这样它的导数就变成了$$relu(x)=\\begin{cases}0,\\ x<0\\\\alpha,\\ x>0\\end{cases}$$","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 6:torch.nn.Module","slug":"DL-PyTorch-折桂-6:torch-nn-Module","date":"2020-05-14T22:59:56.000Z","updated":"2020-05-15T22:04:54.669Z","comments":true,"path":"2020/05/14/DL-PyTorch-折桂-6:torch-nn-Module/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/14/DL-PyTorch-%E6%8A%98%E6%A1%82-6%EF%BC%9Atorch-nn-Module/","excerpt":"本文中,我们看一看如何构建模型。创造一个模型分两步:构建模型和权值初始化。而构建模型又有“定义单独的网络层”和“把它们拼在一起”两步。 1. torch.nn.Moduletorch.nn.Module 是所有 torch.nn 中的类的父类。我们来看一个非常简单的神经网络: 12345678class SimpleNet(nn.Module): def __init__(self, x): super(SimpleNet,self).__init__() self.fc = nn.Linear(x.shape[0], 1) def forward(self, x): x = self.fc(x) return x","text":"本文中,我们看一看如何构建模型。创造一个模型分两步:构建模型和权值初始化。而构建模型又有“定义单独的网络层”和“把它们拼在一起”两步。 1. torch.nn.Moduletorch.nn.Module 是所有 torch.nn 中的类的父类。我们来看一个非常简单的神经网络: 12345678class SimpleNet(nn.Module): def __init__(self, x): super(SimpleNet,self).__init__() self.fc = nn.Linear(x.shape[0], 1) def forward(self, x): x = self.fc(x) return x 我们随便喂给它一个张量,打印它的网络: 12345>>> simpleNet = SimpleNet(torch.tensor((10, 2)))>>> print(simpleNet)SimpleNet( (fc): Linear(in_features=2, out_features=1, bias=True)) 所有自定义的神经网络都要继承 torch.nn.Module。定义单独的网络层在 __init__ 函数中实现,把定义好的网络层拼接在一起在 forward 函数中实现。网络类有两个重要的函数:parameters 存储了模型的权重;modules 存储了模型的结构。 1234567891011>>> list(simpleNet.modules())[SimpleNet( (fc): Linear(in_features=2, out_features=1, bias=True) ), Linear(in_features=2, out_features=1, bias=True)] >>> list(simpleNet.parameters())[Parameter containing: tensor([[ 0.1533, -0.2574]], requires_grad=True), Parameter containing: tensor([-0.1589], requires_grad=True)] 2. torch.nn.Sequential这是一个序列容器,既可以放在模型外面单独构建一个模型,也可以放在模型里面成为模型的一部分。 12345678910111213141516171819202122232425262728293031# 单独成为一个模型model1 = nn.Sequential( nn.Conv2d(1,20,5), nn.ReLU(), nn.Conv2d(20,64,5), nn.ReLU() )# 成为模型的一部分class LeNetSequential(nn.Module): def __init__(self, classes): super(LeNetSequential, self).__init__() self.features = nn.Sequential( nn.Conv2d(3, 6, 5), nn.ReLU(), nn.MaxPool2d(kernel_size=2, stride=2), nn.Conv2d(6, 16, 5), nn.ReLU(), nn.MaxPool2d(kernel_size=2, stride=2),) self.classifier = nn.Sequential( nn.Linear(16*5*5, 120), nn.ReLU(), nn.Linear(120, 84), nn.ReLU(), nn.Linear(84, classes),) def forward(self, x): x = self.features(x) x = x.view(x.size()[0], -1) x = self.classifier(x) return x 放在模型里面的话,模型还是需要 __init__ 和 forward 函数。 这样构建出来的模型的层没有名字: 12345678910111213>>> model2 = nn.Sequential(... nn.Conv2d(1,20,5),... nn.ReLU(),... nn.Conv2d(20,64,5),... nn.ReLU()... )>>> model2Sequential( (0): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1)) (1): ReLU() (2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1)) (3): ReLU()) 为了方便区分不同的层,我们可以使用 collections 里的 OrderedDict 函数: 1234567891011121314>>> from collections import OrderedDict>>> model3 = nn.Sequential(OrderedDict([... ('conv1', nn.Conv2d(1,20,5)),... ('relu1', nn.ReLU()),... ('conv2', nn.Conv2d(20,64,5)),... ('relu2', nn.ReLU())... ]))>>> model3Sequential( (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1)) (relu1): ReLU() (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1)) (relu2): ReLU()) 3. torch.nn.ModuleList将网络层存储进一个列表,可以使用列表生成式快速生成网络,生成的网络层可以被索引,也拥有列表的方法 append,extend 或 insert。 123456789101112131415161718192021222324252627>>> class MyModule(nn.Module):... def __init__(self):... super(MyModule, self).__init__()... self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(10)])... self.linears.append(nn.Linear(10, 1)) # append... def forward(self, x):... for i, l in enumerate(self.linears):... x = self.linears[i // 2](x) + l(x)... return x >>> myModeul = MyModule()>>> myModeulMyModule( (linears): ModuleList( (0): Linear(in_features=10, out_features=10, bias=True) (1): Linear(in_features=10, out_features=10, bias=True) (2): Linear(in_features=10, out_features=10, bias=True) (3): Linear(in_features=10, out_features=10, bias=True) (4): Linear(in_features=10, out_features=10, bias=True) (5): Linear(in_features=10, out_features=10, bias=True) (6): Linear(in_features=10, out_features=10, bias=True) (7): Linear(in_features=10, out_features=10, bias=True) (8): Linear(in_features=10, out_features=10, bias=True) (9): Linear(in_features=10, out_features=10, bias=True) (10): Linear(in_features=10, out_features=1, bias=True) # append 进的层 )) 4. torch.nn.ModuleDict这个函数与上面的 torch.nn.Sequential(OrderedDict(...)) 的行为非常类似,并且拥有 keys,values,items,pop,update 等词典的方法: 123456789101112131415161718192021222324252627>>> class MyDictDense(nn.Module):... def __init__(self):... super(MyDictDense, self).__init__()... self.params = nn.ModuleDict({... 'linear1': nn.Linear(512, 128),... 'linear2': nn.Linear(128, 32)... })... self.params.update({'linear3': nn.Linear(32, 10)}) # 添加层... def forward(self, x, choice='linear1'):... return torch.mm(x, self.params[choice])>>> net = MyDictDense()>>> print(net)MyDictDense( (params): ModuleDict( (linear1): Linear(in_features=512, out_features=128, bias=True) (linear2): Linear(in_features=128, out_features=32, bias=True) (linear3): Linear(in_features=32, out_features=10, bias=True) ))>>> print(net.params.keys())odict_keys(['linear1', 'linear2', 'linear3'])>>> print(net.params.items())odict_items([('linear1', Linear(in_features=512, out_features=128, bias=True)), ('linear2', Linear(in_features=128, out_features=32, bias=True)), ('linear3', Linear(in_features=32, out_features=10, bias=True))]) 欢迎关注我的微信公众号“花解语 NLP”:","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 5:PyTorch 模块总览 & torch.utils.data","slug":"DL-PyTorch-折桂-5:PyTorch-模块总览-torch-utils-data","date":"2020-05-14T22:41:30.000Z","updated":"2020-05-14T22:42:35.998Z","comments":true,"path":"2020/05/14/DL-PyTorch-折桂-5:PyTorch-模块总览-torch-utils-data/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/14/DL-PyTorch-%E6%8A%98%E6%A1%82-5%EF%BC%9APyTorch-%E6%A8%A1%E5%9D%97%E6%80%BB%E8%A7%88-torch-utils-data/","excerpt":"1. PyTorch 模块总览前面用了四篇文章详细讲解了 tensor 的性质,本篇开始进入功能的介绍。相比 TensorFlow,PyTorch 是非常轻量级的:相比 TensorFlow 追求兼容并包,PyTorch 把外围功能放在了扩展包中,比如 torchtext,以保持主体的轻便。","text":"1. PyTorch 模块总览前面用了四篇文章详细讲解了 tensor 的性质,本篇开始进入功能的介绍。相比 TensorFlow,PyTorch 是非常轻量级的:相比 TensorFlow 追求兼容并包,PyTorch 把外围功能放在了扩展包中,比如 torchtext,以保持主体的轻便。 纵观 PyTorch 的 API,其核心大概如下: torch.nn & torch.nn.functional:构建神经网络 torch.nn.init:初始化权重 torch.optim:优化器 torch.utils.data:载入数据 可以说,掌握了上面四个模块和前文中提到的底层 API,至少 80% 的 PyTorch 任务都可以完成。剩下的外围事物则有如下的模块支持: torch.cuda:管理 GPU 资源 torch.distributed:分布式训练 torch.jit:构建静态图提升性能 torch.tensorboard:神经网络的可视化 如果额外掌握了上面的四个的模块,PyTorch 就只剩下一些边边角角的特殊需求了。 下面我们来了解第一个功能包:torch.utils.data。这个功能包的作用是收集、打包数据,给数据索引,然后按照 batch 将数据分批喂给神经网络。 2. torch.utils.data 综述PyTorch 数据读取的核心是 torch.utils.data.DataLoader 类。它是一个 数据迭代读取器,支持 映射方式和迭代方式读取数据; 自定义数据读取顺序; 自动批; 单线程或多线程数据读取; 自动内存定位。 所有上述功能都可以在 torch.utils.data.DataLoader 的变量中定义: 1234DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None) 最重要的变量为 dataset,它指明了数据的来源。DataLoader 支持两种数据类型: 映射风格的数据封装(map-style datasets):这种数据结构拥有自定义的 __getitem__() 和 __len__() 属性,可以以“索引/值”的方式读取数据,对应 torch.utils.data.Dataset 类; 迭代风格的数据封装(iterable-style datasets):这种数据结构拥有自定义的 __iter__() 属性,通常适用于不方便随机获取数据或不定长数据集的读取上,对应 torch.utils.data.IterableDataset 类。 下面我们从顶层的 torch.utils.data.DataLoader 开始,然后一步一步深入到自定义的细节上。为了方便讨论,我们先人工构建一个数据集: 12>>> samples = torch.arange(100)>>> labels = torch.cat([torch.zeros(50), torch.ones(50)], dim=0) 3. torch.utils.data.DataLoader 数据加载器我们看一下常用的变量: dataset:数据源; batch_size:一个整数,定义每一批读取的元素个数; shuffle:一个布尔值,定义是否随机读取; sampler:定义获取数据的策略,必须与 shuffle 互斥; num_workers:一个整数,读取数据使用的线程数; collate_fn:一个将读取的数据处理、聚合成一个一个 batch 的自定义函数; drop_last:一个布尔值,如果最后一批数据的个数不足 batch 的大小,是否保留这个 batch。 dataset, sampler 和 collate_fn 是自定义的类或功能,我们从后往前看。 4. 数据集的分割在介绍这三个变量以前,我们先看看如何将数据集分割,比如分成训练集和测试集。 torch.utils.data.Subset(dataset, indices) 这个函数可以根据索引将数据集分割。 1234>>> even = [i for i in range(100) if i % 2 == 0]>>> new1 = torch.utils.data.Subset(samples, even)>>> print(new1[:5])tensor([0, 2, 4, 6, 8]) torch.utils.data.random_split(dataset, lengths) 先将数据随机排列,然后按照指定的长度进行选择。长度的和必须等于数据集中的数据数量。 123>>> train, test = torch.utils.data.random_split(samples, [90, 10])>>> print(torch.tensor(test))tensor([79, 60, 98, 74, 31, 43, 21, 69, 55, 76]) 5. collate_fn 核对函数这个变量的功能是在数据被读取后,送进模型前对所有数据进行处理、打包。比如我们有一个不定长度的视频数据集或文本数据集,我们可以自定义一个函数将它们的长度归一化。比如: 12345678910111213141516171819>>> a = [[1,2,3],[4,5],[6,7,8,9]]>>> def collate_fn(data):... '''... padding data, so they have same length.... '''... max_len = max([len(feature) for feature in data])... new = torch.zeros(len(data), max_len) ... for i in range(len(data)):... tmp = torch.as_tensor(data[i])... j = len(tmp)... new[i][:j] = tmp ... return new>>> collate_fn(a)tensor([[1., 2., 3., 0.], [4., 5., 0., 0.], [6., 7., 8., 9.]]) 将这个函数赋值给 collate_fn,在读取数据的时候就可以自动对数据进行 padding 并打包成一个 batch。 6. sampler 采样器sampler 变量决定了数据读取的顺序。注意,sampler 只对 iterable-style datasets 有效。除了可以自定义采样器,Python 内置了几种不同的采样器: torch.utils.data.SequentialSampler(data_source) 默认的采样器。 torch.utils.data.RandomSampler(data_source, replacement=False, num_samples=None) 随机选择数据。可以指定一次读取 num_samples 个数据。replacement 为 True 的话可以指定 num_samples(我并不理解为什么)。 123>>> batch = torch.utils.data.RandomSampler(samples, replacement=True, num_samples=5) # 生成一个迭代器>>> print(list(batch))[85, 70, 5, 63, 79] 我个人的理解是这个采样器仅对一个 batch 内的数据进行 shuffle。 还有三个采样器无法独立使用,必须先实例化,然后放进 DataLoader: torch.utils.data.SubsetRandomSampler(indices):先按照索引选取数据,然后随机排列。 torch.utils.data.WeightedRandomSampler(weights, num_samples, replacement=True):字面意思是按照概率选择不同类别的元素,不过暂时没有搞明白怎么用,先挖个坑。 torch.utils.data.BatchSampler(sampler, batch_size, drop_last):在一个 batch 中应用另外一个采样器。7. dataset 数据集生成器 torch.utils.data.IterableDataset 生成一个 iterable-style 的数据封装,可以实现多线程读取数据。不过官方文档是这么说,我暂时没有弄明白怎么用这个类。 torch.utils.data.Dataset 这个类需要覆写 __getitem__ 和 __len__ 属性。 12345678910111213141516>>> class MyData(torch.utils.data.Dataset):... def __init__(self, data):... super(MyData, self).__init__()... self.data = data ... def __len__(self, data):... return len(self.data) ... def __getitem__(self, index):... return self.data[index] >>> mydata = MyData(samples)>>> mydata[0]tensor(0)>>> mydata[10:15]tensor([10, 11, 12, 13, 14]) 8. 总结选择让我们把所有知识应用一下。假设我们想以 10 为一个 batch,随机选择数据: >>> train = MyData(samples) >>> ds = torch.utils.data.DataLoader(train[:], batch_size=10, shuffle=True) >>> for _ in range(5): ... print(next(iter(ds))) tensor([22, 44, 56, 38, 86, 47, 14, 63, 88, 64]) tensor([32, 38, 6, 64, 67, 91, 54, 3, 80, 22]) tensor([77, 98, 61, 7, 17, 97, 83, 50, 26, 42]) tensor([67, 13, 10, 83, 54, 11, 31, 78, 15, 36]) tensor([ 2, 55, 87, 39, 61, 92, 0, 79, 69, 84])","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 4:torch.autograph","slug":"DL-PyTorch-折桂-4:torch-autograph","date":"2020-05-12T00:42:09.000Z","updated":"2020-05-18T17:27:02.319Z","comments":true,"path":"2020/05/11/DL-PyTorch-折桂-4:torch-autograph/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/11/DL-PyTorch-%E6%8A%98%E6%A1%82-4%EF%BC%9Atorch-autograph/","excerpt":"神经网络的训练过程其实就是一个不断更新权重的过程,而更新权重要使用反向传播,而反向传播的本质是求导数。PyTorch.autograd 应运而生,接管了神经网络中不断重复的求导数运算。 1. 计算图一个深度学习模型是由“计算图”构成的。所谓计算图是一个有向无环图(directed acyclic graph)。数据是这个图的节点(node),运算是这个图的边(edge)。如下图所示:","text":"神经网络的训练过程其实就是一个不断更新权重的过程,而更新权重要使用反向传播,而反向传播的本质是求导数。PyTorch.autograd 应运而生,接管了神经网络中不断重复的求导数运算。 1. 计算图一个深度学习模型是由“计算图”构成的。所谓计算图是一个有向无环图(directed acyclic graph)。数据是这个图的节点(node),运算是这个图的边(edge)。如下图所示: 这张计算图的数学表达式为 $y=(x+w)*(w+1)$。其中,$x$、$w$ 和 $b$ 是由用户定义的,称为“叶子节点”(leaf node),可在 PyTorch 中加以验证: 123456a = torch.tensor([1.])b = torch.tensor([2.])c = a.add(b)a.is_leaf() # Truec.is_leaf() # False 计算图可以分为动态图与静态图两种。 1.1 动态图动态图的搭建过程与执行过程可以同时进行。PyTorch 默认采用动态图机制。我们看一个例子: 12345678910import torchfirst_counter = torch.Tensor([0])second_counter = torch.Tensor([10]) while (first_counter[0] < second_counter[0]): #[0] 加不加没有影响 first_counter += 2 second_counter += 1 print(first_counter)print(second_counter) 1.2 静态图静态图先创建计算图,然后执行计算图。计算图一经定义,无法改变。TensorFlow 2.0 以前以静态图为主。我们看同样的例子在 TensorFlow 2.0 以前是怎么搭建的: 123456789101112131415161718import tensorflow as tffirst_counter = tf.constant(0) # 定义变量second_counter = tf.constant(10) # 定义变量def cond(first_counter, second_counter, *args): # 定义条件 return first_counter < second_counterdef body(first_counter, second_counter): # 定义条件 first_counter = tf.add(first_counter, 2) second_counter = tf.add(second_counter, 1) return first_counter, second_counter c1, c2 = tf.while_loop(cond, body, [first_counter, second_counter]) # 定义循环with tf.Session() as sess: # 建立会话执行计算图 counter_1_res, counter_2_res = sess.run([c1, c2])print(first_counter)print(second_counter) 因为静态图在设计好以后不能改变,调试的过程中 debug 实在太痛苦了。所以 TensorFlow 2.0 开始默认使用动态图。 1.3 计算图示例假如我们想计算上面计算图中 $y=(x+w)*(w+1)$ 在 $x=2$,$w=1$ 时的导数: 首先,我们将上式进行分解:$$a=x+w$$$$b=w+1$$于是我们得$$y=a*b$$对上式求导有:$$\\frac{\\partial y}{\\partial w}=\\frac{\\partial y}{\\partial a}\\frac{\\partial a}{\\partial w}+\\frac{\\partial y}{\\partial b}\\frac{\\partial b}{\\partial w}$$根据$y=a*b$,$a=x+w$ 和 $b=w+1$ 可知:$$\\frac{\\partial y}{\\partial a}=b=w+1$$$$\\frac{\\partial a}{\\partial w}=1$$$$\\frac{\\partial y}{\\partial b}=a=x+w$$$$\\frac{\\partial b}{\\partial w}=1$$所以$$\\frac{\\partial y}{\\partial w}=(w+1)+(x+w)=2*1+2+1=5$$在 PyTorch 中求导数非常简单,使用 tensor.backward()即可:1234567891011import torchx = torch.tensor([2.], requires_grad=True) # 开启导数追踪w = torch.tensor([1.], requires_grad=True) # 开启导数追踪a = w.add(x)b = w.add(1)y = a.mul(b)y.backward() # 求导print(w.grad) 2. derivative(导数)的概述 当函数 $f$ 的自变量在一点 $x_0$ 上产生一个增量 $h$ 时,函数输出值的增量与自变量增量 $h$ 的比值在 $h$ 趋于0时的极限如果存在,即为 $f$ 在 $x_0$ 处的导数,记作 $f’(x_0)$。如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。 -- Wikipedia 如何求导数是中学的数学知识,这里不再过多赘述,仅仅提一点,对 $z=f(x,y)$ 求 $\\frac{\\partial x}{\\partial z}$ 叫做 “$f$ 关于 $x$ 的偏导数”,此时 $y$ 被看成常量,在求导时消去。 3. chain rule假如我们想对 $z=f(g(x))$ 求导,可以设 $y=g(x), z=f(y)$,则$$\\frac{\\partial x}{\\partial z}=\\frac{\\partial x}{\\partial y}\\cdot \\frac{\\partial y}{\\partial z}$$ 4. 张量的反向传播张量的求导函数为: 1tensor.backward(gradient=None, retain_graph=None, create_graph=False) 4.1 运算结果为 0 维张量的反向传播我们自己创建的 tensor 叫做*创建变量*,通过运算生成的 tensor 叫做*结果变量*。tensor 的一个创建方法为 1torch.tensor(data, dtype=None, device=None, requires_grad=False, pin_memory=False) 别的不说,单单说 requires_grad。如果想求这个 tensor 的导数,这个变量必须设为 True。requires_grad 的默认值为 False。 12345>>> a = torch.tensor(2.)>>> a.requires_gradFalse>>> atensor(1.) 而所有基于叶子节点生成的 tenor 的 requires_grad 属性与叶子节点相同。 12345>>> b = a**2 + 1>>> b.requires_gradFalse>>> btensor(5.) 如果没有在创建的时候显式声明 requires_grad=True,也可以在用之前临时声明: 1234>>> a.requires_grad_(True)>>> a.requires_grad = True # 另一种写法>>> atensor(2., requires_grad=True) 而因为 b = a + 1,此时 b 的属性变成了 1tensor(5., grad_fn=<AddBackward0>) 想对 b 求导,使用 b.backward() 即可: 1>>> b.backward() 查看 a 在 a = 2 处的导数,使用 a.grad 即可: 12>>> a.gradtensor(4.) 这个很好理解,$\\frac{\\partial a}{\\partial b} = (a^2)’ = 2 * a = 2 * 2 = 4$。 4.2 运算结果为 1 维以上张量的反向传播如果结果为1 维以上张量,直接求导会出错: 1234567891011>>> a = torch.tensor([1., 2.], requires_grad=True)>>> b = a**2 + 1>>> btensor([2., 3.], grad_fn=<AddBackward0>)>>> b.backward()---------------------------------------------------------------------------RuntimeError Traceback (most recent call last)<ipython-input-391-a721975e1357> in <module>----> 1 b.backward()...RuntimeError: grad can be implicitly created only for scalar outputs 这是因为 [2., 3.] 没法求导。这时候就必须指定 backward() 中的 gradient 变量为一个与创建变量维度相同的变量作为权重,这里以 torch.tensor([1., 1.]) 为例: 1234>>> b.backward(gradient=torch.tensor([1., 1.]))>>> b.backward(gradient=torch.ones_like([1., 1.])) # 创建一个与 a 维度相同的全 1 张量>>> a.gradtensor([2., 4.]) 关于 gradient 的详细讨论可以参考PyTorch 的 backward 为什么有一个 grad_variables 参数? 和 Autograd:PyTorch中的梯度计算 两篇文章。 5. 张量的显式求导 torch.augograd.grad虽然我们可以通过 b.backward() 来计算 a.grad 的值,下面这个函数可以直接求得导数。 1torch.autograd.grad(outputs, inputs, grad_outputs=None, retain_graph=None, create_graph=False, only_inputs=True, allow_unused=False) 以 $y=f(x)$ 为例,inputs 是 $x$,outputs 是 $y$。如果 $y$ 是 0 维张量,grad_outputs 可以忽略;否则需要为一个与 $x$ 维度相同的张量作为权重。 1234567>>> x=torch.tensor([[1.,2.,3.],[4.,5.,6.]],requires_grad=True)>>> y=x+2>>> z=y*y*3>>> dzdx = torch.autograd.grad(inputs=x, outputs=z, grad_outputs=torch.ones_like(x))>>> print(dzdx)(tensor([[18., 24., 30.], [36., 42., 48.]]) 假如我们对上面的 $z$ 求 $\\frac{\\partial x}{\\partial z}$,结果为 $\\frac{\\partial x}{\\partial z}=\\frac{\\partial x}{\\partial y}\\cdot\\frac{\\partial y}{\\partial z}=1\\cdot 2\\cdot 3\\cdot(x+2)$。假如我们想求 $\\frac{\\partial\\partial x}{\\partial\\partial z}$ 即二阶偏导呢?会报错: 1234567>>> dzdx = torch.autograd.grad(inputs=x, outputs=z, grad_outputs=torch.ones_like(x))---------------------------------------------------------------------------RuntimeError Traceback (most recent call last)<ipython-input-440-7a6333e01d6f> in <module>----> 1 dzdx = torch.autograd.grad(inputs=x, outputs=z, grad_outputs=torch.ones_like(x))...RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time. 这是因为动态计算图的特点是使用完毕后会被释放,当我们对 b 求导的话,对 b 求导的计算图在使用完毕后就被释放了。如果我们想求二阶导数,需要设置 retain_graph=True 或 create_graph=True。retain_graph 为保存计算图,create_graph 为创建计算图,两者的作用是相同的,都可以保存当前计算图。 12345>>> dzdx = torch.autograd.grad(inputs=x, outputs=z, grad_outputs=torch.ones_like(x),create_graph=True)>>> dz2dx2 = torch.autograd.grad(inputs=x, outputs=dzdx, grad_outputs=torch.ones_like(x))>>> print(dz2dx2)(tensor([[6., 6., 6.], [6., 6., 6.]]),) 结果也很好理解,$\\frac{\\partial\\partial x}{\\partial\\partial z}=1\\cdot 2\\cdot 3=6$。 6. 张量的显式反向传播计算torch.autograd.backward1torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph=False) 以上面的 a 和 b 为例,b.backward() = torch.autograd.backward(b)。其中 grad_tensors 与 b.backward() 中的 gradient 变量作用相同;retain_graph 和 create_graph 与 torch.augograd.grad 中的同名变量相同,不再赘述。","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 3:张量的运算 2","slug":"DL-PyTorch-折桂-3:张量的运算-2","date":"2020-05-11T23:35:08.000Z","updated":"2020-05-28T11:09:50.571Z","comments":true,"path":"2020/05/11/DL-PyTorch-折桂-3:张量的运算-2/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/11/DL-PyTorch-%E6%8A%98%E6%A1%82-3%EF%BC%9A%E5%BC%A0%E9%87%8F%E7%9A%84%E8%BF%90%E7%AE%97-2/","excerpt":"接上文 [DL] PyTorch 折桂 2:张量的运算 1 3. math 操作3.1 pointwize 操作pointwise 指的是元素对元素。比如 12A = torch.Tensor([a1, a2])A + 2. = torch.Tensor([a1+2., a2+2.])","text":"接上文 [DL] PyTorch 折桂 2:张量的运算 1 3. math 操作3.1 pointwize 操作pointwise 指的是元素对元素。比如 12A = torch.Tensor([a1, a2])A + 2. = torch.Tensor([a1+2., a2+2.]) 3.1.1 张量的四则运算1234torch.add(input, other, *, alpha=1, out=None) # 相加torch.sub(input, other, out=None) # 相减torch.mul(input, other, out=None) # 相乘torch.div(input, other, out=None) # 相除 torch.add()比较特殊,它遵循如下公式:$$out=input+alpha×other$$所以 torch.add(torch.tensor(1), torch.tensor(2), torch.tensor(3)) 的运算实际上是 $1+2*3=7$。 我们还有 torch.addcdiv(input, tensor1, tensor2, *, value=1, out=None),对应的运算规则为$$out=input+value*\\frac{tensor1}{tensor2}$$torch.addcmul(input, tensor1, tensor2, *, value=1, out=None),对应运算规则为$$out=input+value*tensor1*tensor2$$ 3.1.2 指数、对数、幂函数的运算两个指数函数: torch.exp(input, out=None) 自然指数运算:$$out=e^{input}$$ torch.pow(input, exponent, out=None) 任意指数运算:$$out=x^{exponent}$$ 四个对数函数: torch.log(input, out=None) 自然对数运算:$$out=log_e{input}$$ torch.log1p(input, out=None) 自然对数运算:$$out=log_e{(input+1)}$$ torch.log2(input, out=None) 以 2 为底的对数运算:$$out=log_2{input}$$ torch.log10(input, out=None) 以 10 为底的对数运算:$$out=log_{10}{input}$$ 3.1.3 变换函数 torch.abs(input, out=None):返回张量的绝对值。 torch.ceil(input, out=None):对张量向上取整。 torch.floor(input, out=None):对张量向下取整。 torch.floor_divide(input, other, out=None):张量相除后向下取整。 torch.fmod(input, other, out=None):对张量取余。 torch.neg(input, out=None):取张量的相反数。 torch.round(input, out=None):对张量取整。 torch.sigmoid(input, out=None):对张量进行 sigmoid 计算。 torch.sqrt(input, out=None):对张量取平方根。 torch.square(input, out=None):对张量平方。 torch.sort(input, dim=-1, descending=False, out=None):返回张量的排序结果。 3.1.4 三角函数 torch.sin(input, out=None):正弦 torch.cos(input, out=None):余弦 torch.tan(input, out=None):正切 3.2 降维函数所谓降维,就是某个维度经过运算后返回值是一个张量。如果下述函数中的 dim 变量没有显式赋值,则对整个张量进行计算,返回一个值;若 dim 被显性赋值,则对该 dim 内的每组数据分别进行运算。keepdim 若为 True,每个运算结果为一个一维张量,实际上没有降维。 torch.argmax(input, dim, keepdim=False):返回张量内最大元素的索引。 torch.argmin(input, dim, keepdim=False, out=None):返回张量内最小元素的索引。 例子: 123>>> a = torch.tensor([[1, 3, 2, 4], [9, 8, 7, 6]])>>> torch.argmax(a, dim=1)tensor([3, 0]) torch.max(input, dim, keepdim=False, out=None):返回在指定维度内进行比较后的最大值。 torch.min(input, dim, keepdim=False, out=None):返回在指定维度内进行比较后的最小值。 torch.mean(input, dim, keepdim=False, out=None):返回张量内张量的平均数。 torch.median(input, dim=-1, keepdim=False, out=None):返回张量内张量的中位数。 torch.prod(input, dim, keepdim=False, dtype=None):返回张量内元素的乘积。 torch.std(input, dim, unbiased=True, keepdim=False, out=None):返回张量内的标准差。 torch.sum(input, dim, keepdim=False, dtype=None):返回张量内元素的和。 torch.var(input, dim, keepdim=False, unbiased=True, out=None):返回张量内元素的方差。 例子: 12345678910>>> a = torch.ones((4, 3)) # 4 x 3 的全 1 矩阵>>> torch.sum(a) # 没有维度,对所有元素求和tensor(12.)>>> torch.sum(a, dim=1)tensor([3., 3., 3., 3.])>>> torch.sum(a, dim=1, keepdim=True)tensor([[3.], [3.], [3.], [3.]]) 3.3 比较函数返回索引的函数: torch.argsort(input, dim=-1, descending=False) 返回在指定维度中第几大/小索引的张量,默认升序比较最后一维:1234>>> a = torch.tensor([[1, 3, 2, 4], [9, 8, 7, 6]])>>> torch.argsort(a)tensor([[0, 2, 1, 3], [3, 2, 1, 0]]) 既返回值,又返回索引的函数: torch.sort(input, dim=-1, descending=False, out=None):对张量进行排序。12345678910>>> x = torch.randn(3, 4)>>> sorted, indices = torch.sort(x)>>> sortedtensor([[-0.2162, 0.0608, 0.6719, 2.3332], [-0.5793, 0.0061, 0.6058, 0.9497], [-0.5071, 0.3343, 0.9553, 1.0960]])>>> indicestensor([[ 1, 0, 2, 3], [ 3, 1, 0, 2], [ 0, 3, 1, 2]]) torch.topk(input, k, dim=None, largest=True, sorted=True, out=None):返回最大/最小的 k 个值和它们的索引。12345>>> x = torch.arange(1., 6.)>>> xtensor([ 1., 2., 3., 4., 5.])>>> torch.topk(x, 3)torch.return_types.topk(values=tensor([5., 4., 3.]), indices=tensor([4, 3, 2])) torch.cummax(input, dim, out=None):值与索引为当前位置以前的最大值和最大值的索引。 torch.cummin(input, dim, out=None):值与索引为当前位置以前的最小值和最小值的索引。12345678910111213141516171819>>> a = torch.randn(10)>>> atensor([-0.3449, -1.5447, 0.0685, -1.5104, -1.1706, 0.2259, 1.4696, -1.3284, 1.9946, -0.8209])>>> torch.cummax(a, dim=0)torch.return_types.cummax( values=tensor([-0.3449, -0.3449, 0.0685, 0.0685, 0.0685, 0.2259, 1.4696, 1.4696, 1.9946, 1.9946]), indices=tensor([0, 0, 2, 2, 2, 5, 6, 6, 8, 8])) >>> a = torch.randn(10)>>> atensor([-0.2284, -0.6628, 0.0975, 0.2680, -1.3298, -0.4220, -0.3885, 1.1762, 0.9165, 1.6684])>>> torch.cummin(a, dim=0)torch.return_types.cummin( values=tensor([-0.2284, -0.6628, -0.6628, -0.6628, -1.3298, -1.3298, -1.3298, -1.3298, -1.3298, -1.3298]), indices=tensor([0, 1, 1, 1, 4, 4, 4, 4, 4, 4])) 比较两个张量的元素,返回包含每个元素间比较的最大/小值: torch.max(input, other, out=None) torch.min(input, other, out=None) 这两个函数与上面的降维函数中的同名函数的区别在于上面的两个函数的输入是一个张量,这里是两个。 123456789>>> a = torch.tensor([[1, 3, 96, 97], [98, 99, 7, 6]])>>> b = torch.tensor([[100, 101, -1, -2], [-3, -4, 102, 103]])>>> torch.max(a, b)tensor([[100, 101, 96, 97], [ 98, 99, 102, 103]])>>> torch.min(a, b)tensor([[ 1, 3, -1, -2], [-3, -4, 7, 6]]) 两个张量比较是否相同,返回一个布尔值:torch.equal(input, other)12>>> torch.equal(torch.tensor([1, 2]), torch.tensor([1, 2]))True 两个张量的元素之间互相比较,每个比较返回一个布尔值,最终返回一个与被比较元素形状相同的张量: torch.eq(input, other, out=None):如果 input 中的元素等于 output 中的对应元素,返回 True。 torch.ge(input, other, out=None):如果 input 中的元素大于等于 output 中的对应元素,返回 True。 torch.gt(input, other, out=None):如果 input 中的元素大于 output 中的对应元素,返回 True。 torch.le(input, other, out=None):如果 input 中的元素小于等于 output 中的对应元素,返回 True。 torch.lt(input, other, out=None):如果 input 中的元素小于 output 中的对应元素,返回 True。12345>>> a = torch.tensor([[1, 3, 96, 97], [98, 99, 7, 6]])>>> c = torch.tensor([[1, 3, 5, 7], [98, 99, 100, 101]])>>> torch.eq(a, c)tensor([[ True, True, False, False], [ True, True, False, False]]) 4. 随机函数所有随机函数都有一个 generator 变量用于指定随机种子。 torch.manual_seed(seed):设置随机种子。 torch.bernoulli(input, *, generator=None, out=None):生成服从伯努利分布(二项式分布)的张量。1234567>>> a = torch.empty(2, 2).uniform_(0, 1)>>> atensor([[0.0117, 0.2281], [0.8750, 0.9974]])>>> torch.bernoulli(a)tensor([[0., 0.], [1., 1.]]) torch.multinomial(input, num_samples, replacement=False, *, generator=None, out=None):生成符合多项式分布的张量。input 为多项式分布的权重,当 replacement 为 False 时,num_samples 的长度必须小于 input。123>>> weights = torch.tensor([1., 2., 3., 4.])>>> torch.multinomial(weights, 10, replacement=True)tensor([1, 2, 2, 2, 3, 2, 2, 3, 0, 2]) torch.normal(mean, std, size, *, out=None):生成服从均值为 mean,方差为 std 的正态分布张量。mean 和 std 可以省略一个,若想同时省略请使用 torch.randn 函数。123>>> torch.normal(2, 1, [2, 2])tensor([[1.7697, 2.2627], [2.0743, 2.1683]]) torch.poisson(input *, generator=None):生成一个形状与 input 相同,服从泊松分布的张量。12>>> torch.poisson(torch.tensor([2., 2.]))tensor([1., 4.]) torch.rand(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False):生成一个范围为 $[0,1)$ 的均匀分布的张量。123>>> torch.rand((2, 2))tensor([[0.2255, 0.5614], [0.7037, 0.2410]]) torch.randn(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False):生成一个均值为 0,方差为 1 的标准正态分布的张量。123>>> torch.randn((2, 2))tensor([[ 1.2622, -1.3420], [-0.2331, 0.6151]]) torch.randint(low=0, high, size, *, generator=None, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False):生成一个范围为 $[low, high)$ 内取整数的均匀分布的张量。123>>> torch.randint(10, (2, 2))tensor([[6, 2], [2, 3]]) torch.randperm(n, out=None, dtype=torch.int64, layout=torch.strided, device=None, requires_grad=False):返回一个经过随机打乱顺序的张量。12>>> torch.randperm(10)tensor([8, 9, 5, 3, 2, 1, 0, 7, 4, 6])","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 2:张量的运算 1","slug":"DL-PyTorch-折桂-2:张量的运算-1","date":"2020-05-06T02:44:07.000Z","updated":"2020-10-18T01:34:32.958Z","comments":true,"path":"2020/05/05/DL-PyTorch-折桂-2:张量的运算-1/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/05/DL-PyTorch-%E6%8A%98%E6%A1%82-2%EF%BC%9A%E5%BC%A0%E9%87%8F%E7%9A%84%E8%BF%90%E7%AE%97-1/","excerpt":"1. tensor API 总览根据官方文档,对 tensor 可以进行如下操作: creation 操作 indexing,slicing,joining 及 mutating 操作 math 操作 elementwise 操作 reduction 操作 comparison 操作 spectral 操作 linear algebra 操作 random sampling 操作 serialization 操作 parallelism 操作 本文以及接下来的几篇文章会关注前四个操作,最后两个操作会在合适的时候提到。","text":"1. tensor API 总览根据官方文档,对 tensor 可以进行如下操作: creation 操作 indexing,slicing,joining 及 mutating 操作 math 操作 elementwise 操作 reduction 操作 comparison 操作 spectral 操作 linear algebra 操作 random sampling 操作 serialization 操作 parallelism 操作 本文以及接下来的几篇文章会关注前四个操作,最后两个操作会在合适的时候提到。 2. creation 操作2.1 转化一个已有数组把一个已有数组转化成 Tensor,通常有四种方法: torch.Tensor() torch.tensor(data, dtype=None, device=None, requires_grad=False, pin_memory=False) torch.from_numpy(ndarray) torch.as_tensor(data, dtype=None, device=None) 因为 torch.from_numpy() 只能转化一个 numpy array,所以先使用 numpy 创建一个数组。 12345678910111213141516171819202122232425array = np.arange(5)# 方法 1>>> tensor1 = torch.Tensor(array)>>> print(tensor1)tensor([0., 1., 2., 3., 4.])>>> print(tensor1.dtype)torch.float32# 方法 2>>> tensor2 = torch.tensor(array)>>> print(tensor2)tensor([0, 1, 2, 3, 4])>>> print(tensor2.dtype)torch.int64# 方法 3>>> tensor3 = torch.from_numpy(array)>>> print(tensor3)tensor([0, 1, 2, 3, 4])>>> print(tensor3.dtype)torch.int64# 方法 4>>> tensor4 = torch.as_tensor(array)>>> print(tensor4)tensor([0, 1, 2, 3, 4])>>> print(tensor14.dtype)torch.int64 可以看出,torch.Tensor() 没有保留数值类型,其它三个都保留了。这是因为 torch.Tensor() 实际上是一个类,传入的数据需要“初始化”;其它三个都是函数,而通过 torch.Tensor() 生成的张量的数据类型是由一个环境变量决定的,这个环境变量可以通过 torch.set_default_tensor_type(t) 这个函数来设定。那么新的张量与原来的数组是什么关系呢? 123456789101112>>> tensor1[0] = 100>>> print(array)[0 1 2 3 4]>>> tensor2[1] = 100>>> print(array)[0 1 2 3 4]>>> tensor3[2] = 100>>> print(array[ 0 1 100 3 4]>>> tensor4[3] = 100>>> print(array)[ 0 1 100 100 4] torch.Tensor() 和 torch.tensor() 复制了原数组的数据,torch.from_numpy() 和 torch.as_tensor() 直接与原数组共享数据。 综上所述,需要创建新张量时,推荐使用 torch.tensor();需要避免复制时,推荐使用 torch.as_tensor()。理由如下: torch.tensor() 和 torch.as_tensor() 的 API 更丰富,可控制的属性更多; torch.Tensor() 会改变数据类型,torch.from_numpy() 可接受的变量有限。2.2 其它创建张量的方法2.2.1 创建全部值为定值的函数12345torch.zeros(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) # 全为 0torch.ones(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) # 全为 1torch.empty(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False, pin_memory=False) # 全为一个随机小数 这三个函数的参数完全相同,放在一起说了: *size:新张量的形状; out:输出的已有张量名称; dtype:数据类型; layout:内存里的存储方式; device:存储设备; require_grad:是否追踪导数。 最后一个函数 torch.empty 生成的所谓“小数”真的是是非常小的、接近 0 的数: 12>>> torch.empty(1)tensor([2.0890e+20]) 还有一个类似的函数,可以指定填充的数值: 1torch.full(size, fill_value, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) # 全为一个定值 还可以根据已有的张量,按照该张量的形状生成相同形状的新张量: 1234567torch.zeros_like(input, dtype=None, layout=None, device=None, requires_grad=False, memory_format=torch.preserve_format)torch.ones_like(input, dtype=None, layout=None, device=None, requires_grad=False, memory_format=torch.preserve_format)torch.empty_like(input, dtype=None, layout=None, device=None, requires_grad=False, memory_format=torch.preserve_format)torch.empty_like(input, dtype=None, layout=None, device=None, requires_grad=False, memory_format=torch.preserve_format) 举个例子,假设 a 是一个 (2, 2) 的矩阵张量: 1234567>>> a = torch.ones(2, 2)>>> b = torch.zeros_like(a)>>> print(a, b)tensor([[1., 1.], [1., 1.]]) tensor([[0., 0.], [0., 0.]]) 2.2.2 创建一个元素间隔为常量的函数 torch.arange(start=0, end, step=1, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) 创建一个 1 维张量,范围为 [start, end),步进为 step。 12>>> torch.arange(4)tensor([0, 1, 2, 3]) torch.linspace(start, end, steps=100, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) 创建一个 1 维张量,范围为 [start, end],步数为 step。 12>>> torch.linspace(0, 5, 6)tensor([0., 1., 2., 3., 4., 5.]) torch.logspace(start, end, steps=100, base=10.0, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) 创建一个 1 维张量,范围为 $[base^{start}, base^{end}]$,步数为 step。 12>>> torch.logspace(-10, 10, 5, 10)tensor([1.0000e-10, 1.0000e-05, 1.0000e+00, 1.0000e+05, 1.0000e+10]) 2.2.3 创建一个对角张量 torch.eye(n, m=None, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) 对角张量指张量的对角线上的元素为 1,其余值为 0 的张量。 1234>>> torch.eye(3)tensor([[ 1., 0., 0.], [ 0., 1., 0.], [ 0., 0., 1.]]) 3. indexing,slicing,joining 及 mutating 操作3.1 indexing 操作 PyTorch 支持 Python 式的索引操作。123>>> a = torch.tensor([[1, 2, 3], [4, 5, 6]])>>> a[0][1]tensor(2) torch.index_select(input, dim, index, out=None) 根据指定索引在指定轴上索引。 12345>>> a = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])>>> indices = torch.tensor([0, 2])>>> torch.index_select(a, 0, indices) # 选取第 0 轴上第 0,2 个元素tensor([[1, 2, 3], [7, 8, 9]]) torch.masked_select(input, mask, out=None) 在 1 位张量上以布尔值进行索引。 1234>>> a = torch.tensor([0, 1, 2, 3])>>> mask = a.lt(2 # 以“小于 2”为条件创建布尔值>>> torch.masked_select(a, mask)tensor([0, 1]) 3.2 slicing 操作 Python 原生 slicing 操作1234>>> a = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])>>> a[0:2, :]tensor([[1, 2, 3], [4, 5, 6]]) torch.split(tensor, split_size_or_sections, dim=0) 按照给定维度进行切片。如果 split_size_or_sections 是一个整数,则以该数字为单位进行切片。如果张量在该维的长度不能被整除,最后一片的尺寸会小。 如果 split_size_or_sections 是一个列表,张量会按每个元素值切片。 123456789>>> a = torch.arange(10)>>> torch.split(a, 2, 0)(tensor([0, 1]), tensor([2, 3]), tensor([4, 5]), tensor([6, 7]), tensor([8, 9]))>>> torch.split(a, [3, 7], 0)(tensor([0, 1, 2]), tensor([3, 4, 5, 6, 7, 8, 9])) torch.chunk(input, chunks, dim=0) 在给定维度上将张量切成 chunk 份。若张量长度不能整除,则最后一份的长度会小。 12>>> torch.chunk(a, 3, 0)(tensor([0, 1, 2, 3]), tensor([4, 5, 6, 7]), tensor([8, 9])) 3.3 joining 操作 torch.cat(tensors, dim=0, out=None) 在不增加维度的情况下聚合若干个张量。 123456789>>> x = torch.arange(6).reshape(2, 3)>>> torch.cat([x, x], dim=0) # 在第 0 轴聚合tensor([[0, 1, 2], [3, 4, 5], [0, 1, 2], [3, 4, 5]])>>> torch.cat([x, x], dim=1) # 在第 1 轴聚合tensor([[0, 1, 2, 0, 1, 2], [3, 4, 5, 3, 4, 5]]) torch.stack(tensors, dim=0, out=None) 将两个张量叠加到一起,这会产生一个新的轴。 123456789101112>>> torch.stack([x, x], dim=0)tensor([[[0, 1, 2], [3, 4, 5]], [[0, 1, 2], [3, 4, 5]]])>>> torch.stack([x, x], dim=1)tensor([[[0, 1, 2], [0, 1, 2]], [[3, 4, 5], [3, 4, 5]]])","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[DL] PyTorch 折桂 1:张量的性质","slug":"DL-PyTorch-折桂-1:张量的性质","date":"2020-05-06T01:50:58.000Z","updated":"2020-05-18T17:33:17.087Z","comments":false,"path":"2020/05/05/DL-PyTorch-折桂-1:张量的性质/","link":"","permalink":"https://vincent507cpu.github.io/2020/05/05/DL-PyTorch-%E6%8A%98%E6%A1%82-1%EF%BC%9A%E5%BC%A0%E9%87%8F%E7%9A%84%E6%80%A7%E8%B4%A8/","excerpt":"1. 张量张量就是在深度学习里,可以使用 GPU 运算的多维数组。 0 维张量是一个标量(scalar); 1 维张量是一个矢量(vector); 2 维张量是一个矩阵(matrix); 3 维以上的张量没有通俗的表示。 2. 张量的数据类型张量一共有三种,整数型、浮点型和布尔型。整数型和浮点型张量的精度分别有 8 位、16 位、32 位、64 位。 类型 精度 表示 整形 8 位 torch.int8 16 位 torch.int16 或 torch.short 32 位 torch.int 或 torch.int32 64 位 torch.int64 或torch.long 浮点型 16 位 torch.float16 或 torch.half 32 位 torch.float 或 torch.float32 64 位 torch.float64 或 torch.double 布尔型 torch.bool 获得一个张量的数据类型可以通过 Tensor.dtype 实现;如果给这个表达式赋值则将这个张量的数据类型改为目标类型。","text":"1. 张量张量就是在深度学习里,可以使用 GPU 运算的多维数组。 0 维张量是一个标量(scalar); 1 维张量是一个矢量(vector); 2 维张量是一个矩阵(matrix); 3 维以上的张量没有通俗的表示。 2. 张量的数据类型张量一共有三种,整数型、浮点型和布尔型。整数型和浮点型张量的精度分别有 8 位、16 位、32 位、64 位。 类型 精度 表示 整形 8 位 torch.int8 16 位 torch.int16 或 torch.short 32 位 torch.int 或 torch.int32 64 位 torch.int64 或torch.long 浮点型 16 位 torch.float16 或 torch.half 32 位 torch.float 或 torch.float32 64 位 torch.float64 或 torch.double 布尔型 torch.bool 获得一个张量的数据类型可以通过 Tensor.dtype 实现;如果给这个表达式赋值则将这个张量的数据类型改为目标类型。 3. PyTorch 的不同形态PyTorch 是很灵活,可以通过不同方式达到同样的目的。 3.1 函数功能:torch.function() 与 Tensor.function()首先,让我们有一个约定:如果我们说 Tensor.xxx(),这个 Tensor 指的是一个具体的张量。 在 PyTorch 中,张量的很多运算既可以通过它自身的方法,也可以作为 PyTorch 中的一个低级函数来实现,比如两个张量 a 和 b相加,既可以写成 torch.add(a, b),也可以写成 a.add(b)。 3.2 赋值语句:很多张量的属性既可以在创建时声明,也可以在之后任何时间声明。比如我想把一个值为 1 的 32 位整数张量赋给变量 a,我可以在生成时一步到位, 1a = torch.tensor(1, dtype=torch.int32) 也可以先生成 a 的张量,然后再改变它的数据类型。 12a = torch.tenor(1)a.dtype = torch.int32 4. 张量的存储张量存储在连续的内存中,被 torch.Storage 控制。一个 *Storage* 是一个一维的包含数据类型的内存块。一个 PyTorch 的 Tensor 本质上是一个能够索引一个 *Storage* 的视角。你可以访问一个 Tensor 的 *Storage*: 123456789>>> points = torch.tensor([[1.0, 4.0], [2.0, 1.0], [3.0, 5.0]])>>> points.storage()1.04.0 2.0 1.0 3.0 5.0[torch.FloatStorage of size 6] 你不能对一个 *Storage* 进行二维索引,因为 *Storage* 是一维的。因为 *Storage* 是一个张量的存储,修改它同样会改变张量本身。 5. 张量的 size,storage offset 和 stride我们先定义一个张量: 12345>>> points = torch.tensor([[1.0, 4.0], [2.0, 1.0], [3.0, 5.0]])>>> pointstensor([[1., 4.], [2., 1.], [3., 5.]]) 5.1 张量的 size获得一个张量的形状有四种方法: Tensor.size() 12>>> points.size()torch.Size([3, 2]) Tensor.shape 12>>> points.shapetorch.Size([3, 2]) 可以看出,两者的区别在于 Tensor.shape 没有 ()。 Tensor.numel() 查看 tensor 内的元素个数。 12>>> points.numel()6 Tensor.dim() 或 Tensor.ndim 查看张量的维数,即有几维。 5.2 张量的 storage offset查看张量内的相应元素与内存中第一个元素的相对位移。 123>>> second_point = points[1]>>> second_point.storage_offset()2 因为 points 的 storage 是 1.0, 4.0, 2.0, 1.0, 3.0, 5.0,second_point 距离这个张量在内存中的第一个元素的距离是 2。 5.3 张量的 stride指的是当索引增加 1 时,每个维度内需要跳过的元素个数,是一个元组。 12>>> points.stride()(2, 1) 6. 张量的变形、升维与降维6.1 张量的变形:Tensor.view(),Tensor.reshape() 或 Tensor.resize()括号里面的数值用小括号、中括号或者不用括号括起来都可以,维数自定,只要所有数字的乘积与原尺寸的乘积相同即可。Tensor.view() 和 Tensor.reshape() 的维度中可以有一个 -1,表示该维的长度由其他维度决定。Tensor.resize() 的维度中不能有 -1。 123>>> points.reshape((1, 2, 1, -1))tensor([[[[1., 4., 2.]], [[1., 3., 5.]]]]) 6.2 张量的转置:Tensor.t() Tensor.T 或 Tensor.transpose(dim1, dim2)Tensor.t()只能转置维度小于等于 2 的张量,转置第 0、1 维。 1234>>> a = torch.arange(4).reshape(2, 2)>>> a.t()tensor([[0, 2], [1, 3]]) Tensor.T 把整个张量的维度进行颠倒。 123456>>> new_points = points.reshape(1, 2, -1, 1, 3)>>> new_points.shapetorch.Size([1, 2, 1, 1, 3])>>> new = new_points.T>>> new.shapetorch.Size([3, 1, 1, 2, 1]) 而 Tensor.transpose(dim1, dim2) 可以转置任意两个维度。 123>>> new2 = new_points.transpose(1, 4)>>> new2.shapetorch.Size([1, 3, 1, 1, 2]) 6.3 张量的降维:Tensor.squeeze()所谓降维,就是消去元素个数为 1 的维度。可以指定想消去的维度,若该维度不能消去,则该命令无效,但是不报错。若没有指定维度,则消去所有长度为 1 的维度。 123456789>>> new_points2 = new.squeeze(1)>>> new_points2.shape # 降维成功torch.Size([3, 1, 2, 1])>>> new_points3 = new.squeeze(0)>>> new_points3.shape # 降维失败torch.Size([3, 1, 1, 2, 1])>>> new_points4 = new_points.squeeze()>>> new_points4.shape # 降维成功torch.Size([2, 3]) 6.4 张量的升维:Tensor.unsqueeze()升维必须指定增加的维度,必须在张量的已有维度 (-dim-1, dim+1) 之间。相当于在两个维度之间“加塞”,后面的维度顺移一位。 12>>> new_points4.unsqueeze(2).shapetorch.Size([2, 3, 1]) 7. 张量的复制与原地修改因为张量本质上是连续内存地址的索引,我们把一段内存赋值给一个变量,再赋值给另一个变量后,修改一个变量中的索引往往会改变另一个变量的相同索引: 12345>>> a = torch.tensor([1, 2, 3, 4])>>> b = a>>> b[1] = 10>>> a, b(tensor([ 1, 10, 3, 4]), tensor([ 1, 10, 3, 4])) 我们希望能够控制这种现象。 7.1 张量的复制使用 Tensor.clone() 复制一段内存上的数据到另一段内存上,这两个张量相互独立。 12345>>> a = torch.tensor([1, 2, 3, 4])>>> b = a.clone()>>> b[1] = 10>>> a, b(tensor([ 1, 10, 3, 4]), tensor([ 1, 10, 3, 4])) 7.2 张量的原地修改如果我们能够避免引入新张量,直接在原始张量上修改,不就可以避免混淆了吗?很多张量操作都支持原地(in-place)操作,只要在原始函数后面加上 _ 就表明是原地修改。比如: 12345678>>> a = torch.ones(2, 2) # 创建一个 2 x 2 的全 1 张量>>> atensor([[1., 1.], [1., 1.]])>>> a.add_(1) # 原地每个元素加 1>>> atensor([[2., 2.], [2., 2.]])","categories":[],"tags":[{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]},{"title":"[Python] 经验总结 1:数据框的切片","slug":"Python-经验总结-1:数据框的切片","date":"2020-04-28T21:25:57.000Z","updated":"2020-05-13T21:55:51.019Z","comments":true,"path":"2020/04/28/Python-经验总结-1:数据框的切片/","link":"","permalink":"https://vincent507cpu.github.io/2020/04/28/Python-%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93-1%EF%BC%9A%E6%95%B0%E6%8D%AE%E6%A1%86%E7%9A%84%E5%88%87%E7%89%87/","excerpt":"每个人都知道 Python 是一种高效、简洁、优雅的语言。然而 Python 也有很多坑,现在老宅开一个新系列,分享老宅在学习和实践中总结的经验和教训,不定期分享。 第一个经验就是要吐槽数据框的切片。Python 有很多第三方的模块(比如 pandas 这样的数据科学神器),对提升 Python 的实用性贡献很大。然而模块多就有一个副作用:语法的不一致性。老宅在学习 pandas 的过程中就被数据框切片的复杂语法搞得挠头。","text":"每个人都知道 Python 是一种高效、简洁、优雅的语言。然而 Python 也有很多坑,现在老宅开一个新系列,分享老宅在学习和实践中总结的经验和教训,不定期分享。 第一个经验就是要吐槽数据框的切片。Python 有很多第三方的模块(比如 pandas 这样的数据科学神器),对提升 Python 的实用性贡献很大。然而模块多就有一个副作用:语法的不一致性。老宅在学习 pandas 的过程中就被数据框切片的复杂语法搞得挠头。 本文参考了 http://chris.friedline.net/2015-12-15-rutgers/lessons/python2/02-index-slice-subset.html,特此致谢。 数据框的切片,是在列表的切片的基础上发展起来的。不过列表是一维,数据框是二维,因此数据框切片有自己独特的方法。所以数据框的切片有两个风格:原生风格和 pandas 风格(这两个风格是老宅自己总结的…)。在总结以前,我们先构建数据集: 12345678910111213>>> import pandas as pd>>> from sklearn.datasets import load_iris # 载入 iris 数据集模块>>> iris = pd.DataFrame(load_iris()[\"data\"]) # 载入 iris 数据集并转化为列表>>> iris.columns = [\"sepal_length\", \"sepal_width\",... \"petal_length\", \"petal_width\"] # 定义列名>>> from string import ascii_lowercase # 载入字母表>>> idx = []>>> for i in ascii_lowercase:... for j in ascii_lowercase:... idx.append(i + j)# 创建字母表排列组合>>> iris.index = idx[:150] # 定义行名>>> iris.head() sepal_length sepal_width petal_length petal_width aa 5.1 3.5 1.4 0.2 ab 4.9 3.0 1.4 0.2 ac 4.7 3.2 1.3 0.2 ad 4.6 3.1 1.5 0.2 ae 5.0 3.6 1.4 0.2 原生风格切片单列 df.column 方法 直接在数据框后面使用 . 连接列名。例如: 123456>>> iris.sepal_length[1:5]ab 4.9ac 4.7ad 4.6ae 5.0Name: sepal_length, dtype: float64 这个方法不需要用 "" 括上列,非常方便。不过这样有个潜在的局限:如果列名里有空格,这个方法就不好用了,就要用下面的方法。 df["column"] 方法 这个方法的好处是引号内可以有特殊符号,比如空格。这样切片稍微麻烦一点,但是还可以接受。 df[["column"]] 方法 这个方法与上面一样都用来切片单列。有什么不同呢?请看下面的例子: 123456789>>> iris[\"sepal_length\"][1:5]ab 4.9ac 4.7ad 4.6ae 5.0Name: sepal_length, dtype: float64>>> iris[[\"sepal_length\"]][1:5] sepal_length ab 4.9 ac 4.7 ad 4.6 ae 5.0 单中括号和双中括号的区别在于单中括号返回的是序列,而双中括号返回的是数据框。 切片多列 df[["column1", "columns2"...]] 方法因为多个列组合在一起是一个数据框,所以必须使用双中括号来切片。列名要用引号括起来。 df[list] 方法这里就体现出不一致性了:假如我们先将想要切片的列放入一个列表,就可以使用单中括号,而且不需要使用引号。12>>> lst = [\"sepal_length\",\"petal_length\"]>>> iris[lst].head() sepal_length petal_length aa 5.1 1.4 ab 4.9 1.4 ac 4.7 1.3 ad 4.6 1.5 ae 5.0 1.4 切片行 使用索引切片哪怕数据框的行已经有的自定义索引名,照样可以使用数字 0 - ~ 切片。 1>>> iris[1:5] sepal length sepal width petal length petal width ab 4.9 3.0 1.4 0.2 ac 4.7 3.2 1.3 0.2 ad 4.6 3.1 1.5 0.2 ae 5.0 3.6 1.4 0.2 使用行名切片 1>>> iris[\"ae\":\"ag\"] sepal_length sepal_width petal_length petal_width ae 5.0 3.6 1.4 0.2 af 5.4 3.9 1.7 0.4 ag 4.6 3.4 1.4 0.3 行切片还有一个列切片不具备的功能:切片连续的行。如果数据框的行名和列名不一致,pandas 会自动判断你在切片行还是列。如果一致嘛…pandas 就不知所措了。这时候就要用到下面的 pandas 风格切片。 pandas 风格切片df.loc[“indexes”, “columns”] 基于行、列的名称切片注意行和列都是用的复数形式,意味着可以同时切片多行或多列。同时也可以切片范围内的行或列,使用 : 即可。 1>>> iris.loc[\"ae\":\"ag\", [\"sepal_length\",\"petal_length\"]] sepal_length petal_length ae 5.0 1.4 af 5.4 1.7 ag 4.6 1.4 想切片全部的行或列,只需要单独使用 : 即可。 1iris.loc[\"ae\":\"ag\", :] # 切片全部列 sepal_length sepal_width petal_length petal_width ae 5.0 3.6 1.4 0.2 af 5.4 3.9 1.7 0.4 ag 4.6 3.4 1.4 0.3 df.iloc[“indexes”, “columns”] 基于行、列的索引切片也可以基于行或列的数字索引切片,具备 loc 的一切结构和性质。 1>>> iris.iloc[1:3, 0:2] sepal_length sepal_width ab 4.9 3.0 ac 4.7 3.2","categories":[],"tags":[{"name":"Python","slug":"Python","permalink":"https://vincent507cpu.github.io/tags/Python/"}]},{"title":"Hello World","slug":"hello-world","date":"2020-04-28T21:20:17.000Z","updated":"2020-05-13T21:54:53.510Z","comments":true,"path":"2020/04/28/hello-world/","link":"","permalink":"https://vincent507cpu.github.io/2020/04/28/hello-world/","excerpt":"","text":"欢迎来到我的博客! 作为一名自然语言处理爱好者,这个博客将关注自然语言处理以及计算语言学方面的研究及实践。 我还有很多东西要学习。求知若饥,学习若愚。","categories":[{"name":"others","slug":"others","permalink":"https://vincent507cpu.github.io/categories/others/"}],"tags":[]}],"categories":[{"name":"others","slug":"others","permalink":"https://vincent507cpu.github.io/categories/others/"}],"tags":[{"name":"NLP","slug":"NLP","permalink":"https://vincent507cpu.github.io/tags/NLP/"},{"name":"Python","slug":"Python","permalink":"https://vincent507cpu.github.io/tags/Python/"},{"name":"经验总结","slug":"经验总结","permalink":"https://vincent507cpu.github.io/tags/%E7%BB%8F%E9%AA%8C%E6%80%BB%E7%BB%93/"},{"name":"python","slug":"python","permalink":"https://vincent507cpu.github.io/tags/python/"},{"name":"基础","slug":"基础","permalink":"https://vincent507cpu.github.io/tags/%E5%9F%BA%E7%A1%80/"},{"name":"深度学习工作站","slug":"深度学习工作站","permalink":"https://vincent507cpu.github.io/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99/"},{"name":"deep learning","slug":"deep-learning","permalink":"https://vincent507cpu.github.io/tags/deep-learning/"},{"name":"PyTorch","slug":"PyTorch","permalink":"https://vincent507cpu.github.io/tags/PyTorch/"}]}