NLP学习笔记1
IMDB数据集探索实验是在Google Colab上面做的,机器也是用的谷歌云。
# keras.datasets.imdb is broken in 1.13 and 1.14, by np 1.16.3
!pip install tf_nightly
安装tensorflow
from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf
from tensorflow import keras
import numpy as np
模型评估与选择——周志华《机器学习》CH2
模型如何评估,选择标准是什么?先让我们了解一下常见的衡量标准
错误率+精度=1
误差:训练误差/经验误差 training/empirical error泛化误差 generalization error
训练误差低,泛化误差不一定低。这其中牵扯到过拟合和欠拟合的问题。
过拟合:过分学习,将训练样本中不属于规律的的噪声也一并学习的现象。防止过拟合,一般采用将数据集分成训练集和测试集,利用训练集训练模型,利用测试集拟合泛化误差的办法。
测试误差 testing error
划分数据集的方法样本划分之留出法 hold-out将样本分成互斥的两部分S,T用S训练,用T测试。分割比例自己确定。需要注意
三星笔记本升级硬盘实录
这是一篇装机实录,主要内容有:
给老式(2014年左右)无光驱笔记本电脑安装固态硬盘、拆卸机械硬盘;
重装系统的坑
固态硬盘体验
旧本盼望新生很早之前就想为自己的古董笔记本提升一下性能了。我的笔记本型号是NP370R5V-S02CN,属于2014年那会儿产的机型。i5的CPU、8G的内存(其中我额外购置了4G内存条),再加上5年的使用习惯,让我对这台机器还比较满意。限制笔记本电脑性能的主要瓶颈就是硬盘了。
我是一个等等党,平时也不会在自己的电脑上运行特别复杂的程序,大部分都在服务器或者公有云上跑了。所以对笔记本电脑的需求不是那么急切。固态2块钱1G的时候我没有心动,1块钱1G的时候我还是没
高级操作系统——分布式系统——课程设计与实现
实验二一、实验目的尝试实现一个无连接的数据报Socket进程间通信(UDP)
二、实验内容
创建两个进程,使用无链接的数据报Socket实现交换一个字符串。一个叫做Sender.java ,用于向一个名为Receiver.java的进程发送一个字符串。
Sender.java需要一个命令行参数,用于表示传递消息的端口号.
Receiver.java 需要一个命令行参数用于表示接受消息的端口号。
接受方需要阻塞直到从发送方收到一个消息。如果发送放在接受运行之前发送出消息,消息会丢失。这种情况在此实验中是允许的。
消息缓冲可以是定长的。如果发送的消息比消息缓冲长,接受方就看不到完整的消息。这种情况
高级操作系统——分布式系统——课程作业与解答
第一章作业1. 什么是分布式系统?请举例说明分布式系统的特点。定义1:分布式系统是多个独立计算机的集合,该系统用户认为它是一个单独的一致的系统定义2:由在通过消息进行通信和协作操作的网络计算机上的软件硬件部件组成的任何系统分布式系统的特点:(1)隐藏性,隐藏了计算机之间的不同,隐藏了计算机之间的通信过程。(2)统一性和一致性,无论何时何地,用户都采用统一和一致的方法访问分布式系统。(3)可扩展性,隐藏一个独立的计算机如何参与系统的运作;在系统的一部分不能工作的情况下整个系统仍然能持续提供服务;当系统的某些部件被替换或被修改或是系统提供了新的服务时,不应让用户注意到这些改变。(4)并发性,在共享
贝叶斯分类
朴素贝叶斯法(Naive Bayes)在高斯判别分析(GDA)方法中,特征向量 $x$ 是连续的,值为实数的向量。下面我们要讲的是当 $x_i$ 是离散值的时候来使用的另外一种学习算法。
下面就来继续看一个之前见过的样例,来尝试建立一个邮件筛选器,使用机器学习的方法。这回咱们要来对邮件信息进行分类,来判断是否为商业广告邮件(就是垃圾邮件),还是非垃圾邮件。在学会了怎么实现之后,我们就可以让邮件阅读器能够自动对垃圾信息进行过滤,或者单独把这些垃圾邮件放进一个单独的文件夹中。对邮件进行分类是一个案例,属于文本分类这一更广泛问题集合。
假设我们有了一个训练集(也就是一堆已经标好了是否为垃圾邮件的邮件
牛奶可乐经济学note2
回顾一下上一节的概念:
机会成本:
一件事情的机会成本,是指为了从事这件事而放弃的其他事情的价值。
假设小金抽中了大众点评霸王餐,价值200元的A餐馆的晚饭,必须今晚吃。但是今晚小金最爱的林俊杰今晚开演唱会,演唱会门票400元。小金之前想的是演唱会门票超过500元就不去,但是霸王餐的消息突如其来,小金有点犹豫了。
那么请问小金去吃霸王餐的机会成本是多少?
答案是100元。吃霸王餐的价值与本题无关,因为小金放弃的是林俊杰的演唱会。林俊杰演唱会在小金心中值500,但他要花费400元买票,因此只要霸王餐在小金的心目中的价值超过100元,小金就应该去吃霸王餐。
在经济学理论里,成本如果没有特殊说明
支持向量机笔记
支持向量机1. 思想SVM的思想,即对于平面上的二分类问题,找到一条直线,不但能够将两类数据恰好分开,而且要分的越开越好。即最大化不同类别的(关键)样本点之间的距离。
我们的目的是找到一条河,让这条河的河岸恰恰经过正负样本的同时,尽可能宽。
上图蓝线是最终确定的超平面,红线则是正例和反例的“楚河汉界”。这“楚河汉界”与超平面平行,并且距超平面相同距离。
我们不妨定义这段距离为1。
2. 最大化距离的方法假设已经找到了这样一条超平面,它的法向量为$\vec{w}$.
对于任意样本$\vec{u}$,如果$f(u)=w\cdot u+b > 0$则把样本u归为正例,反之为负例。
现在想要找
华为的命运与中国的反应
美国将华为列入了黑名单,实施一系列与针对中兴类似的、外科手术式的精准打击。华为在劫难逃。那么华为或中国可以做什么来应对呢?中国会采取哪些手段?华为被列为美国“实体清单”无疑是当下最受关注的话题。显然,美国是想采取一系列精准打击,妄图将华为推入和中兴一样的境地。因此,无论是国内还是国外,线上还是线下,华为和中国的反应无疑是最受人关注的。鉴于国内新闻平台罕有客观分析的文章,我通过Quora论坛(又称作美国版知乎)摘录并翻译了Janus Dongye Qimeng对于该问题的精彩回答。他回答于5月22日,截至目前(25日)收获了5.9k个赞同。让我们来欣赏Janus对于该问题的精彩回答吧。
链接:U
2019-05-25
translation
转载
牛奶可乐经济学读书笔记(不定期更新)
2019年5月16日
我对经济学比较感兴趣,毕竟我本身就是个穷人,我也希望能够高效利用我身上有限的资源。学习经济学能够对我的思维方式有很大改善。
我认为阅读一本能够给自己带来很多知识的书时,应当一步一步不要贪多。每次阅读都是美妙的经历,就好像在和读者对话一样。
这本《牛奶可乐经济学》一开始让我感到有点啰嗦,作者一直在讲他的授课经历,以及学生的反映。似乎欧美的书籍都会有这样的通病。我误以为这又是一本充满废话和鸡汤的科普书籍,便一页一页翻过去,翻到后来却感觉什么也没看进去。于是我从头沉下心来,一点一点阅读。
终于在睡前阅读完毕了第一章。我强忍着想要阅读第二章的好奇心,闭上眼睛总结学到的东西。我一直
Python3中enumerate/zip等函数使用方法
最近正在研读《Python机器学习基础教程》(Introduction to Machine Learning with Python)这本书。书中的Python3代码、对于numpy、pandas、matplotlib以及scikit-learn库的使用都让人叹为观止。作为Python初学者,这本书不仅可以让人入门机器学习,更可以让人的Python技巧得到提升。
下面的代码使用sklearn自带数据集moon以及sklearn的随机森林模型构建由5棵树组成的随机森林,并利用matplotlib库可视化。
import numpy as np
import pandas as pd
impor
矩阵求导总结
我实在是不会把hexo中的latex开关打开了,大家如果想看公式,可以使用markdown编辑器,复制本文后在本地查看。本文是由本人汇编自网上的资料整理而成,为的是记忆和分享。
然后来建立运算法则。回想遇到较复杂的一元函数如$f = \log(2+\sin x)e^{\sqrt{x}}$,我们是如何求导的呢?通常不是从定义开始求极限,而是先建立了初等函数求导和四则运算、复合等法则,再来运用这些法则。故而,我们来创立常用的矩阵微分的运算法则:
加减法:$d(X\pm Y) = dX \pm dY$;矩阵乘法:$d(XY) = (dX)Y + X dY $;转置:$d(X^T) = (dX)^T$
CS229-note-4-生成学习算法
转载自@飞龙
相关链接
Github 地址
知乎专栏
斯坦福大学 CS229 课程网站
网易公开课中文字幕视频
第四部分 生成学习算法(Generative Learning algorithms)目前为止,我们讲过的学习算法的模型都是$p (y|x;\theta)$,也就是给定 $x$ 下 $y$ 的条件分布,以 $\theta$ 为参数。例如,逻辑回归中就是以 $h_\theta(x) = g(\theta^T x)$ 作为 $p (y|x;\theta)$ 的模型,这里的 $g$ 是一个 $S$型函数(sigmoid function)。接下来,咱
CS229-note-3-广义线性模型
在前面的学习中,我们主要讨论回归和分类的问题,在回归问题中我们默认的分布模型为正态分布$y | x ; \theta \sim \mathcal{N}\left(\mu, \sigma^{2}\right)$,在分类问题中的模型为伯努利二项分布$y | x ; \theta \sim$ Bernoulli $(\phi)$。这里的$\mu$与$\phi$是$x$与$\theta$的函数
我们接下来要介绍广义线性模型(generalized linear models,简称 GLM),之前的两种模型都是广义线性模型的特例,除此之外广义线性模型还可以导出其他不同的模型,适用于其他类型的分类或回归问
CS229-note-2-分类问题与逻辑回归
1. 分类问题区别于CS229 note 1: Introduction提到的回归问题,我们这里要研究的问题是分类,即输出变量是离散的,非黑即白、非一即二,取值范围不再是实数。
对于2-分类问题,我们倾向于找到一个函数h(x),输入特征x后,给出0或者1的结果。看起来就是一个简化版的回归问题,毕竟结果不需要精确到数字,只需要给出一个类别就可以了。可不可以利用回归问题的解决思路来解决分类问题?答案是也可以,但会出现一系列的问题,相当于用一个复杂的模型去拟合一个简单的数据。
直观来讲,我们只需要设置某个阈值,高于此阈值的为1,低于此阈值的为0即可。没错,这是一种分类方法。
g(z)=\left\
2019-04-26
notes
machine learning
CS229 note 1: Introduction
1. Supervised learning机器学习,机器从数据中学习固定的问题-答案模式,形成固定的问答模型的过程。
机器学习的过程可用下图表示:
机器通过特定的学习方法Learning Algorithm学习已知的问题-答案数据集Training Set,Learning Algorithm最终会得到一个与真实模型相差无几的假说模型hypothesis。得到该模型之后,我们就可以利用它,对全新的问题的答案作出预测。
机器通过问题-答案训练模型的过程,称之为监督学习过程。问题是由一组已知数据构成的输入,比如房屋的面积、照射率、卧室数目等等;答案则是一个确切的结论,比如房屋的价格。刚才举的例
2019-04-26
notes
machine learning
hexo图片加载失败解决方案
问题描述:我平时写blog使用的编辑器是Typora,采用hexo部署。某篇文章编辑的时候需要插入图片,在Typora上面,插入图片的语法是
![图片标题](图片地址)比如![](C:\Folder\picture.png)
其中图片地址是绝对路径,即盘符开头的那个路径。但是如果要上传到GitHub Pages上面,路径毫无疑问会发生变化,所以这里只能用相对路径。假设你的图片和当前的博客文件在同一目录下,则直接这样:
![](picture.png)![](.\picture.png)![](./picture.png)
用过unix文件系统的人都知道,其实那个.的作用就是指明“当前文件夹下”
写在某次期末课程作业之后
写在某次期末课程作业之后当任课老师在群里说:“Superlova,请尽快将你的作业发给我,电子版和纸质版。”的时候,我还在看“POP子与PIPI美”的第二遍。
还好我的不看微信的习惯此时并没有让我继续坠入深渊,不过当我阅读完整段消息,一股过电的感觉从心口开始向四肢扩散。我的心脏仿佛停止了跳动,我想大叫、砸东西,我脑子里反复出现以下字眼:
你在干什么呢小S,都什么时候了你还在看动漫?我的天啊就剩我一个人没交了,本来不是说好了三天之前就做完吗?我真是个废物……我该怎么用一个小时不到的时间把所有的工作做完???……
1个小时候,我把论文写完,放弃和妥协了一些没能完成的目标,发到老师的邮箱中,并打
Coreutils重新编译方法
Coreutils重新编译方法
下载coreutils,在Linux系统下解压
运行指令 ./configure
运行 make
进入src文件夹,挑选您要修改的文件,我以pwd.c为例,将其复制到我的个人文件夹
修改pwd.c,将其内部所有带“VERSION”的行全部注释掉
运行指令1
$ gcc -E -I ~/MyCode/coreutils-8.30/lib/ -I ~/MyCode/coreutils-8.30/ -I ~/MyCode/coreutils-8.30/src pwd.c -o pwd.i
运行指令2
$ gcc -c pwd.i -o pwd.o