发啥子呢就是莫浩波的本职工作人工智能啦。
最近这一阵子深度学习可是越发火热了啊可以说是炙手可热也不为过。
自从2012年hinton团队构建的cnn网络alexnet一举夺得imagenet图像识别比赛冠军(15%错误率)且碾压第二名(svm方法26%错误率)的分类性能。
从那时候起由cnn引发的深度学习、人工智能狂潮飞速火爆整个世界激荡着这个时代以及这个时代的我们!
图像识别、语音识别、计算机视觉和自然语言处理等人工智能细分领域迅猛发展成果和进步如雨后春笋般涌出深刻影响着每一个人。
当然现在只是12年过去不久才13年中深度学习尤其是图片识别和cnn火爆整个人工智能学术圈但至于火爆整个社会那还远远说不上。
不过刺激刺激互联网企业却是实实在在的记得也是这一年重量级互联网巨头百度才开始赞助人工智能顶级会议的。
无论承认与否我始终觉得百度是最有技术基因的中国互联网企业13年的时候他在干嘛?移动互联网的上半场转型失败了的百度正布局移动应用分发收购91;布局o2o做平台卖外卖;布局互联网金融做支付工具呢。
什么都做什么都不突出是百度那时候新项目的真实写照。至于人工智能那可就是2016的事了。
要说对人工智能的理解重生归来的莫浩波肯定是比所有人都要强的可是现在弄不出什么牛逼的东西出来。
无他硬件不够莫浩波大哭。8g内存1个gpu够干啥cnn和图片识别、计算机视觉是不用想了这条件也构建不出啥深度模型。
语音识别比较简单莫浩波也不熟就不去凑热闹了。那就只有自然语言处理了!文本也比较适合他现在的情况虽然即便是18年自然语言处理技术也不咋地和牛逼哄哄的图片识别相比那是一个天上一个地下的水平啊。
不过必须要说聪明的研究人员也做出了很多了不起的成绩。
莫浩波要抄的就是13年10月投稿的词向量word2vec改进——负采样技术。
word2vec那在自然语言领域可是无人不知无人不晓啊。可以说它是深度学习领域自然语言处理的核心基本构建了。
将文本信息比如说一句话“明天天气怎么样?”转化为计算机能够识别的信息那就是要转化为数学啊。
用one—hot(唯一标识)方法(就是说用不重复的数学表示所有文字)虽然简单但是效果并不太好因为这样做的话就丢失了很多语句中隐藏的信息。
而word2vec是一种能够保留局部上下文信息的方法…………