您好、欢迎来到现金彩票网!
当前位置:全民彩票app下载 > 感知机 >

从头开始编写任何机器学习算法的6个步骤

发布时间:2019-05-08 21:31 来源:未知 编辑:admin

  从头开始编写算法是一种有益的体验,当你最终点击运行的那一刻,你会了解算法背后真正发生了什么。

  如果你以前用scikit-learn实现过这个算法,从头开始编写就会很容易?不是这样。

  有些算法只是比其他算法更复杂,所以可以从简单的开始,比如单层感知器(Perceptron)。

  本文将以感知器为案例,引导你完成从头开始编写算法的6个步骤。这种方法可以很容易地用于编写其他机器学习算法。

  这又回到了我最初所说的。如果你不了解基础知识,请不要从头开始处理算法。至少,你应该能够回答以下问题:

  单层感知器是最基本的神经网络,通常用于二进制分类问题(1或0,“是”或“否”)。

  它是一个线性分类器,因此只有在存在线性决策边界的情况下才能有效使用。一些简单的用途可以是情绪分析(正面或负面反应)或贷款违约预测(“会违约”,“不会违约”)。对于这两种情况,决策边界都必须是线性的。

  如果决策边界是非线性的,那么你实际上无法使用感知器。对于这些问题,需要使用其他算法。

  在对模型有了基本的了解之后,是时候开始进行研究了。我建议使用大量资源。有些人用教科书学得更好,有些人用视频学得更好。就我个人而言,我喜欢使用各种类型的资源。对于数学细节,教科书的解释很好,但对于更实际的例子,我更喜欢看博客文章和YouTube视频。

  现在,我们已经收集了需要的资料,是时候开始学习了。与其从头到尾阅读书本或博客文章,不如先浏览一下章节标题和其他重要信息。写下要点,并尝试概述算法。

  在浏览完这些资料后,我们可以将Perceptron算法分解为以下几个块(chunks):

  将算法分解成这样的块,可以使得学习更容易。基本上,我已经使用伪代码概述了这个算法,现在可以回过头来填写细节了。 下面这张图是第二步的笔记,即权重和输入的点积:

  在深入研究一个复杂的问题之前,我想先从一个简单的例子开始。对于感知器,NAND gate(与非门)是一个完美的简单数据集。如果两个输入都为线),否则输出为真。下面是数据集的一个示例:

  现在,有了一个简单的数据集,我将开始实现我在步骤3中概述的算法。最好将这个算法分成块编写并进行测试,而不是试图一次性写完。这样在刚开始时更容易调试。

  我们已经编写了代码,并针对一个小数据集进行了测试,现在是时候扩展到更大的数据集了。为了确保我们的代码在这个更复杂的数据集上正确工作,最好在一个可信的实现上对其进行测试。对于感知器,我们可以使用scikit-learn中的实现。

  为了测试代码,我将检查权重。如果正确地实现了算法,我的权重应该与scikit-learn中感知器的权重相匹配。

  一开始,我没有得到相同的权重,这是因为我不得不调整scikit-learn Perceptron中的默认设置。我并不是每次都实现一个新的随机状态,而只是一个fixed seed,所以不得不关闭它。shuffling也是这样,也需要关闭它。为了匹配学习率,我将eta0改为0.1。最后,我关闭了fit_intercept选项。我在特征数据集中包含了一个1的虚拟列,所以已经自动拟合了偏差项。

  这引出了另一个重要的问题。在验证模型的现有实现时,你需要非常清楚模型的输入。你不应盲目地使用模型,而要总是质疑你的假设,以及每个输入的确切含义。

  这个过程的最后一步可能是最重要的。 你已经完成所有的学习工作,做了笔记,从头开始编写了算法,并将它与可信的实现进行了比较。那么不要让所有这些工作白白浪费掉。编写流程非常重要,原因是:

  你会得到更深刻的理解,因为这样做相当于在教别人你刚学到的东西。你可以向潜在的雇主展示它。证明你可以利用机器学习库实现算法是一回事,但如果你可以从头开始实现一个算法,那就更令人印象深刻了。

  从头开始编写算法是一种非常有益的体验。这是深入了解模型、构建一个令人印象深刻的项目组合的好方法。

  记得要慢慢来,从简单的事情开始吧。最重要的是,一定要记录和分享你的工作。

  文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

  点击右方佳嵌图标,可以看所有课程。我们将《嵌入式工程师-系列课程》分成两大阶段:第一阶段:《计算机体系结构》课程&n

  点击右方佳嵌图标,可以看所有课程。我们将《嵌入式工程师-系列课程》分成两大阶段:第一阶段:《计算机体系结构》课程&n

  针对无线传感器网络(WSN)节点的定位精度受环境和误差权重因子的影响问题,提出一种对路径损耗因子和误....

  Goodwin通过让Poemportraits读取了19世纪诗歌中超过2500万个单词来学习写诗。像....

  属性情感分析是细粒度的情感分类任务。针对传统神经网络模型无法准确构建属性情感特征的问题,提出了一种融....

  针对基于Hopfield神经网络的最大频繁项集挖掘(HNNMFI)算法存在的挖掘结果不准确的问题,提....

  现在,这个代码为AIEQ的选股“阿尔法狗”,干的就是持续不断的分析美国挂牌股票,并且每天处理大约10....

  鸡尾酒排序,也就是定向冒泡排序,鸡尾酒搅拌排序,搅拌排序(也可以视作选择排序的一种变形),涟漪排序,....

  开源深度学习软件最早出现在20世纪90年代,当时出现了许多关键的算法突破。从那时起,计算机科学家已经....

  深度学习下的分类,目标检测、语义分割这三个方向具体的概念及其应用场景是什么?

  我们观察一下这些图片的特点,这些图片各种各样,分辨率也各不相同。图片中的猫和狗形状、所处位置、体表颜....

  如何走出这个死循环呢?斯坦福的研究团队试图利用有关“幽默”的理论赋予他们的AI一些创造性的智慧,即教....

  基于以上动机,该研究提出一种有序化神经元方法 (结构示意图如下图1),通过归纳偏置来强化每个神经元中....

  张钹院士指出,清华大学建立人工智能研究院的重要目标就是在人工智能的基础理论和基本方法上进行源头性和颠....

  【Elecfans社区精华帖】(190507):快上车!32年老司机教你优化模拟集成!

  电子发烧友总结了以“神经网络”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相...

  据英国媒体报道,华为计划在剑桥城外建设一家可容纳400名员工的芯片研发工厂,主要业务是开发用于宽带网....

  类似在线约会的技术正在使人们有很大几率变得更加挑剔。如今你可以清楚见到一个人的所有属性,并准确选择你....

  德国对人工智能的研究开始时间早,在基础研究方面基础较好。德国人工智能研究中心是目前全球该领域规模最大....

  针对非负矩阵分解(NMF)语音增强算法在低信噪比(SNR)非稳定环境下存在噪声残留的问题,提出一种基....

  针对无线传感器 网络(WSN)中节点能耗不均衡和能量效率低而影响网络生命周期的问题,提出了基于环分块....

  进入2018年,中国人工智能产业“忽如一夜春风来,千树万树梨花开”,一下子出现了无数人工智能研发公司....

  最新提出的portrait relighting算法,只需单张RGB人像模型就可以重建出重新调整光照后的完美照片

  如何打破硬件设备的限制为重新为照片进行光照渲染一直是图形学、手机厂商的研究热点。使用后处理的方法改变....

  Github上发布了一个Python学习秘笈,从萌新到王者的100天Python学习之旅

  工作量估算:将开发任务量化,包括原型、Logo设计、UI设计、前端开发等,尽量把每个工作分解到最小任....

  今年 ICLR 共接收 1578 篇投稿,相较去年 981 篇有了很大的增加,录用结果如下:1.5%....

  在客服中心,通过集成灵云语音合成能力平台,电话IVR导航系统可以将需要播报的文字例如余额、业务咨询....

  我们常希望用更抽象的方式来描述运算过程,以将其与具体的数据或运算区分开来。因此代数的运用随处可见:也....

  演讲的大部分内容都是关于自动驾驶汽车的,考虑到需求和英伟达在该领域的专业知识,这并不令人意外。Hog....

  针对现有的基于局部特征的图像匹配算法对光照变化敏感、匹配正确率低等问题,提出一种具有光照鲁棒性的图像....

  为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种....

  对于希望系统可以增加理解语言数量的研究人员来说,这样的跨语言技术提供了一种更具可扩展性的替代方案,可....

  带你入门常见的机器学习分类算法——逻辑回归、朴素贝叶斯、KNN、SVM、决策树

  朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法,在给定类变量值的情况下,朴素假设每对特征之间存在条....

  随着AI应用的场景越来越丰富,加上数据量小、任务复杂等种种实践中可能出现的挑战,有时机器学习的结果并....

  修复老照片是利用AI算法替代图像数据中缺失或者损坏的部分。而一键磨皮是在保护头发、眼睛等细节部位外,....

  为了测试这辆中国小车,德国方面设定了复杂的测试规程,包括开始测试前要求车辆通过防撞、紧急制动等安全测....

  科学家们把猴子的大脑与神经网络连接起来,试图刺激猴子大脑中负责识别面部的单个神经元

  具体来说,研究人员利用 AI 生成图像并展示给猴子,然后研究猴子的神经元对图像的反应。然后,AI 算....

  因为AI具有低时延、安全性高、数字运算和处理能力强等特点,它能简化任务、减少错误,帮助人类快速完成单....

  既然可以跳康康,何必学跳跃?这组模拟机器人原该演化成可跳跃的形式,可由于程序员一开始将跳跃的高度设置....

  第二个原则是,再次欢迎人工智能的多学科研究。与经济学、伦理学、法学、哲学、历史学、认知科学等学科交叉....

  IDC新兴技术研究部高级研究经理卢言霞表示,人工智能是数字经济的核心之一。2018年全球人工智能市场....

  此处我们暂且不论文科生,理科生工科生课程大多在大一会有高等数学和线性代数两门课,机器学习大约需要多少....

  其他的算法,大家结合两本书进行学习就可以了。值得一提的是,Xgboost和LightGBM是在面试阶....

  梯度爆炸/消失不仅仅是RNN存在的问题。由于链式法则和非线性激活函数,所有神经网络(包括前向和卷积神....

  所以,身为程序员,我们的选择很重要,当Python屠榜时,最大的机会,一定是程序员。最直观的感受就是....

  推荐系统 (Recommender Systems, RS) 是一种自动化的针对用户的内容推荐方式,....

  神经网络的调参无疑是一个巨大的工程。 如何在调参之前拥有更佳的表现?千辛万苦调好了但却过拟合,如何拥....

  具体来看,对于传统的机器学习算法,模型的表现先是遵循幂定律(power law),之后趋于平缓;而对....

  一种新的、更精细的对象表示方法 ——RepPoints ,比边界框更好用的目标检测方法

  虽然边界框便于计算,但它们仅提供目标的粗略定位,并不完全拟合对象的形状和姿态。因此,从边界框的规则单....

  为了确定VGGF模型中用于面部特征提取的最佳层,通常必须进行一些试验和错误实验。在本实验中,团队发现....

  据Business Korea报道,三星电子将在人工智能 (AI) 关键技术方面开展更深入的研究活动....

  NNoM (Neural Network on Microcontroller) 是一个轻量化,纯C实现的一个机器学习和神经网络包。AIoT那么火,为...

  嘿, 我阅读了机器学习库的公告。 我对xfBLAS和Caffee库以及所有网络都特别感兴趣。 但是,我没有找到源代码,示例下载(...

http://diystuff.net/ganzhiji/185.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有