机器学习需要多少数据，机器学习内容是不是要用到很多实际案例的数据

1，机器学习内容是不是要用到很多实际案例的数据

我们的共识是，机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能)，然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量)，所以去预测一个具体需要的数据量就是极其必要的。打个比方，在运用人工智能对医学影像进行分析的时候，我们需要极其大量的数据，但我们不可能去向医院索取它的全部数据，所以就会想要通过计算得到一个大概的数据量的值，而不需要三番五次地去向医院申请数据。再举一个例子，比如我们在打磨一个适用于某处的齿轮，我们当然可以一边打磨一边拿去比较大小是否合适，但这一点也不方便，我们通常通过测量来获取需要的数据，然后直接按照这个数据来打磨齿轮。所以精确计算每次训练时所需要的数据量，这显然是极其必要的，既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。

是的，学习人工智能既要学好基础原理，同时也绝对离不开实际案例操作

机器学习内容是不是要用到很多实际案例的数据

2，机器学习需要大量的什么进行支撑

机器学习需要一定数量的数据作为支撑，数据量过多会耗费更多的计算资源，还可能有不平机器学习需要一定数量的数据作为支撑。

机器学习需要大量的什么进行支撑

3，机器学习是不是训练的数据集越大越好

不一定，太大的话如果过拟合，反而会适得其反。

机器学习的训练数据集是vbp格式的。?visualbasic工程由窗体、程序代码模块、activex控件和应用程序要求的环境设置组成。在设计应用程序过程中，visualbasic保留一个扩展名为vbp的工程文件。工程文件列出了应用程序所需要的所有文件，包括窗体和程序代码模块等。另外，工程文件还列出了所有用到的程序构造块，如activex控件。工程本身并不控制这些文件和程序构造块，因此用户可以在几个工程中使用同一个文件。?当用户打开一个工程时，就会加载工程文件中所列出的文件。除了工程文件之外，工程还包括窗体文件、activex控件、visualbasic类模块、资源文件、用户控件、用户文档、activex设计器。?组织工程时，最好为每个工程都创建一个独立的目录。?在完成应用程序之后，如果想要发布它，就必须首先把它编译为一个可执行文件。编译应用程序就是要创建一个可执行文件，其中包括特定工程的窗体和程序代码模块。希望我能帮助你解疑释惑。

机器学习是不是训练的数据集越大越好

4，机器学习需要的大量数据集从哪里找

根据是否需要定制化数据集，可分为以下几个渠道：1.从网上爬取数据。这种方式收集到的数据以现成数据为主，利用爬虫工具，设定具体条件，可爬取到需要的数据集。2.去数据供应商购买。目前很多数据服务企业提供数据集购买服务，且种类较多，数据集覆盖的领域也很广。不过，这种数据集也属于现有的数据集，且被很多人使用过。3.专业数据服务供应商定制。专业的数据服务供应商提供数据采集与数据标注服务，根据需求可以个性化定制，这种方式得到的数据集最精准，且更加契合机器学习的需求。

5，想去百度实习机器学习数据挖掘岗需要哪些知识储备

是个我也说不太清楚的问题，简而言之：机器学习，是一类过程的统称；（参考定义：在不直接针对问题进行编程的情况下，赋予计算机学习能力的研究领域）数据挖掘，是机器学习+数据库；自然语言处理，是机器学习在文本、语音等自然语言数据集上的应用；差不多就是这样吧~

两家待遇差不多，百度略高，基本忽略。在腾讯可能会少量涉及模式识别的知识，更多的还是后台的开发，听说工作强度比百度小，求证？本人爱好广泛，除了工作，还是希望有时间干些自己的兴趣爱好。另，腾讯的户口概率比百度大那么一点点，虽然百度的==0。父母一再在户口上施压，但我认真分析了它存在的作用，主要是为了子女落户就学，对于dink应该可以刨除此点，不知还有其他重要作用吗？当然如果保证户口，在专业上让让步还是可行的，但是为一个小概率事件放弃自己的专业，只怕鱼和熊掌都没了。再者，腾讯在中关村，一直在周边读书，喜欢周边环境，不过听说过几年也要搬到上地？百度是机器学习/数据挖掘岗，会分到商搜或大搜索，情况不明。本人喜欢做机器学习方向的算法研究，这点还是有很大吸引力。考虑工作强度问题，稍有畏惧，毕竟生活质量也是要考虑的因素。工作环境上喜欢腾讯的，也许是新装潢的原因吧，有点ms的意思，面试时看到一阵欢喜。百度觉着有些单调。其实，写着写着，觉着可以总结为：文化认同 + 业余时间稍多 + 0.01概率户口 vs 个人发展这里的个人发展是我自己对这个行业的判断，后台开发应该没有机器学习抗折旧，机器学习更需要经验，时间长了自己会走得更稳。还请前辈们指点。

6，机器学习中的数据集合

机器学习中的数据集合数据集分类在有监督(supervise)的机器学习中，数据集常被分成2~3个，即：训练集(train set) 验证集(validation set) 测试集(test set)。训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。Ripley, B.D（1996）在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.显然，training set是用来训练模型或确定模型参数的，如ANN中权值等； validation set是用来做模型选择（model selection），即做模型的最终优化及确定的，如ANN的结构；而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然，test set这并不能保证模型的正确性，他只是说相似的数据用此模型会得出相似的结果。但实际应用中，一般只将数据集分成两类，即training set 和test set，大多数文章并不涉及validation set。选择训练集和测试集其中一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。样本少的时候，上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱，然后均匀分成K份，轮流选择其中K－1份训练，剩余的一份做验证，计算预测误差平方和，最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N，就是留一法（leave one out）。数据归一化问题数据归一化属于数据的预处理。因为sigmoid函数根据不同的变换，输出在0到1或者－1到1之间，因此如果不做归一，就会出现样本输出超出神经网络输出的范围。选择最大的值max和最小值min，做如下变换x＝(x－min)/(max-min)就是归一化。需要注意的是max和min不应该直接选择为x中的最大值和最小值。原因是样本只是有限的观测，有可能还有更大或者更小的观测，因此合适的选择应该max选取xmax大一些和min比xmin小一些的。归一化并不总是合适的预处理，因为它不能使分布不对称的样本变得更对称一些，标准化要好一些。另外，有时候主成分分析也能起到降维的作用。

7，对人工智能很感兴趣打算学习请问需要什么数学基础

好吧。。之前两个回答明显是Copy过来的。。。但讲的大概是对的。。。目前国内比较热门的应该有机器学习(ML)，数据挖掘(DM)，自然语言处理(NLP)，这些方向国内还是比较强的，因为不依赖硬件，纯理论和软件。其他方向比如智能机器人，生物智能，这些比较依赖硬件实力，国内相对较弱，欧美日这些方面比较强。看以后是准备在国内还是国外发展而定(当然外国ML,DM,NLP也很强。。只是国内相对来说比较好。。)有一点是肯定的，绝大部分理工科，数学都是要求非常高的。。。当然我说的是研究，如果是做AI方向的程序员的话，要求不是很高。。。AI的所有方向都会用到线性代数，概率论。至于楼上说的什么离散数学，微积分，用是用的到不过并不是非常难，因为他们只是基础某个函数你知道怎么积分就行了，没有太多难处。。切身感觉是，概率论非常非常重要，基本上人工智能里面的“智能”就靠概率来实现。。。。（生物智能不是很了解不过也应该是差不多）

还是用c 吧，还可以了解一下R，再不济用python！不管用什么，包括matlab，其基础还是要对线代、概率论、优化等数学的东西要扎实一些！否者，即使编程刚刚的也是无用的！上面说的这些语言，还包括java，都有好多开源的机器学习库，特别是c ，比如waffles、mlpack、shogun等等，java的weka比较流行！python好像也有一个。R本身就开源，也包括好多机器学习包。总之，总体上还是用c 吧！c 还是和matlab混合编程的，另外，m格式的代码还可以转成c的，所以学c 有优势！

1.命题逻辑和谓词逻辑 2.多值逻辑 3.概率论 4.模糊理论数理逻辑、离散数学、微积分是绝对重要的。人工智能有很多分支，从各分支的总和来看，几乎所有的数学都是重要的。不过不论你将从事哪些分支的研究，有几项始终是重要的：数理逻辑、离散数学、微积分。对AI理论研究，需要很深的逻辑；象模态逻辑、时序逻辑等等非经典逻辑，还需要范畴学。对传统符号式机器学习，需要数理逻辑和离散数学、概率统计。对连接主义机器学习，需要概率统计、微积分。对强化学习和Agent，需要逻辑和运筹学。祝你在学习中取得进步。

8，机器学习需要哪些数学基础

我们知道，机器学习涉及到很多的工具，其中最重要的当属数学工具了，因此必要的数学基础可谓是打开机器学习大门的必备钥匙。机器学习涉及到的数学基础内容包括三个方面，分别是线性代数、概率统计和最优化理论。下面小编就会好好给大家介绍一下机器学习中涉及到的数学基础知道，让大家在日常的机器学习中可以更好地运用数学工具。首先我们给大家介绍一下线性代数，线性代数起到的一个最主要的作用就是把具体的事物转化成抽象的数学模型。不管我们的世界当中有多么纷繁复杂，我们都可以把它转化成一个向量，或者一个矩阵的形式。这就是线性代数最主要的作用。所以，在线性代数解决表示这个问题的过程中，我们主要包括这样两个部分，一方面是线性空间理论，也就是我们说的向量、矩阵、变换这样一些问题。第二个是矩阵分析。给定一个矩阵，我们可以对它做所谓的SVD分解，也就是做奇异值分解，或者是做其他的一些分析。这样两个部分共同构成了我们机器学习当中所需要的线性代数。然后我们说一下概率统计，在评价过程中，我们需要使用到概率统计。概率统计包括了两个方面，一方面是数理统计，另外一方面是概率论。一般来说数理统计比较好理解，我们机器学习当中应用的很多模型都是来源于数理统计。像最简单的线性回归，还有逻辑回归，它实际上都是来源于统计学。在具体地给定了目标函数之后，我们在实际地去评价这个目标函数的时候，我们会用到一些概率论。当给定了一个分布，我们要求解这个目标函数的期望值。在平均意义上，这个目标函数能达到什么程度呢？这个时候就需要使用到概率论。所以说在评价这个过程中，我们会主要应用到概率统计的一些知识。最后我们说一下最优化理论，其实关于优化，就不用说了，我们肯定用到的是最优化理论。在最优化理论当中，主要的研究方向是凸优化。凸优化当然它有些限制，但它的好处也很明显，比如说能够简化这个问题的解。因为在优化当中我们都知道，我们要求的是一个最大值，或者是最小值，但实际当中我们可能会遇到一些局部的极大值，局部的极小值，还有鞍点这样的点。凸优化可以避免这个问题。在凸优化当中，极大值就是最大值，极小值也就是最小值。但在实际当中，尤其是引入了神经网络还有深度学习之后，凸优化的应用范围越来越窄，很多情况下它不再适用，所以这里面我们主要用到的是无约束优化。同时，在神经网络当中应用最广的一个算法，一个优化方法，就是反向传播。

最基础的部分包括基本的高等数学，比如分析、代数（尤其是矩阵论）、数值优化算法、概率论与数理统计等。更进阶的需要掌握实分析（比如测度论）、图论、时间序列、回归分析等等。再深入的你还可以掌握微分方程、流形几何等等基础机器学习涉及不到的内容，这个时候你就可以挖别人挖不出来的坑了。另外虽然严格来说不属于数学，但是算法的概念和数据结构的相关知识也是一定要掌握的

数学分析（高等数学）线性代数（矩阵论、矩阵分析、矩阵分解、矩阵微积分）概率论（贝叶斯、数理统计、最大熵、多元正态分布、随机过程、马尔科夫）凸优化理论信息论初步目前能想起来这些，博客、书籍、公开课都不错

文章TAG：机器学习需要多少数据机器机器学习学习