国内最专业的IT技术学习网

UI设计

当前位置:主页 > UI设计 >

还在用Github管理机器学习项目?你早该了解这些

发布时间:2019/07/01标签:   项目    点击量:

原标题:还在用Github管理机器学习项目?你早该了解这些
大数据文摘出品编译:钱天培、胡笳“太庞杂了!呆板进修(ML)名目切实太庞杂了!”听到这类埋怨,熟习软件开辟的小搭档们每每是嗤之以鼻的。呆板进修,不外是和数据和软件打交道。那就应当是是运转代码、迭代算法的简略成绩呀?一段时光后,咱们就能领有一个完善的练习有素的ML模子。有甚么庞杂的?但是,认真正动手起呆板进修名目,你就会发觉:事件可没有那末简略!在名目停止了一段时光后,你的练习数据或者曾经被变动或删除,而你对练习剧本的懂得能够也曾经非常含混。回过火看你练习好的模子,你能够也记不得每一个模子是怎样练习进去的了;再或许,你想要检查先前练习好的模子,却发觉模子早已被笼罩。更恐怖的是团队合作,你想要把你的任务分享给你的共事们,他们却怎样也无奈复现你的成果,更别提参加合作了。别慌!明天,文摘菌就来带各人体系地进修一下,怎样准确地治理呆板进修(ML)名目。正如个别的软件开辟名目一样,你须要更好地治理代码版本和名目资产。在软件开辟名目中,人们能够须要从新审阅名目先前的状况。在呆板进修名目中,咱们该怎样完成相似的检察呢?与Pull Request绝对应的又是甚么呢?就我团体而言,我才方才开端打仗呆板进修东西。在进修进程中,我寓目了一些教程视频。教师们提到的一些成绩会让我想起我在软件工程职业生活晚期遇到的困难。比方,在1993到1994年,我是一个开辟电子邮件用户代办的团队首席工程师。咱们没有任何源代码治理(SCM)体系。天天我都市征询其余团队成员,看看他们那天做了哪些转变,也就是在他们的源树和主源树之间运转一个diff操纵,而后手动变动代码。稍后,团队成员从主源树手动更新他们的源树。在咱们发觉晚期的SCM体系(CVS)之前,这真是一团糟。SCM东西使名目运转得愈加顺遂。当我懂得到呆板进修和数据迷信名目中应用的东西时,我发觉呆板进修进程就如上边所说的那样。即便在明天,呆板进修研讨职员偶然会将试验(数据,代码等)存储在并行名目构造中,以便于停止diff检察,就像我在1993年所做的那样。那末,幻想中的呆板进修名目治理应当是怎样样的呢?ML名目治理准则让咱们从一些扼要的ML名目治理准则提及。在任何ML名目中,顺序员们都市停止很多试验,为目的场景开辟最好的练习模子。试验个别包括: 代码和设置:试验中应用的软件,以及设置参数 数据集:任何输出数据的应用——这能够是千兆级别巨细的数据,比方语音辨认、图象辨认名目中所用到的数据 输入:练习后的ML模子和试验的任何其余输入呆板进修名目实质也就是软件运转。然而,与共事同享文件或复制成果,并实时回忆以评价名目平日非常艰苦。咱们须要更片面的治理东西。处理计划须要涵盖以下几点(从Patrick Ball的题为《准则性数据处置》的报告中摘录):(1) 通明性:便利检讨ML名目的方方面面 应用甚么代码、设置和数据文件 工程名目采纳甚么工序,工序的顺序是甚么(2) 可考核性:便利检讨pipeline的旁边成果(3) 可复现性:在开辟的任何阶段准确地从新履行名目的才能,以及共事准确地从新履行名目的才能 记载处置步调,以便任何人都能够主动从新运转这些步调 在名目停止进程中记载名目的状况。“状况”表现代码、设置和数据集 可能在名目汗青的任何时间从新创立可用的准确数据集(4) 可扩大性:支撑多个共事同时处置一个名目的才能,以及同时处置多个名目的才能

上一篇:选择基于云计算的文件共享服务

下一篇:没有了

返回
版权信息Copyright ? IT技术教程 版权所有??? ICP备案编号:鲁ICP备09013610号