首页 教育大数据分析方法与探索教育资料

教育大数据分析方法与探索教育资料

举报
开通vip

教育大数据分析方法与探索教育资料教育大数据分析:方法与探索一、大数据与大数据分析概述随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被记录下来,也形成了大数据。时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时...

教育大数据分析方法与探索教育资料
教育大数据 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 :方法与探索一、大数据与大数据分析概述随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 下来,也形成了大数据。时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 优化能力的海量、高增长率和多样化的信息资产。通常把大数据的特点归纳为4个V,即数据量大(Volume)、数据类型多(Varity)、数据的价值密度低(Value)以及数据产生和处理的速度非常快(Velocity)。对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前,但传统的数据分析和大数据分析是不同的。传统的数据分析往往是由客户提出一个问题,分析者围绕该问题建立一个系统,进而基于该系统解释这个问题;而大数据分析有时候并没有明确的问题,而是通过搜集数据,浏览数据来提出问题。另一方面,传统的数据分析是在可用的信息上进行抽样,大数据分析则是对数据进行不断的探索,通过全局分析连接数据,达到数据分析的目的。传统的数据分析的方法,往往是大胆假设小心求证,先做出假设,再对数据进行分析,从而验证先前的假设;而大数据分析则是对大数据进行探索来发现结果,甚至发现错误的结果,之后再通过数据验证结果是否正确。因此,传统的数据分析可以看成一种静态的分析,大数据分析可以看成一种动态的分析。尽管如此,大数据分析和传统数据分析也并非是泾渭分明的,传统数据分析的方法是大数据分析的基础,在很多大数据分析的工作中仍沿用了传统数据分析的方法。基于上述讨论,我们给出“大数据分析”的定义:用适当的统计分析方法对大数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。大数据分析分为三个层次[3],即描述分析、预测分析和 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 分析。描述分析是探索历史数据并描述发生了什么(分析已经发生的行为),预测分析用于预测未来的概率和趋势(分析可能发生的行为),规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议(分析应该发生的行为)。例如,对于学生学习成绩的分析,描述分析是通过分析描述学生的行为,如是否成绩高的同学回答问题较多;预测分析是根据学生的学习行为数据对其分数进行预测,如根据学生回答问题的次数预测其成绩;而规范分析则是根据学生的数据得到学生下一步的学习 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 ,如对学生回答问题的最优次数提出建议。大数据分析的过程可以划分为如下7个步骤:(1)业务调研,即明确分析的目标;(2)数据准备,收集需要的数据;(3)数据浏览,发现数据可能存在的关联;(4)变量选?瘢?找出自变量与因变量;(5)定义模式,确定模型;(6)计算模型的参数;(7)模型评估。我们以预测学生学习成绩为例解释上述过程。首先,我们的目的是根据学生的行为预测学习成绩。接下来,对于传统的方法来说,通过专家的分析确定需要什么数据,比如专家提出对学生成绩有影响的数据,包括出勤率、作业的完成率等,可以从数据源获取这样的数据;大数据分析的方法有所不同,是找到所有可能相关的数据,甚至包括血型等,这些数据与成绩之间的关系未必有影响,就算发现了关系也未必可以解释,但是获取尽可能多的数据有可能发现未知的关联关系。上面的步骤包括了很多因素,下面确定哪些因素会体现在模型中,可以通过可视化等方法发现哪些因素和我们的分析目标相关,也可以通过特征工程的方法选择包含在模型中的变量,并排除一些相关的自变量,比如学生的起床时间和吃早饭的时间存在关联,在模型中可以只考虑其中之一,加快计算速度。再接下来是定义模型的模式,比如可以把上述问题定义为线性回归,再通过一些算法确定模型中的参数,从而得到最后的模型。然后对模型进行评估,检验这个模型是不是真的有效,以及是否是可解释的。有些有用的模型并不见得可解释,例如发现了血压对成绩有影响,这个是有用的,但是未必有一个明确的解释。二、在线教育大数据分析研究现状在线教育大数据为教育研究的进行提供了非常好的途径和机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台,学习者的每个行为都为研究者贡献了数据。而通过研究这些数据,我们可以发现新的规律,或是指导学习者的行为,例如预测学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。利用平台得到的数据,预测并回馈给平台,从而可以达到改进平台的目的,还可以为平台发现新的业务。当前在线教育大数据的研究已经开始,但是研究成果并不多,主要的研究对象是学生,集中在对学生学习行为的研究,而授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类,分为多个方面,包括:(1)学习者行为分析与预测;(2)学习者学习效果分析与预测;(3)平台供应商数据分析。学习者行为分析与预测的研究指的是,通过学习者在MOOC平台上产生并积累的行为数据,采用量化学习者行为特征的方式,对其学习行为进行分析与预测。具体而言,文献[4]研究了在MOOC平台上有退课风险的学习者的早期预警问题,他们基于回归分析的方法,提出了两种迁移学习算法,通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三个方法,分别是LR-SEQ,LR-SIM与LR-MOV,其中在AUC指标上LR-SIM与LR-MOV效果更好,LR-SIM在开课前两周的预测相对于其他方法更为出色。文献[5]采用了机器学习的方法研究了学习者退课率的预测方法,他们仅利用了网页浏览流数据,提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行,预测准确率逐渐上升,但在开课前几周的预测效果不够理想。文献[6]同样研究了学习者退课预测的问题,他们采用的方法是构建精确的预测模型与数据的时态与非时态表达,得到了较为良好的AUC指标。文献[7]则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测,他们通过简单交叉乘积的方法,将连续特征编码为单一离散可观察状态。文献[8]同样研究了退课问题,他们构建了时序模型,通过标签的方法,采用了LSTM单元的RNN模型。他们得到的结果说明了在此问题上使用LSTM单元要比普通的RNN效果更好。文献[9]研究了在MOOC平台上的学习者行为预测模型的迁移学习,他们提出了学习者预测的实时方法,并提出了对于同一个预测问题,建立表达式以改变这些方法的参数设置,实验证明了迁移学习可以使得两种方法的效果等价。文献[10]则首次针对中文MOOC中学习行为的特点将学习者分类以考察学习行为与效果之间的关系,这项工作使得人们可以有效判别一个学习者是否能够或潜在能够完成学习任务。文献[11]通过学习者积累的作业文章与MOOC浏览流数据对学习行为进行了分析与预测。文献[12]对学习者高风险退课进行预警。[4]HeJ,BaileyJ,RubinsteinBIP,etal.IdentifyingAt-RiskStudentsinMassiveOpenOnlineCourses[J].Aaai,2015.[5]KloftM,StiehlerF,ZhengZ,etal.PredictingMOOCDropoutoverWeeksUsingMachineLearningMethods[A].EMNLP2014WorkshoponAnalysisofLargeScaleSocialInteractioninMoocs.2014:60-65.[6]TaylorC,VeeramachaneniK,O’ReillyUM.Likelytostop?PredictingStopoutinMassiveOpenOnlineCourses[J].ComputerScience,2014.[7]BalakrishnanG,CoetzeeD.Predictingstudentretentioninmassiveopenonlinecoursesusinghiddenmarkovmodels[J].ElectricalEngineeringandComputerSciencesUniversityofCaliforniaatBerkeley,2013.[8]FeiM,YeungDY.TemporalModelsforPredictingStudentDropoutinMassiveOpenOnlineCourses[A].IEEEInternationalConferenceonDataMiningWorkshop.IEEE,2015:256-263.[9]BoyerS,VeeramachaneniK.TransferLearningforPredictiveModelsinMassiveOpenOnlineCourses[M]//ArtificialIntelligenceinEducation.SpringerInternationalPublishing,2015:54-63.[10]TangS,PetersonJC,PardosZA.DeepNeuralNetworksandHowTheyApplytoSequentialEducationData[A].ProceedingsoftheThird(2016)ACMConferenceonLearningScale.ACM,2016:321-324.[11]?Y卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,52(3):614-628.[12]HalawaS,GreeneD,MitchellJ.DropoutpredictioninMOOCsusinglearneractivityfeatures[J].ExperiencesandbestpracticesinandaroundMOOCs,2014,7.[13]BrintonCG,ChiangM.Moocperformancepredictionviaclickstreamdataandsociallearningnetworks[A].ComputerCommunications(INFOCOM),2015IEEEConferenceon.IEEE,2015:2299-2307.[14]BrintonCG,BuccapatnamS,ChiangM,etal.MiningMOOCClickstreams:Video-WatchingBehaviorvs.In-VideoQuizPerformance[J].IEEETransactionsonSignalProcessing,2016,64(14):3677-3692.[15]ToscherA,JahrerM.Collaborativefilteringappliedtoeducationaldatamining[J].KDDcup,2010.[17]MeierY,XuJ,AtanO,etal.Predictinggrades[J].IEEETransactionsonSignalProcessing,2016,64(4):959-972.[18]Sanchez-SantillanM,Paule-RuizMP,CerezoR,etal.PredictingStudents’Performance:IncrementalInteractionClassifiers[A].ProceedingsoftheThird(2016)ACMConferenceonLearningScale.ACM,2016:217-220.[19]Ruiperez-ValienteJA,AlexandronG,ChenZ,etal.Usingmultipleaccountsforharvestingsolutionsinmoocs[A].ProceedingsoftheThird(2016)ACMConferenceonLearningScale.ACM,2016:63-70.[20]PangY,WangT,WangN.MOOCDatafromProviders[A].EnterpriseSystemsConference(ES),2014.IEEE,2014:87-90.[21]WilliamsJJ,KimJ,RaffertyA,etal.Axis:Generatingexplanationsatscalewithlearnersourcingandmachinelearning[A].ProceedingsoftheThird(2016)ACMConferenceonLearningScale.ACM,2016:379-388.[22]McBrideE,VitaleJM,GogelH,etal.PredictingStudentLearningusingLogDatafromInteractiveSimulationsonClimateChange[A].ProceedingsoftheThird(2016)ACMConferenceonLearningScale.ACM,2016:185-188.[23]KizilcecR,HalawaS.AttritionandAchievementGapsinOnlineLearning[A].ProceedingsoftheSecond(2015)ACMConferenceonLearningScale.ACM,2015:57-66.
本文档为【教育大数据分析方法与探索教育资料】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
吴春小佳佳
暂无简介~
格式:pdf
大小:264KB
软件:PDF阅读器
页数:9
分类:
上传时间:2023-03-19
浏览量:5