数据挖掘在用户上网行为分析中的应用研究

时间:2022-03-15 09:51:50  阅读:

摘要:严格遵循数据挖掘的步骤,采用时间序列挖掘算法,结合微软的BI数据挖掘工具(SQL Server Business Intelligence Development Studio)对从数据堂[9]上采集的数据集进行建模,从而挖掘出在特定时间段内用户的上网行为模式和潜在的上网规律,对校园网络的科学管理提出了合理的建议。

关键词:数据挖掘;用户上网行为分析;网络用户行为挖掘;网络用户行为模式;校园网用户上网行为分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)31-7409-04

网络用户行为分析和建模的研究主要分为两种方法,第一种是基于在一个标准化的情景中对用户行为的社会认知观察。第二种方法注重于用户行为记录和产物的分析。作者[1]采用第二种方法,从时间演化的角度,通过对比分析Internet导航痕迹(URLs 相对于关键字),并将其特征化为个体用户或组用户行为,提出了一个将访问冗余度视为全局静态参数的用户上网行为分析模型。Tsuyoshi Murata 和 Kota Saito在文章 [2]中介绍了一个基于网站关键字图表分析,用来阐明用户兴趣度的方法;该方法主要用于提取Web日志数据中体现用户主要兴趣的子图。用户会话的具体特征化研究体现在[3,4,5]中,同时,还提供了不同方面的初步结果,包括每个会话的请求、每个会话请求的页面数量、会话长度及内部会话时间。通过对熵混合模型和马尔科夫混合模型的应用研究,论文[6]探讨了建立网络用户行为分析系统的需求、步骤和体系框架,以及设计和实现系统过程中所面临的一些关键技术;接着在上述基础上提出几种常用的网络用户行为分析系统模型或其思想,主要列举了网络用户行为分析在Web点击流分析、计算机与网络安全方面以及Intranet网内用户结构分析中的应用。此外,还提出了一种基于SIODATA算法的路径聚类方法。论文[7]则主要研究了网络用户行为分类体系和几种常用的网络用户行为分析系统模型,结合西南科技大学校园网网络实例为分析对象,通过数据分析,并在此基础上结合网络播存结构理论,提出了现有网络的改革建议。张静在论文[8]中利用MATLAB 软件的聚类分析和判别分析功能对某高校某一段时期内的用户上网日志的分析,挖掘出在抽样时间段内用户上网的行为模式,为科学的进行网络管理提供依据。

本文在前人研究的基础上,利用微软公司提供的BI(SQL Server Business Intelligence Development Studio)工具,对从数据堂[9]提取的波士顿大学计算机科学技术学院1994年11月到1995年5月份的http请求日志进行了深入的挖掘分析,提取出用户访问最多的一些网站及其内容、从不同的时间粒度得出访问相对集中的时间段等相关信息,进而为科学管理学校网络资源、优化网络配置、引导学生更好的学习提供有力支持。

1 数据预处理

本文所采用的数据集有三个特点:①日志文件并非常用的txt文件,而是由包含用户名、机器名、日志产生的时间三个字段(这三个字段唯一确定一个日志文件)且由空格隔开的文件。②数据集非常大: 9633个日志文件,共1,143,839条记录。每一个日志记录则由机器名、上网时间、用户ID、访问网址、响应时间及文件大小六个字段组成。其中,时间格式为Unix时间戳。③数据记录不完整。在日志记录中,部分数据存在残缺、格式不正确的问题。因此,我们在对数据进行分析前,还需要对数据进行预处理。

1.1 数据变换

日志文件中所有的时间都是Unix时间戳的形式,为了便于观察和处理,我们需要编写一个时间戳转换函数先对其格式进行相应的处理,转换为美国波士顿大学当地的系统时间。如Unix时间戳797704525采用时间戳转换函数转换后为:1995-04-13 00:35:25.000。

同时,对于那些域名的后缀中存在缺失、后缀名不正确的情况,我们在存入数据库之前也需要采取数据变换的手段将其统一格式。如对于后缀缺失项,我们将其填充为NULL。

1.2 数据清理

推荐访问:数据挖掘 上网 分析 用户 研究

版权所有:汇朗范文网 2010-2024 未经授权禁止复制或建立镜像[汇朗范文网]所有资源完全免费共享

Powered by 汇朗范文网 © All Rights Reserved.。鲁ICP备12023014号