DATA MINING
Desktop Survival Guide
by
Graham Williams
Desktop Survival
Project Home
Preface
List of Figures
List of Tables
Process
.
Data
Graphics in R
Understanding Data
Preparing Data
Building Models
Evaluating Models
Algorithms
Apriori
Bagging
Bayes Classifier
Boosting
Conditional Trees
Decision Trees
Hierarchical Clustering
Kernel Methods
K-Means
K-Nearest Neighbours
Linear Models
Logistic Regression
Neural Networks
Support Vector Machines
Text Mining
Open Products
Borgelt Data Mining Suite
R
Rattle
Weka
Closed Products
C4.5
Clementine
Enterprise Miner
Equbits Foresight
GhostMiner
InductionEngine
ODM
Statistica Data Miner
TreeNet
Virtual Predict
Appendicies
Glossary
Bibliography
Index
Up:
Enterprise Data Mining Desktop
Previous:
Bibliography
Contents
Index
:
4.1.5.5
.Machine
:
4.1.5.6.2
.Platform
:
4.1.5.6.2
|
4.1.5.6.2
Access
Import data into R
:
4.2.10.3
AdaBoost
:
5.4
|
5.4
|
5.4.4
to
5.4.5
Advance Scout
:
5.1.4.3
aggregate
:
4.4.2.1
amap
:
5.8
|
5.10
analysis of variance
:
4.4.4.8
|
4.4.4.8
ANOVA
:
4.4.4.8
|
see
Analysis of variance
apply
:
4.5.6.1.1
Apriori
:
5.1
|
5.1.4
|
5.1.4.1
|
5.1.4.2
|
5.1.4.2
|
5.1.4.2
|
5.1.4.2
to
5.1.5
array
:
4.2.2.9
arrows
:
4.3.3
Artificial neural networks
:
see
Neural networks
arules
:
5.1.1
|
5.1.4
|
5.1.4
|
5.1.4.1
|
5.1.4.2
as
:
5.1.4.2
as.Date
:
4.2.2.11
|
4.2.2.11
as.integer
:
4.4.2.2
as.matrix
:
4.1.6.1
Association analysis
Apriori
:
5.1
to
5.1.5
at
:
4.4.4.4
attach
:
4.2.2.10
|
4.3.1
|
4.3.1
|
4.4.4.9
attr
:
4.1.5.5
available.packages
:
4.1.4.2
Bagging
:
5.2
|
5.2
to
5.2.5
barchart
:
4.4.4.9
|
4.4.4.9
|
4.4.4.9
to
4.4.4.15
barplot
:
4.4.1.7
|
4.4.1.7
Bayesian analysis
Bayes theorem
:
5.3.3
bbox
:
4.2.12
binning
:
4.5.6.3
bitmap
:
4.3.11.3
bmp
:
4.3.11.3
boost
:
5.4.4
|
5.4.4.2
Boosting
:
5.4
|
5.4
|
5.4
to
5.4.5
|
8.1
bootstrap aggregating
:
5.2
Bootstrapping
:
5.5
to
5.5.3
Borgelt
:
6.1
to
6.1.2.1
boxplot
:
4.3.1
|
4.4.3.2
|
4.4.3.2
|
4.4.3.2.1
|
4.4.3.2.2
|
4.4.3.2.3
|
4.4.3.2.3
|
4.5.3.5
breaks
:
4.4.1.9
bxp
:
4.4.3.2.3
|
4.4.3.2.3
c
:
4.2.2.5
|
4.2.2.8
C4.5
:
7.1
to
7.1.3
capabilities
:
4.1.5.6.2
cast
:
4.4.2.1
caTools
:
4.3.10
|
4.5.1.1
|
5.4.4
chron
:
4.4.5.3
Classification
C4.5
:
7.1
to
7.1.3
Conditional trees
:
5.6
to
5.6.4
Decision trees
:
5.7
to
5.7.4
|
7.1
to
7.1.3
K-nearest neighbour
:
5.11
to
5.11.2
Kernel methods
:
5.9
to
5.9
Naïve Bayes
: to
5.3
to
5.3.4
Neural networks
:
5.14
to
5.14.3
Support vector machine (SVM)
:
5.16
classwt
:
5.15
Clementine
:
7.2
to
7.2.1
closure
:
4.2.2.1
Clustering
Hierarchical
:
5.8
to
5.8.3
K-means
:
5.10
to
5.10.1.1.3
cm.colors
:
4.3.12.2
|
4.4.2.5
col
:
4.3.4
|
4.3.12.2
|
4.4.1.2
colnames
:
4.2.2.8
|
4.4.1.1
color
:
4.4.1.8
colSums
:
4.5.6.1.1
Comment
:
4.1.3
complete.cases
:
4.5.3.3
complex
:
4.3.10
complex numbers
:
4.2.2.2
compress
:
4.2.3
Concepts
AdaBoost
:
5.4
analysis of variance
:
4.4.4.8
ANOVA
:
4.4.4.8
Bagging
:
5.2
Boosting
:
5.4
|
5.4
|
8.1
bootstrap aggregating
:
5.2
boxplot
:
4.4.3.2
closure
:
4.2.2.1
complex numbers
:
4.2.2.2
confusion matrix
:
4.7.2
contingency table
:
4.7.2
correlation
:
4.4.2.5
exploratory data analysis
:
4.4
feature selection
:
4.5.8
Flavanoids
:
4.4.2.2
functional
:
4.1.3
interpreted language
:
4.1.3
interquartile range
:
4.4.3.2
K-Nearest Neighbour
:
5.11
mean
:
4.4.3
|
4.4.3.1
|
4.4.3.1
median
:
4.4.3
|
4.4.3.2
percentile
:
4.4.3.2
Phenols
:
4.4.2.2
pie chart
:
4.4.1.4
quartile
:
4.4.3.2
random forests
:
5.15
scatterplot
:
4.4.2.2
shapefiles
:
4.2.12
Stem-and-leaf
:
4.4.1.5
test set
:
4.7.3
training set
:
4.7.3
variance
:
4.4.3
|
8.1
Conditional trees
:
5.6
to
5.6.4
Confidence
:
5.1.2
Confusion matrix
:
4.7.2
|
4.7.2
Contingency table
:
4.7.2
|
4.7.2
continue
:
4.1.5.6.2
cor
:
4.4.2.5
|
4.4.2.5
correlation
:
4.4.2.5
cost
:
5.7.3.5
ctree
:
5.6.3
cut
:
5.1.4.2
Data
:
4.2
|
4.2.7
to
4.5.8
Data cleaning
:
4.5.3
to
4.5.3.4
Data frame
:
4.2.2.10
to
4.2.2.10
Data linking
:
4.5.5
to
4.5.5.2
Data transformation
:
4.5.6
to
4.5.6.4
Aggregation
:
4.5.6.1
Sum of columns
:
4.5.6.1.1
Data types
Data frame
:
4.2.2.10
to
4.2.2.10
Date
:
4.2.2.11
to
4.2.2.11
Matrix
:
4.2.2.8
to
4.2.2.8
String
:
4.2.2.3
to
4.2.2.3.5
Vector
:
4.2.2.5
to
4.2.2.5
Datasets
iris
:
4.1.2.1
|
4.1.2.1
|
4.2.3
|
4.3.1
survey
:
4.2.8.3
|
4.5.3.4
|
4.7.2
wine
:
4.2.8.1
|
4.4.1.1
|
4.4.1.2
|
4.4.1.4
|
4.4.1.7
|
4.4.2.1
|
4.4.2.1
|
4.4.2.2
|
4.4.2.5
|
5.4.4.1
Date
:
4.2.2.11
to
4.2.2.11
Debian
:
4.1.1.1
Decision trees
:
5.7
to
5.7.4
Design
:
5.13.1
detach
:
4.1.4.1
|
4.3.1
dev.copy
:
4.3.11.5
dev.cur
:
4.3.11.2
dev.list
:
4.3.11.2
dev.next
:
4.3.11.2
dev.off
:
4.3.11.1
dev.prev
:
4.3.11.2
dev.set
:
4.3.11.2
digits
:
4.1.5.6.2
dim
:
4.4.1.1
distribution
:
5.4.4.2
Divide by zero
:
4.2.2.13.2
do.call
:
4.2.2.10
download.file
:
4.2.8
download.packages
:
4.1.4.2
dprep
:
4.5.8
duplicated
:
4.2.2.13.9
e1071
:
5.16.2
EDA
:
see
Exploratory data analysis
Eddelbuettel, Dirk
:
4.1.1.1
edit
:
4.1.7
|
4.2.2.8
ellipse
:
4.4.2.5
Enterprise Miner
:
7.3
to
7.3.3
Equbits Foresight
:
7.4
to
7.4.1
example
:
4.1.7
Excel
Import data into R
:
4.2.10.2
exploratory data analysis
:
4.4
|
4.4
False negative
:
4.7.2
False positive
:
4.7.2
feature selection
:
4.5.8
fields
:
4.3.10
fig
:
4.3.11.3
file
:
4.2.11
file.choose
:
4.2.8.1
finco
:
4.5.8
fix
:
4.2.2.8
Flavanoids
:
4.4.2.2
format
:
4.2.3.1
|
4.5.6.1.1
format.df
:
4.2.3.1
formatC
:
4.2.3.2
Fujitsu
:
7.5
to
7.5.2
functional
:
4.1.3
gbm
:
5.4.4
|
5.4.4
|
5.4.4.2
|
5.4.4.2
gcinfo
:
4.1.6.2
get
:
4.1.5.5
getOption
:
4.1.5.6.2
GhostMiner
:
7.5
to
7.5.2
GNU/Linux
:
4.1.1.1
gplots
:
4.1.4.4
|
4.4.4.8
Graphics
Barchart
: to
4.4.4.15
graphics.off
:
4.3.11.1
grep
:
4.2.2.3
gsub
:
4.2.2.3.4
head
:
4.2.2.13.6
|
4.2.2.13.6
|
4.4.1.1
Health Insurance Commission
:
5.1.4.3
help
:
4.1.4.3
|
4.1.7
|
4.1.7
|
4.1.7
help.search
:
4.1.7
help.start
:
4.1.7
Hierarchical clustering
:
5.8
to
5.8.3
hist
:
4.3.1
|
4.4.1.9
histogram
:
4.4.1.8
Hmisc
:
4.2.3.1
|
4.2.3.1
Holdout method
:
4.7.3
horizontal
:
4.4.3.2.1
htmlhelp
:
4.1.7
hyperedges
:
5.1.4.1
IBM
Advance Scout
:
5.1.4.3
image
:
4.3.10
InductionEngine
:
7.6
to
7.6.1
inspect
:
5.1.4.1
install.packages
:
4.1.4.2
installed.packages
:
4.1.4.2
interpreted language
:
4.1.3
interquartile range
:
4.4.3.2
invisible
:
4.1.5.3
iris
:
4.1.2.1
|
4.1.2.1
|
4.2.3
|
4.3.1
is.factor
:
4.5.3.1.3
is.integer
:
4.5.3.1.3
is.logical
:
4.5.3.1.3
is.na
:
4.5.3.3
is.numeric
:
4.5.3.1.3
|
4.5.3.1.3
itemsets
:
5.1.4.1
join
:
see
merge
jpeg
:
4.3.11.3
JPG
:
4.3
K-means
:
5.10
to
5.10.1.1.3
K-nearest neighbour
:
5.11
|
5.11
to
5.11.2
Kernel methods
:
5.9
to
5.9
kernlab
:
5.9
|
5.16.2
lapply
:
4.4.2.2
latex
:
4.2.3.1
lattice
:
4.3.12
|
4.4.1.8
|
4.4.4.9
|
4.4.4.15
layout
:
4.4.4.3
legend
:
4.3.4
|
4.4.1.2
levels
:
4.2.2.13.1
|
4.2.2.13.1
library
:
4.1.4
|
4.1.4.1
|
4.1.4.3
|
4.1.7
load
:
4.2.3
|
4.2.3
locator
:
4.3.12.3
log
:
4.1.3
Logistic regression
:
5.13
to
5.13.2
LogitBoost
:
5.4.4
|
5.4.4
loss
:
5.7.3.5
|
5.7.3.5
|
5.7.3.5
lty
:
4.3.4
|
4.4.1.2
maptree
:
5.7.3.6
matplot
:
4.4.1.2
Matrix
:
4.2.2.8
|
4.2.2.8
to
4.2.2.8
Matrix scatterplot
:
4.4.2.4
maxdepth
:
5.4.4.1
mean
:
4.1.5.4
|
4.1.5.4
|
4.4.2.1
|
4.4.3
|
4.4.3.1
|
4.4.3.1
|
4.4.3.1
median
:
4.4.3
|
4.4.3.2
|
5.1.4.2
merge
:
4.5.5.1
Meta algorithms
AdaBoost
:
5.4
to
5.4.5
bagging
:
5.2
to
5.2.5
Boosting
:
5.4
to
5.4.5
Bootstrapping
:
5.5
to
5.5.3
methods
:
4.1.7
mfrow
:
4.4.3.2.3
|
4.4.4.4
mode
:
4.2.2.1
mvpart
:
5.7.3.3
|
5.7.3.3
|
5.7.3.6
Naïve Bayes classifier
:
5.3
to
5.3.4
na.omit
:
4.5.3.3
nchar
:
4.2.2.3
ncol
:
4.4.1.1
Neural networks
:
5.14
to
5.14.3
new
:
4.3.11.4
nrow
:
4.1.2.1
|
4.2.3
|
4.4.1.1
object.size
:
4.1.6.1
odbcClose
:
4.2.10.2
|
4.2.10.3
odbcConnect
:
4.2.10.1
odbcConnectAccess
:
4.2.10.3
odbcConnectExcel
:
4.2.10.2
ODM
:
7.7
to
7.7.2
ODMiner
:
7.7
to
7.7.2
on.exit
:
4.1.5.6.2
options
:
4.1.4.2
|
4.1.5.6.2
|
4.1.5.6.2
|
4.1.5.6.2
Oracle
:
7.7
to
7.7.2
ordered
:
4.2.2.13.1
|
5.1.4.2
Outlier analysis
:
4.6.2
to
4.6.2
packageStatus
:
4.1.4.2
|
4.1.4.2
palette
:
4.3.12.2
|
4.4.2.2
par
:
4.3.12
|
4.3.12
|
4.4.3.2.3
parms
:
5.7.3.5
|
5.7.3.5
party
:
5.6.3
paste
:
4.2.2.3.1
pch
:
4.3.4
|
4.4.2.2
PDF
:
4.3
|
4.3.11.3
|
4.3.11.4
percentile
:
4.4.3.2
Phenols
:
4.4.2.2
pie
:
4.3.1
|
4.4.1.4
pie chart
:
4.4.1.4
pinktoe
:
5.7.3.6
plot
:
4.1.7
|
4.2.12
|
4.3.1
|
4.3.1
|
4.3.1
|
4.3.1
|
4.3.11.4
|
4.3.11.4
|
4.4.2.2
|
4.4.2.4
|
5.7.3.3
plot.rpart
:
4.1.7
plotcorr
:
4.4.2.5
plotmeans
:
4.4.4.8
Plots
Matrix scatterplot
:
4.4.2.4
Scatterplot
:
4.3.1
|
4.4.2.2
|
4.4.2.4
pmatch
:
4.2.2.3
PNG
:
4.3
|
4.3.11.3
PostScript
:
4.3
|
4.3.11.3
|
4.3.11.4
predict
:
4.7.1
|
4.7.2
|
5.7.3.3
PredictionWorks
:
7.6
to
7.6.1
printcp
:
4.7
|
4.7.1
|
5.7.3.3
prior
:
5.7.3.5
|
5.7.3.5
|
5.7.3.5
proc.time
:
4.1.5.6.2
prompt
:
4.1.5.6.2
|
4.2.14
q
:
4.1.2.1
|
4.1.2.1
Quantian live CD
:
4.1.1
quantile
:
4.4.3.2.3
quartile
:
4.4.3.2
quartz
:
4.3.11
|
4.3.11.1
R
:
6.2
to
6.2.2
R functions