Академический Документы
Профессиональный Документы
Культура Документы
conf=SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc=SparkContext(conf=conf)
data file
lines=sc.textFile("file:///SparkCourse/ml-100k/u.data")
LOAD THE DATA
rdd
RDD
map
ratings=lines.map(lambda x:x.split()[2])
result=ratings.countByValue()
RDD --->
.
result ratings
sortedResults=collections.OrderedDic(sorted(result.items()))
for key, value in storedResults.iteritems():
print "%S %i" %(key,value)
1 2
2 1
3 2
SET UP OUR CONTEXT