Вы находитесь на странице: 1из 2

import sprark

SparkConf( -- cluster spark, SparkContext


import collection

conf=SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc=SparkContext(conf=conf)

SparkConf() imort setMaster


Node local
cluster

.
setAppName
RatingsHistogram sc .
sc
spark

data file
lines=sc.textFile("file:///SparkCourse/ml-100k/u.data")
LOAD THE DATA
rdd
RDD
map

ratings=lines.map(lambda x:x.split()[2])

EXTRACT (MAP) THE DATA WE CARE ABOUT


Map;

field
2 [2] RDD Ratings
Action RDD
PERFORM AN ACTION: COUNT BY VALUE

result=ratings.countByValue()

RDD --->

.

result ratings

SORT AND DISPLAY THE RESULTS

sortedResults=collections.OrderedDic(sorted(result.items()))
for key, value in storedResults.iteritems():
print "%S %i" %(key,value)


1 2
2 1
3 2
SET UP OUR CONTEXT

Вам также может понравиться