Лабораторная Работа 1. Настройка Ubuntu. Начало Работы с Hadoop

1
Лабораторная работа 1.
Разворачивание Hadoop на кластере из одного узла (Virtual Box, Ubuntu)

ПРИМЕЧАНИЕ: если вы ищите инструкцию по установке системы в
параллельном режиме (два и более компьютеров в кластере), то вам сюда. Будем
использовать виртуальную машину с платформой виртуализации VirtualBox доступной на
Windows, со следующими компонентами:
1. Операционная система: ubuntu - установите её "на виртуалбокс", и создайте
общую папку.
Рекомендации по созданию общей папки: создадим на компе папку share (например,
на диске С:). Подключим её через меню вирутальной машины (предварительно установив
дополнения гостевой ОС) - в поле "имя папки" укажем имя - ну например - share. Прежде
всего - если не подключен CD/DVD-привод - подключите его, затем - Следует просто
выбрать из главного меню машины (виртуал бокс) Устройства -> Установить дополнения
гостевой ОС, после чего, собственно, должен смонтироваться образ с дополнениями -
ubuntu12 "сама" предложит запустить его исполняемый код и в консоли будет выведен
отчёт о процессе установки, после чего нужно будет перезапустить систему.
Ещё вариант подключения общей папки:
Создадим на компе папку share (например на диске С:)
Подключим её через меню вирутальной машины (предварительно установив
дополнения гостевой ОС) - в поле "имя папки" укажем имя - например - share.
Samba — пакет программ, которые позволяют обращаться к сетевым дискам и

принтерам на различных операционных системах по протоколу SMB/CIFS. Имеет
клиентскую и серверную части.
Потом создадим уже в убунте папку к которой мы примонтируем наш "сетевой
диск" - создадим её в домашней директории (и тоже назовём share) то есть по адресу:
/home/name/ гдe name - имя пользователя. например если моего пользователя зовут
уникальным именем qwe, то создим папку расположенную по адресу: /home/qwe/share. А
дальше выполним команду монтирования: sudo mount -t vboxsf share /home/qwe/share.
И теперь в папке /home/qwe/share будет отображаться всё, что мы забросим туда из
хост-системы.
2. Java 1.7 - установите её в убунту
Рекомендации по установке Java
Выполним команду в терминале: sudo apt-get install default-jdk
3. Hadoop 7.7.0 hadoop-2.7.7.tar.gz
https://hadoop.apache.org/
apache-mirror.rbc.ru/pub/apache/hadoop/common/hadoop-2.2.0/
Создание новых пользователя и группы
Итак, запускаем терминал (командную строку ubuntu) и делаем так и создаём
нового пользователя в группе hadoop (её тоже придётся создать, что мы и делаем
первой командой):
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
Настройки SSH
Secure Shell, т. е. SSH – протокол, обеспечивающий защищённые соединения и
передачу данных между двумя удалёнными компьютерами.
2
Для связи с узлами hadoop использует SSH - а потому нам следует настроить эту
службу. Сгенерируем SSH ключ, для созданого нами на предыдущем шаге пользователя
hduser - для этого выполним две такие команды - сменим пользователя:
su - hduser
и запустим генерацию ключа:
ssh-keygen -t rsa -P ""
Далее ubuntu попросит ввести имя для файла - введи - и запомните путь куда
сохранится.
Далее разрешим доступ к нашей машине с только что созданным ключом:

сat имя_ключа.pub>>.ssh/ authorized_keys
Пробуем подключиться: ssh localhost.
Проверить установлен ли сервер (sshd start), если нет - то установить (sudo apt-get
install ssh) и опять же пробовать подключиться (если не работает - проверьте параметры
/etc/ssh/sshd_config).
Выключаем IPv6
Также перед установкой рекомендуется выключить IPv6, а именно
Добавьте в файл /etc/sysctl.conf редактор nano
такие строки:
# disable ipv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
Сохраните его и перезагрузите систему. Проверить включен ли IPv6 можно так:
cat /proc/sys/net/ipv6/conf/all/disable_ipv6 если возвращается ноль - значит
поддержка включена
Установка Hadoop
Перейдём в папку: cd /usr/local/
Запускаем команду распаковки и установки hadoop:

sudo tar xzf hadoop-2.7.0.tar.gz
Переместим в папку в с более изящным названием, чем то, где указана версия и
сделаем владельцем её специально созданного ранее пользователя:
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser:hadoop hadoop
3
Ну вот теперь хадуп установлен в папку

/usr/local/hadoop (проверьте путь в проводнике)
Далее поправим файл опций терминала для нашего спец. пользователя.
Откройте .bashrc файл ,который лежит к домашней папке созданного нами
пользователя (он может быть скрыт - и его придётся показать)
Запустите терминал с полными правами (sudo nautilus) далее в главном меню :
Edit -> Preferences и поставьте галочку: Show hidden and backup
files.Ещё способы
Кликните на на оконо проводника (nautilus-а) и нажмите Ctrl+H
Далее добавьте в конец файла следующее (внимательно посмотрите пути к яве и
хадупу) source .bashrc
Зайдите под пользователем для которого редактировали этот скрипт и просто

выполните команду: hadoop
HADOOP почти заработал!
Итак после того как hadoop установлен, мы можем запустить его базовой
командой которая выведет опции запуска - команда:
Получим
Теперь давайте попробуем такую команду (позволит нам увидеть список

доступных примеров): wordcount
При её использовании может возникнуть подобная решаемая проблема

4
То есть файл найти не удаётся чтобы справится с ней нужно указать конкретное
имя файла (hadoop-examples.jar) - переходим в папку где действительно лежит файл
например путь может быть таким:
и выполняем команду:
Получим список стандартных примеров (в виде предупреждения о том что

нужно указывать имя программы в качестве параметра):
Пример - программа посчёта слов. Теперь запустим конкретный пример

wordcount
получим предупреждение о том, что необходимо создать входной и выходной каталоги:
Создадим входной каталог input c использованием команды:

Положим туда какие-нибудь текстовые документы (например, можно скопировать
пару-тройку статей из википедии).
Далее добавим входную директорию в "файловую систему" hadoop, в качестве
такой директории будем использовать /home/training/input:, поэтому выполняется
команда:
Теперь мы можем выполнить команду запуска программы подсчёта слов:

hadoop jar hadoop-examples.jar wordcount /home/training/input /home/training/output
Источники
http://fkn.ktu10.com/?q=node/5576
https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html

Лабораторная Работа 1. Настройка Ubuntu. Начало Работы с Hadoop

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Лабораторная Работа 1. Настройка Ubuntu. Начало Работы с Hadoop

Загружено:

Авторское право:

Доступные форматы

1

Разворачивание Hadoop на кластере из одного узла (Virtual Box, Ubuntu)

Samba — пакет программ, которые позволяют обращаться к сетевым дискам и

Далее разрешим доступ к нашей машине с только что созданным ключом:

Запускаем команду распаковки и установки hadoop:

Ну вот теперь хадуп установлен в папку

Зайдите под пользователем для которого редактировали этот скрипт и просто

Теперь давайте попробуем такую команду (позволит нам увидеть список

При её использовании может возникнуть подобная решаемая проблема

Получим список стандартных примеров (в виде предупреждения о том что

Пример - программа посчёта слов. Теперь запустим конкретный пример

получим предупреждение о том, что необходимо создать входной и выходной каталоги:

Создадим входной каталог input c использованием команды:

Теперь мы можем выполнить команду запуска программы подсчёта слов:

Вам также может понравиться