Seu primeiro programa Hadoop: Olá Hadoop!
Depois que o cluster Hadoop está instalado e funcionando, você pode executar o seu primeiro programa de Hadoop. Esta aplicação é muito simples, e calcula o total de milhas voadas para todos os voos realizados em um ano. O ano é definido pelo arquivo de dados que você lê na sua aplicação.
Para manter as coisas um pouco mais simples aqui, você vai executar um script Pig para calcular o total de milhas voadas. Você vai ver o mapa e reduzir fases voar na saída.
Aqui está o código para esse script Pig:
records = CARGA '2013_subset.csv' usando PigStorage ( ',') AS(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay, LateAircraftDelay) -milage_recs = GRUPO registra ALL-tot_miles = FOREACH milage_recs GERAR SUM (records.Distance) -Store tot_miles INTO / user / root / totalmiles-
Você quer colocar esse código em um arquivo no seu VM, então primeiro criar um arquivo. direita; clique na área de trabalho do seu VM e selecione Criar documento a partir do menu contextual que aparece e nomeie o documento. Em seguida, abra o documento em um editor, cole no código, e salve o arquivo.
A partir da linha de comando, execute o seguinte comando para executar o script Pig:
totalmiles.pig porco
Você vai ver muitas linhas de saída e, em seguida, finalmente, um # 147 Sucesso! # 148- mensagem, seguido de mais estatísticas, e, finalmente, o prompt de comando. Depois de seu trabalho Pig foi concluída, você pode ver a sua saída:
hdfs dfs -cat / user / root / totalmiles / part-r-00000
Drumroll, por favor # 133- E a resposta é: 775009272
E com isso, você executar o seu primeiro aplicativo Hadoop!