Instalando um Cluster Windows HPC Server 2008 virtualizado sobre um Windows Server 2008 Core

16/10/2008
1525
Apesar do horário retardado do Windows.
Retardado mas adiantado... 1h.

Não ia logar o resto da instalação do WinHPC Server 2008 mas o DHCP teima em não funcionar!

Isolei o servidor da rede do LMS (acho que ele estava tentando se autenticar lá como subrede) e estou reinstalando o DHCP server.

Não adianta simplesmente isolar porque ele continua buscando autorização fora, mas nem acha o servidor.

Ele continua tentando autorização na floresta. Vou tentar reconectar ele na floresta e colocar o DHCP para autorizar na floresta.
Se isso não der certo apago o domínio e crio outro, em uma nova floresta.

Antenei pra uma coisa agora. Pode ser que o jequitiba não entenda o NAP mas o luigi precise dessa autorização do jequitiba.
Atualizando jequitiba.

Então:
atualizar jequitiba
colocar o luigi de volta na rede
reinstalar o DHCP

Se precisar reinstalar mario.
Se precisar, isolar a floresta e reinstalar o AD.

Funcionou e não precisou nada =]

Setting up cluster network: OK
Cretentials: batedeira\administrator
Name Convention: batedeiraXX

Baixando a ISO. Key: xxxxx-xxxxx-xxxxx-xxxxx-xxxxx

Agora falta criar a imagem e fazer o deployment.
Salvando a ISO no jequitiba. Tem de copiar ela pra luigi, montar e criar uma node image com ela.
Então pode-se fazer o deployment.

17/10/2008
1433
Desabilitando firewall na mario:
netsh firewall set mode offline

Posso controlar Hyper-V da mario, que é core, graficamente com Remote Administration Tools.
Instalando.

Funciona, mas não tenho permissão.

Desabilitando outro firewall:
netsh advfirewall firewall set mode offline

Habilitando Remote Desktop
cscript c:\windows\system32\scregedit.wsf /ar 0
cscript C:\Windows\System32\Scregedit.wsf /cs 0

Reboot:
shutdown /r /t 0

20/10/2008
O problema é que ele não pede nenhuma senha diferente para acessar o cliente do Hyper-V. E eu tenho de ter um user com autorização pra acessar o server.

A solução é simples.
vou criar uma conta com o nome de "hypervadmin" e rodar o cliente com esse comando:
runas /env /user:hypervadmin "mmc \"%ProgramFiles%\Hyper-V\virtmgmt.msc\""

Melhor.
Vou adicionar a máquina ao domínio.

Netdom join mario /domain:batedeira.local /userd:BATEDEIRA\administrator /passwordd:*

Mario no domínio. Falta habilitar o serviço.

Acho que a mario desligou.

Boas referencias aqui:
http://technet.microsoft.com/en-us/library/cc753802.aspx



  • Quando voltar, tentar ativar ela:
slmgr.vbs -ato

Ver updates instalados:
wmic qfe list

Instalar updates:
wusa <update>.msu /quiet

Habilitar updates automáticos:
cscript scregedit.wsf /AU /4

Ver os serviços rodando:
net start

Subir um serviço:
net start <service name>

21/10/2008
2138
Voltando.

Aparentemente aqueles comandos não desabilitavam o firewall.
Ou então isso ficou diferente quando eu coloquuei a máquina no domínio.

Achei isso:
netsh firewall set opmode disable

Agora sim!

Habilitando updates automáticos:
cscript scregedit.wsf /AU /4

Errado, é assim:
cscript scregedit.wsf /AU 4

Ainda com o mesmo prolema.

Mapeando Network Drive:
net use z: \\luigi\isos
net use x: \\luigi\share

Agora posso fazer updates no braço sem conexão com a net.
Basta copiar o update para essa pasta e executá-lo com o comando:
wusa <update>.msu /quiet

Nossa! Esse comando wmic é mais útil do que aparenta! =]

Instalando esse update: KB950050-x64
Para o Hyper-V.
o Link: http://www.microsoft.com/downloads/details.aspx?FamilyId=F3AB3D4B-63C8-4424-A738-BADED34D24ED&displaylang=en

Reiniciando.

Deu certo!

OK. Mas as partições não foram criadas. Criando.

Para fazer isso:
diskpart
(e mais um monte de comando)

M:\

Agora preciso instalar uma interface de rede para minha máquinas virtuais.

Criando pelo Hyper-V Manager, tem uma opção na aba direita.
Type: external (elas precisam se comunicar com o headnode)

Criando máquina virtual em m:\nodes\

Não consigo dar network boot.

Vou instalar os nodes no braço e depois instalar eles prontos.

Copiando a iso do HPC server para M:\ISOs

Password setado para o antigo da chronos.

Adicionando ao domínio manualmente.

Instalando o HPC Pack manualmente.

Adicionando os nodes à rede.

Rodando testes:
Job Sumission Test: Success!

;)






Virtual Beowulf Cluster install saga - using Virtual PC and Oscar Pack over Fedora 8

11/07/08
0252
Instalado o Windows Server 2008 Enterprise x64 na MARIO.
Adicionada ao dominio lms.ic.unicamp.br.
Hyper-V instalado.
IIS instlado.
AD DS instalado.
File Server instalado.
Application Server instalado.
SQL Server Standard x64 instalado.
Baixando atualizações no jequitiba para começar a replicação do AD (tem de estar com o SP4).

0327
Team Foundation Server não funciona em x64. Vou ter de baixar um WS2008 x86 e instalar ele como máquina virtual, daí instalar o SQL Server e o TFS.
Baixando.

0625
Replicando.
Tive de executar dois comandos do cd do WS2008 localizado em \sources\adprep:
adprep /forestprep
adprep /domainprep /gpprep
para deixar compatível o AD.

0635
Estou com um problema de usuário de domínio.
Vou reingressar no domínio e tentar denovo.


1035
Resolvendo compatibility issues:
instalando o SP do SQL Server na MARIO.
A máquina virtual ganhou o nome gay de PRINCESA (não sei porquê).
Instalando IIS nela.
Foi adicionada ao dominio do lab também.
SQL Server.


19/08/08
2350
OK. Voltando depois de um mês a blogar =]

Estivemos programando e escrevendo bastante.
Nesse meio tempo o Beowulf capotou. Foi reinstalado e está funcionando. Infelizmente o YAST não consegue atualizar ele.
E sem atualização o MySQLdb (a biblioteca python que usamos para acessar o SQL) não instala.

Estamos na versão 3.1 do InteropRouter e ele está ficando interessante.

Estivemos em alguns eventos e saimos em alguns jornais nesse meio tempo também. As coisas começaram a ficar agitadas por aqui.

De modo geral, não temos nada a reclamar (a não ser os problemas usuais: infra e usuários).

Contratamos a Alline Kobayashi.

Na fase atual do projeto, estamos fazendo os últimos reqoques e melhorando o código. Logo mais haverão threads no daemon e teremos uma versão
plenamente funcional do sistema.

Planejamos, além do site voltado à experiência do usuário e a comunicação dando-se exclusivamente por SQL e o uso de threads, adicionar scripts de verificação de código malicioso (inicialmente com suporte ao antivírus da ESET, o NOD32). Tamém faremos um módulo para Windows HPC Server 2008.

Posteriormente documentaremos como criar classes para outros tipos de clusters e antivírus dando, ao interessado na plataforma, recursos para criar suporte ao seu próprio cluster - caso ele seja diferente.

Um vídeo do cluster rodando também será produzido para que o Djalma e o Brod possam apresentar o projeto por aí.

Outro vídeo sobre a vida no lab também será produzido (infelizmente já deveria ter sido produzido).

Depois começaremos a trabalhar com Singularity. Portar algum Python para o singularity seria legal =D.

24/08/08
1732
Compilando Oscar Cluster para plataforma x86 para rodar em Suse 10.2.
Tivemos problemas com o cluster Beowulf e não conseguimos reinstalá-lo por falta de uma RPM chamada mysql-share. Impossível também fazer o update do sistema depois de instalar o Beowulf por incompatibilidade de pacotes, também impossível instalar o Beowulf depois de atualizar (mesmo que conseguíssemos atualizar a sistema todo, como ele checa versões de tudo - e a versão tem de ser exata - ele implicaria com os pacotes) e resolver os problemas no braço está fora de cogitação, melhor recompilar para x86, uma vez que só existe o pacote para x86_64.

Paralelamente compilando e colocando pra rodar o Singularity xD (!!!!!!!!!!!!!)

Embora esteja fazendo isso paralelamente vou colocar os logs separados.




SINGULARITY
Compilar é trivial:
Executar o shell script "base\setenv.cmd" para configurar o ambiente de compilação (no shell).
Compilar com "msb Distro\World.proj" (compila todos os pacotes).
Ele cria uma bootable image em base\Kernel\obj\kernel.dmp e o bootstrap loader base\Kernel\obj\Singldr.

Agora preparando o Virtual PC:
No Host:
Instalar um dummy network driver (Microsoft Loopback Adapter) para simular uma rede e poder dar boot no kernel compilado.
Configurar o Loopback Adapter com o IP 10.99.99.1 e mask 255.255.255.0.
Abrir UDP 67 e 69 para DHCP e TFTP no firewall.
Copiar base\pxe.vmc para a raiz do sigularity com o nome de singularity.vmc






OSCAR CLUSTER
Referencias em: http://svn.oscar.openclustergroup.org/trac/oscar/wiki/InstallGuide
Nossa pendência são os pacotes, a princípio seria esse nosso único problema. A não ser que tenha de modificar alguma checagem do script.
Infelizmente o source dos pacotes está falhando, portanto estou fazendo o commit com o repositório do Oscar:
svn co http://svn.oscar.openclustergroup.org/oscar/trunk oscar/oscarsource/oscartrunk
svn co http://svn.oscar.openclustergroup.org/oscar/branches/branch-5-1 oscar/oscar_source/oscar-5.1

Baixei também o tarball do Suse 10.2 x86_64 para saber quais RPMs vou precisar e checar depois.

Para isso dar certo preciso instalar alguns pacotes antes:
perl-IO-Tty (não achei no Yast então substituí por perl-IO-Stty, que imagino ter uma versão segura do pacote)
perl-Qt
python-elementtree
yum

Também preciso ter suporte a "opkgc meta RPMs", não sei exatamente, sei que precisa. Pra isso preciso instalar:
python 2.4 or newer version (instalado, mas vou precisar atualizar - acho)
python-cheetah (baixei do rpmfind mas não consegui instalar)
python-lxml (baixei do rpmfind mas não consegui instalar)
opkgc trunk (imagino que seja o que eu vou compilar)

Precisei me registrar o Suse na Novell para poder fazer update. Funcionou na terceira vez (depois de reiniciar o Yast).

Não consegui instalar 2 pacotes, continunado mesmo assim.
Tive de instalar o automake.
Estou recebendo um erro assim: "aclocal-1.9: autom4te failed with exit status: 127"

OK, vou ter de compilar o cheetah no braço.
Instalando o gcc (como é que não tinha o gcc nessa bagaça??).

Cheetah:
python setup.py build
python setup.py install

Vou ter de compilar o python-lxml.
Para isso vou precisar instalar libxml e a libxslt.

Compilado mas continuo com o mesmo erro ao compilar o opkgc.

Achei uma RPM do aclocal. Instalando.

opkgc:
(as root)
cd opkgc
./autogen.sh
./configure && make
make install
export PYTHONPATH=$PYTHONPATH:/usr/local/lib/python2.5/site-packages

Erro: python não acha o pacote lxml. Instalando denovo, pelo jeito não deu certo.

Instalando o EasyInstall.
python ez_setup.py

lxml:
easy_install lxml
(gostei disso)

Yeah!! Compilando!


25/08/08
1136
Here again.
Vou ver como eu tenho de organizar as rpms agora (uma vez que ele criou aquelas opkgc's meta rpms, e está diferente no tarball que eu baixei).

Problemas com o yum, estou instalando os pacotes yume e createrepo pelo Yast.

Na tentativa de organizar as RPMs para a distro, estamos usando o scrpt scripts/buildoscarrpms mas ela está dando erro.
Na verdade o manual não é nada claro quanto ao uso dela, vou testar um por um os scripts de criação de rpms agora, mas antes um backup e uma cópia da VM pro Dexter se divertir.

29/08/08
1443
Vamos fazer o Suse funcionar hoje.
E depois escrever.
Comando interessante, lista o que temno grep, um por linha, de forma que seja possível usar com outro comando:
ls -1F | grep 'whatever'
Recursivamente:
ls -1FR | grep 'whatever'
Com o caminho inteiro:
find | grep 'whatever'

Assim fica:
cp ´ls -1FR | grep '.rpm'´ /tftpboot/oscar/suse-10.2-i386
(mas não dá certo porque não tem o caminho)
Então:
cp ´find | grep '.rpm'´ /tftpboot/oscar/suse-10.2-i386
(mas é muito argumento pro shell)
Então:
cp ´find -maxdepth 5 -mindepth 5 | grep '.rpm'´ /tftpboot/oscar/suse-10.2-i386
(mas sobrescreve muita coisa)
Finalmente:
cp ´find | grep 'suse10.2-i386/'´ /tftpboot/oscar/suse-10.2-i386

1529
OK, tentando:
./install_cluster eth1
Não deu.

30/08/08
2254
Tentar coisas distintas. Andei lendo a lista do Oscar e tive algumas ideias.
1a: Tentar com a fonte do SVN instalar.
2a: Tentar fazer a instalação do 5.0
3a: Popular o diretório com os arquivos do packages do SVN + RPMfind até que haja os mesmos arquivos que tem na versão x86_64 do pacote.

Antes disso fazer backup.

O erro mudou. Agora preciso do perl-IO-Tty.

Copiei pro /tftpboot/distro/suse-10.2-i386 e estou instalando também xD.

Foi um om pedaço agora. Capotou tentando inicializar o MySQL.
Tentando mais uma vez só por insistência.
Duas alternativas caso persista:
1a: ver hosts
2a: Lembro de ter lido algo sobre isso na lista. Vou ver se solucionaram.

Caso nenhum solucione, ver os warnings (ele não achou alguns pacotes, talves seja preciso popular o tftpboot/oscar/suse-10.2-i386.

HAHA. Passou sem fazer nada. Agora preciso do oscar-base, o mesmo que eu não consegui instalar no início com o yume.

Parece que o pacote estava quebrado. Acei isso: http://www.mail-archive.com/oscar-users@lists.sourceforge.net/msg07010.html.
Ele aponta pra uma versão do Oscar mais nova do que a disponível no Sourceforge.

Restaurando backup e tentando com esse acima.

Baixando e reinstalando o perl-IO-Tty.

Falhou ao tentar achar um arquivo camado suse-10.2-i386.xml.
Peguei o suse-10.2-x68_64.xml e verifiquei se tinha alguma ligação com a arquitetura. Não tinha. Renomeei.

Faltou o python-twisted-web. Baixei e coloquei no /tftpboot/distro/suse-10.2-i386.

Agora atftp. Mesma coisa.

E agora a rpmlib. Não tem no RPMfind.
Achei como lzma-4.32.7-11.i586. Copiando pro /tftpboot/distro/suse-10.2-i386.

Não passou. Vou tentar instalar ela e rodar denovo.

Parece que tem no pacote rpm. Instalando.
Se não der certo isso vou ter de fazer um downgrade.

Esse PC tá com processador em 100% faz mais de 10h!


01/09/08
0009
Pedi pro Dexter copiar o /tftboot da máquina virtual pra um HD qualquer no lab para usarmos na instalação na máquina real.
Assim pulamos 90% do trabalho =].

Mudando assinatura padrão do MSDN-AA.
Key do WS2008: (censurado xD)

0130
Começando a instalar o WS2008 pra instalar o WHPC2008.
Decidimos que a máquina com os nodes vai ser Windows Server Core.

Dexter baixando SDKs.
Iniciaremos com o ADDS. Depois de ligar o HUB e configurar a LAN interna.

Nome do domínio: batedeira.local
xD

DHCP instalado. Mas tenho algumas incertezas quanto a configuração. Principalmente quanto ao Parent Domain.
Ver isso depois.

Instalando ADDS. Criando uma nova root tree na forest.

Instalando o HPC Pack.

Falha na instalação do .NET Framework 3.0. Stack overflow.

Instalando como feature.

04/09/2008
2112
Revisando textos.

16/09/08
1357
Outras atividades acontecendo, voltando agora ao desenvolvimento.

Infra primeiro: Oscar over SLES, here we go.

eth0: NAT = 192.168.131.69
eth1: ethernet = 192.168.0.18
eth2: local = 192.168.1.1

Copiando RPMs e baixando os os tarballs do 5.1 e 5.0.

Ainda não sei qual usar.

Nos emails fala sobre instalar o 5.0 e tem um .pm disponível.
No site fala sobre como configurar o yum pro 5.1.
Vou tentar os dois. Então, assim que acabar de baixar e copiar, farei um backup e me divitirei =]

Instalando dependências:
yast2 --install perl-IO-Tty perl-Qt python-elementtree yum

Erro, não achou na mídia. Vou ter de configurar os repositórios.
Mas backup antes disso, tenho de me certificar de que não vou instalar um pacote que conflite com outro.

Setando repos. Não existe repositório online pra SLES. Usando um do openSUSE 10.0.

Added:
http://download.opensuse.org/distribution/10.2/repo/non-oss/suse/
http://download.opensuse.org/distribution/10.2/repo/oss/suse/

Backup again.

yast2 --install perl-IO-Tty perl-Qt python-elementtree yum
(de novo)

Works.

Vou testar primeiro com o repositório do yum e com o Oscar-5.1

Pau.
Restaurando.

yast2 --install perl-IO-Tty perl-Qt python-elementtree yum

Agora, montar o tftpoot, instalar o yume e criar um repositório no tftpboot.

Copiando common-rpms do 5.1 pro /tftpboot/oscar/.

Alterando /etc/yum.repos.d/.repo
oscar
name= OSCAR for SLES $releasever - $basearch
baseurl=http://oscar.gforge.inria.fr/yum/dists/sles$releasever/$basearch/
http://oscar.gforge.inria.fr/yum/dists/sles$releasever/noarch/
enabled=1

oscar-source
name=OSCAR for SLES $releasever - Source
baseurl=http://oscar.gforge.inria.fr/yum/dists/sles$releasever/source/SRPMS/
enabled=0

gedit não funciona. Vou instalar outro e modificar novamente.

Instalando emacs. Vamos ver se esse edita.

(tenho de editar e rodar o yum)

O yume não instala por comando. Indo pelo Yast.

Rebooting.

Tenho de instalar o yume de algum jeito pra poder instalar o oscar-base.

Tela preta denovo. Sem boot gráfico.
startx. Erro.

Restaurando.

yast2 --install perl-IO-Tty perl-Qt python-elementtree yum


25/09/08
0021
Erro denovo. Vou tentar com o SP2 agora.
Formatando.


27/09/08
1608
Rede.
eth0: NAT = 192.168.131.69 (DHCP)
eth1: ethernet = 192.168.0.6 (DHCP)
eth2: local = 192.168.1.1

Baixando Pacotes.

Vou tentar com o 5.1 primeiro.

Backup.

Setando install sources pro Yast2.
http://download.opensuse.org/distribution/10.3/repo/non-oss/suse/
http://download.opensuse.org/distribution/10.3/repo/oss/suse/

Backup again. Vi que deu pau antes.

Dependências:
yast2 --install perl-IO-Tty perl-Qt python-elementtree yum

Demoooora!

Problemas com o python-elementtree.

Não existe nos repos. Vou adicionar os 10.2 também.

Adicionando:
http://download.opensuse.org/distribution/10.2/repo/non-oss/suse/
http://download.opensuse.org/distribution/10.2/repo/oss/suse/

Backup.

yast2 --install perl-IO-Tty perl-Qt python-elementtree yum

Problemas de dependências pra todos os lados. Vou tirar o 10.3 da lista.

Não resolveu. Vou instalar via RPMs.

perl-IO-Tty-0.04-1
python-elementtree-1.2.6-0.6
perl-Qt-3.008.148.1
yum-3.2.14-2.1 (resolver 4 problemas de dependências)

Montar o tftpboot.

Backup.

Próximos passos:
  • yum install createrepo /tftpboot/oscar/common-rpms/yume*.rpm

Alterando /etc/yum.repos.d/.repo
oscar
name= OSCAR for SLES $releasever - $basearch
baseurl=http://oscar.gforge.inria.fr/yum/dists/sles$releasever/$basearch/
http://oscar.gforge.inria.fr/yum/dists/sles$releasever/noarch/
enabled=1

oscar-source
name=OSCAR for SLES $releasever - Source
baseurl=http://oscar.gforge.inria.fr/yum/dists/sles$releasever/source/SRPMS/
enabled=0

yume --repo /tftpboot/oscar/common-rpms install oscar-base
*

Problemas com o yum, resolvendo dependências.

Os pacotes não estão mais instalando, estranho: reboot.

Pau no Xorg de novo.

Voltando.
Next: instalar os RPMs de novo.


30/09/08
1706
Dexter pegou o SLES um pouco e eu estou pegando o Fedora.
Let's rock.

Configurando network:
eth0: 192.168.1.1
eth1: (DHCP) master.vcluster

Problema de captura de mouse.

Reinstalando Fedora.

O monitor não renderiza direito. Mesmo problema que eu tinha em casa com a Virtual PC.

Instalando em modo texto.

Configurando network:
eth0: 192.168.100.100
eth1: (DHCP) fedhead.vcluster

Para funcionar o mouse e o monitor na VM, iniciar com as seguintes confs:
vmlinuz initrd=initrd.img vesa i8042.noloop

E, quando rebootar, pressionar 'e' para editar e colocar:
i8042.noloop (na linha de inicialização do Kernel, no grub - a 2a)


02/10/08
1756
Referências: http://svn.oscar.openclustergroup.org/trac/oscar/wiki/InstallGuideClusterInstall

Grub editado.

Mais redes to fedhead.vcluster:
eth0: (NAT) DHCP
eth1: (Local Only) 192.168.1.1
eth2: (DHCP)

Downloading packages. Vou deixar baixando o Fedora 5 caso esse dê errado (usar com Oscar 5.0).

Depois de downloaded, fazer backup.

Lembrar de habilitar UYOK depois.

Editados:
hosts
sshd_config

Criado:
fedora-8-i386.url
(ver se é esse nome mesmo ou usar fc-8-i386.url)

Reboot and backup.
  • backup slot 1*****

yum install createrepo /tftpboot/oscar/common-rpms/yume*.rpm
Deu pau. Instalei pelo GUI e deu certo.

yume --repo /tftpboot/oscar/common-rpms install oscar-base

cd /opt/oscar/
./install_cluster eth1

Capotou. Tentando de novo.

Aparentemente erro no arquivo.url.
Era só apagar a primeira linha, aparentemente. Porque depois disso está rodando.

Oscar Wizard.

Backup Slot 2****

Step 0 - Off
Step 1 - OK
Step 2 - Em SIS Configuration talvez tenha de adicionanar "i8042.noloop", mas não vou fazer isso agora pois não tenho certeza de em que linha ele vai colocar isso nem se ele vai copiar a linha no sistema ou se essa é a linha do boot mesmo, então eu teria de colocar "vesa i8042.noloop". Pensando bem, isso faz sentido. Vou colocar essa última.
Step 3 - OK
Step 4 - Post Install Action: Reboot / Image Name: oscarimage

Acho que deu certo, por isso estou fazendo backup em Slot 3 pra testar, problemas com RDesktop.

Backup Slot 3*****

Não deu certo. Tentando denovo com Image Name: oscarimage2. Parentemente ele não conseguiu achar todos os pacotes para a instalação, ou seja, a conexão deve ter ficado instável.

Muito tempo parado, reiniciei e estou restaurando o último backup.

De novo.

Tentar, também, outro repositório se não funcionar - não dá pra fazer isso remotamente.
http://spout.ussg.indiana.edu/linux/fedora/linux/releases/8/Everything/i386/os/
http://download.fedora.redhat.com/pub/fedora/linux/releases/8/Everything/i386/os/
http://www.las.ic.unicamp.br/pub/fedora/linux/releases/8/Everything/i386/os/


Agora ele aparenta estar utilizando mais a rede. Bom sinal.

Backup Slot 3*****

Se isso não dar certo, restaurar o Slot 2 e fazer as modificações de segunda tentativa de criação de imagem para a primeira tentativa (vai que).

Se isso também não der certo, fazer com Fedora 7. Se isso não der certo, fazer com Fedora 5.



07/10/08
1553
For those about to rock. We salute you!

Restaurando Slot 2.

Editando.

./install_cluster eth1

Ele instalou uns pacotes novos. Bom sinal, talvez era o que faltava.

Wizard!

Salvando...

Backup Slot 3*****

Step 0 - Off
Step 1 - OK
Step 2 - SIS: vesa i8042.noloop
Step 3 - OK

Backup Slot 3*****

Step 4 - Post Install Action: Reboot / Image Name: oscarimage - OKAY!!

Backup Slot 3*****

Criando os Nodes.

Editando o boot e o reboot.

Node Backup Slot 1****

node01 - 00:03:FF:C7:16:B5
node02 - 00:03:FF:C4:16:B5

Editando o o arquivo de configuração do Grub.

Node Backup Slot 1****

Step 5 - 2 clients node01 192.168.1.2
node02 192.168.1.3
Step 6 - UYOK

Parou. Vou tentar um por vez dessa vez.
Restaurando.

Agenda:
Step 5.
Step 6.
Reiniciar node01.
Reiniciar node02.

Step 5 - OK.
Step 6 - OK.
Bootando node01.

Aparentemente se ficar muito tempo sem resposta ele se perde. Acredito que seja por causa da pouca memória, pos isso estou migrando para a milhouse.

Não sei o porquê, mas quando eu troco de máquina ele faz como se estivesse desligado.
O node01 já estava pronto, por isso não sei como vai ficar.
Instalando o node02.

Vou começar dos backups. Ele não aceita mais o MAC do node01 e como mudou de processador ficou tudo estranho.
Atentar para a possibilidade de ter de montar a imagem de novo.
Atentar, também, para a possibilidade de ter de fazer nesse PC aqui mesmo, ou, então começar de novo no outro.

Step 4 - Image Name: oscarmilh
Step 5 - Deixei os MACs trocados.

09/10/2008
1854
Instalando.
Agora é só esperar e salvar as imagens.

Step 6 - OK.
Step 7 - OK.

Cluster instalado.

Testando.


Entrega da Ver. 2.0

29/01
0340
Criando um DFS no cluster para uso do no lab. A Caroll não está mais dando conta e o cluster tem espaço sobrando.

0401
Choose stand-alone namespaces if:
.Your organization does not use Active Directory.
.You need to create a single namespace with more than 5,000 folders with targets. (If you can divide your folder targets among two or more namespaces, a domain-based namespace is an option.)
.You want to ensure the availability of the namespace by using a server cluster.
Choose domain-based namespaces if:
.You want to ensure the availability of the namespace by using multiple namespace servers.
.You want to hide the name of the namespace server from users because you plan to replace the namespace server or migrate the namespace to another server in the future.

Escolhi o Stand-Alone por:
.o AD está no SN
.estou num cluster mesmo =)

0410
O HN terá o Namespace server mas nenhum dado.
Copiando as ISOs para a A3.
Todas as que estão foras das pastas primeiro.

Vou copiar as máquinas virtuais para a A4.
Copiando para a Apolo (Vista é um chato pra compartilhar) pra passar pra A4 depois. Lembrar de apagar da Apolo e da Azaza.

0513
Só consigo acessar as pastas de dentro do cluster.

0523
Arquivos de instalação para B1.

0546
Por algum motivo eu consigo acessar as diretórios do SN, mas não consigo acessar da Azaza, nem do Pezinho, nem da HN.
Mas consigo acessar da B1.

1720
Copiando o resto das VMs para a Apolo para copiar, depois, para a B1.

1823
Mudando para o que não é stand-alone.

Restaurar a conexão depois para que os Nodes ganhem os novos IPs.


09/02
1856
Como diria o Fozzy: "there's no easy".

Por aqui o que salva é o ar-condicionado, que por acaso acabou de 'vazar' por causa da chuva e molhou equipamento.
"Amo muito tudo isso" - Ronald McDonalds

Embora eu comece reclamando (e vou continuar reclamando por algum tempo ainda) nesse log, estou com um terrível e irritante bom humor hoje. Cheguei ao cúmulo de ler o blog de moda de uma amiga e elogiá-lo!

Cheguei quarta do sul, do carnaval do sul, e hoje é sábado. Um sábado muito quente que me faz amar ainda mais o ar-condicionado.
Quando saí, deixei sendo instalado o SP1 Beta do Vista a fim de testar o RDP6.1 para o projeto da ICup: passei a quinta toda fazendo pequenas coisas, conversando com o pessoal sobre o que eles estavam descobrindo e os problemas que tinham encontrado e tentando arrumar o PC.
Não obtendo sucesso reinstalei o Vista por cima do outro (Restore Point e Backup falharam) mas acabei perdendo todos os programas instalados.
De sexta pra sábado passei reinstalando programas (muuito programa!) e configurando a máquina.

Perdi tudo que tinha blogado ontem por que o Vista reiniciou para atualizar e não salvou meu documento.

Vou escrever sobre a reunião de ontem depois.

Hoje estou com baixa produtividade. Resolvi adaptar um ditado popular para a minha situação: tu só percebe como é bom ter um computador com tudo o que tu precisa nele depois que perde.
Acho que estou ficando velho pra formatar computador e achar divertido.
Vou virar um velho ranzinza.

Tenho tanto email para ler que olho minha caixa de email com o canto do olho.

Eu não sei como as pessoas encontram esse blog. Ele é tão estrategicamente escondido!
Certamente não é clicando em links no Codeplex! Lerdoplex!
Cada semana vem um diferente dizendo que leu isso ou aquilo e achou divertido.
Divertido???
Isso pode estar começando a ficar perigoso.

2000
E eu ainda não acabei de responder os emails.

2052
Lendo notícias. Ainda. Indo jantar.

2254
To ficando bom nessa coisa de cozinhar.

2327
Para usar o CCP Tools eu preciso setar uma variável chamada CCP_SCHEDULER.

0019
Achei coisas interessantes:
http://www.windowshpc.net/Blogs/Developer/Lists/Posts/Post.aspx?ID=11 (como usar o MPIPINGPONG)
http://windowshpc.net/resources/Pages/default.aspx (downloads)
http://www.windowshpc.net/Resources/Pages/Programs.aspx (downloads)

0256
A expressão "por algum motivo" anda meio recorrente demais por aqui mas o fato é que quando eu rodo um mpiexec qualquer ele aloca processos apenas no HN.
Porque?

Consigo fazer rodar comandos em todos os nodes do cluster pelo clusrun na GUI e no prompt mas não consigo rodar o script.

0313
Rodei um batch:
job submit /jobname:BatchPI /numprocessors:8 /workdir:\\HN\data\ /stdout:pi.out batchpi.exe 1000

Rodei um MPI:
job submit /jobname:PingPong /numprocessors:8 /workdir:\\HN\bin\ /stdout:ping.out mpiexec mpipingpong.exe

Os dois verificados com os processadores rodando.

Consigo fazer tudo no prompt mas apanho pra fazer no GUI (devo esquecer sempre alguma coisa).

Testando agora no Powershell do mesmo modo que fiz no Prompt. Submeteu o job, agora é ver se funciona.
Esperando.


------------------------- Processor List ------------------------------
Process 0 @ a3
Process 1 @ a3
Process 2 @ b2
Process 3 @ b2
Process 4 @ b1
Process 5 @ b1
Process 6 @ a4
Process 7 @ a4
a3->a3 success
a3->b2 success
a3->b2 success
a3->b1 success
a3->b1 success
a3->a4 success
a3->a4 success
a3->b2 success
a3->b2 success
a3->b1 success
a3->b1 success
a3->a4 success
a3->a4 success
b2->b2 success
b2->b1 success
b2->b1 success
b2->a4 success
b2->a4 success
b2->b1 success
b2->b1 success
b2->a4 success
b2->a4 success
b1->b1 success
b1->a4 success
b1->a4 success
b1->a4 success
b1->a4 success
a4->a4 success

LINDO!!!! =)

(O resultado mais detalhado é grande demais pra colocar aqui).

É estranho como eu consigo submeter um job via PS mas não consigo rodar um simples clusrun. No prompt eu consigo ambos.
Vou verificar o porquê amanhã.

10/02
1926
Por onde começar?
O Dexter mandou o email para a equipe do rdesktop, estamos aguardando respostas.
Nada da documentação do RDP6.
Vou, hoje, ver um pouco da viabilidade do web access.

1942
Outro site interessante:
http://blogs.msdn.com/hpc/
me ajudou muito ontem. Tem bons links.

2145
Fonte interessanta para o Dexter, mandarei por email pra ele.
http://blogs.msdn.com/ts/default.aspx

0022
Vendo o que fazer com o CCP_SCHEDULER.
Preciso de um CCPProvider também.

0042
Aê! Segui o help do CCPPSH e consegui fazer o PowerShell funcionar.

Criei um arquivo de profile em $profile para ele sempre executar os comandos de criação do cmdlet no PS:
new-item -type file -path $profile -force
notepad $profile
(e coloquei os comandos seguintes lá dentro para não precisar repetir isso cada vez que entrar)

set-content env:ccp_scheduler HN (setar o scheduler)
new-psdrive -name CCP -psprovider ccpprovider -root $env:ccp_scheduler (criar o tal do psdrive. Ainda não sei exatamente como isso funciona, mas ele acessa os dados do cluster como se houvesse uma unidade 'ccp:' e é possivel fazer coisas como 'dir nodes'. Muito legal!)

PowerShell é uma coisa que vale a pena estudar mais.

0102
Rapidinha com o ActiveX vs RDP6.

11/02
1056
Reunião com o Sandro daqui a pouco.

1347
Página do HPL
http://www.netlib.org/benchmark/hpl/software.html

Instruções
http://blogs.msdn.com/hpc/archive/2006/01/04/509326.aspx

1355
Tasks:
Kist: ressucitar o cluster linux e certificar-se de que ele está rodando.
Dani: install parallel debugging.
Dexter: not avaliable.
Bruno: ficar compilando os MPIs

Espera-se uma visita de Prado + Imprensa no dia 19.

Antecipamos a entrega da Ver 2.0 para essa sexta. Assim podemos nos concentrar na Icup np resto das férias.

Decidimos usar a idéia do rdesktop mesmo que não consigamos aprontá-la a tempo. Se não der certo usar ela apenas como idéia.

HAHA! Montei o DFS no Linux!

Pensando no que compilar no Linux.

1429
Ajudando o Bruno. O MPI dele falha para executar.

1457
Já que é pra brincar com o Linux, lembrar:
torque: controla submissão de jobs

MPICH é o MPI padrão: OK

1601
Não consigo rodar o ./install_cluster. Ele diz que eu tenho de ser root mas eu já sou root. Acho que é porque o cluster já está instalado. Vou pesquisar por flags.

1620
Preciso rodar em Root Shell para fazer alguma coisa.

1637
Como eu mudei o MPI do HeadNode, eles estão entrando em conflito.

Reinstalando o Node. Switcher aparentemente não funga.

OK. MPI igual para os dois. O que está errado?

1828
Compilei o MPI:
mpicc -o teste teste.c

Detalhe: pra conseguir fazer isso é preciso habilitar anonymus access no NFS sharing e habilitar para Read-Write com root access no campo de Permitions.

Não consigo usar o Kate para editar, mas compilo e uso os arquivos normalmente.

1928
Trocando o MPI e tentando fazer funcionar novamente.

2215
Exemplo de mpiexec no Lunix:
mpirun ­np 3 ­machinefile example4_a

12/02
1933
To tentando. Tinha esquecido com isso era chato.

Acho que descobri. Logar como ROOT é sempre uma boa (não adianta dar su). Eu já tinha feito essa cagada antes e repeti o erro.
O que eles dizem sobre pesosas que repetem o erro mesmo?

Tudo funcionando no cluster. Mas não to conseguindo montar o NFS.

Descobri como aumentar a tela do Virtual PC. Tem de mudar o monitor do Linux mesmo.

Ah não!
Assim não é possível.
Eu monto e faço o que eu quero com um usuário comum usando su, mas se logo como root ele não monta!

Acho que ele está tentando montar como Samba (o erro é de SMB). Vou tentar forçar com NFS.

If no -t option is given, or if the auto type is specified, mount will try to guess the desired type. If mount was compiled with the blkid library, the guessing is done by this library.
(aparentemente são diferentas a lybraries do root logado e do root com su)

Se eu tento dar um
mount -t nfs //192.168.0.8/data data
ele me diz que o 192.168.0.8/data não está no formato host:dir.

Tentei forçar ele a ver HN como 192.168.0.8 colocando esse endereco no etc/hosts. Então eu poderia usar o hn:data.
Não funcionou.

Estou usando o /etc/fstab, que é o arquivo onde estão os devices montados no boot.

Usando o comando
mount -t nfs HN:/DATA data
(atenção para as maiúsculas e para o -t que precisei usar)

Coloquei a seguinte linha no fstabs
HN.geladeira.local:/DATA /mnt/data nfs defaults 0 0
para que o diretório seja montado na inicialização.

Estranhamente nenhuma senha é pedida e quando eu tento dar um cd /mnt/data ele retorna Permition Denied.

2205
OK.
Se eu logar com outro usuário, entrar no shell e dar um su e, somente então, montar ele (com o comando e, depois disso, deslogar e logar como root, consigo acessar o diretório.

Com um node ele roda. Vou instalar mais um.

Node2 MAC 00:03:FF:EE:8E:ED

0043
O imager tenta conectar com 192.168.0.1 quando deveria tentar conectar com 192.168.1.1.

Acho que lembrei como eu fiz:
desplugar o cabo de rede da azaza!

0057
A comunicação terminou entre as máquinas virtuais: weirdo!

0150
Travou o Linux.
Rebooting.

0200
Criando oscarimage3, só pra eliminar essa possibilidade. Quando eu tento sobreescrever a oscarimage o linux trava.

Ele continua dizendo que q nc: network is unreachable mas o hd e a conexão dos dois cuntinua alta. Vou deixar para ver o que acontece.

Node Instalado.
O erro era normal.

0346
Node2 instalado. Salvando o fazendo backup.
Eu adoro a cor verde!

To com esse erro no qsub:
qsub: Bad UID for job execution

Estou usando, agora um script:
#!/bin/sh
  1. Add other PBS options here.
#PBS -N TesteMPI
#PBS -o /mnt/data/testempi/out.txt
#PBS -e /mnt/data/testempi/err.txt
#PBS -q workq
cd /mnt/data/testempi/
DATE=`date +%c`
echo Job TesteMPI started at $DATE
time mpirun -np 2 -machinefile $PBS_NODEFILE ./teste
DATE=`date +%c`
echo Job finished at $DATE
#Comments only after execution section
#to run this job alone type in directory
#/home/oscartest/mpich/
#qsub -l nodes=8:ppn=2 ./qscript.sh

0444
Lendo os emails do Oscar Users descobri o que poderia ser: estou executando o MPI em uma pasta não compartilhada.

Funcionou com o mpirun, mas eu quero usar o qsub.
Lembrar, qsub não funciona com o root, tem de ser um outro user.

0538
Usando esse script agora:
#!/bin/sh
#PBS -l nodes=2:ppn=1:all
#PBS -N TesteMPI
#PBS -o /home/lms/out.txt
#PBS -e /home/lms/err.txt
#PBS -q workq
echo Launchnode is ‘hostname‘
pbsdsh /home/lms/teste
  1. All done

Funcionando bunitinho com
qsub script.sh

Usar qstat para ver se os jobs terminaram no daemon.

13/02
1539
Perdi parte do meu log de onte poque o computador reiniciou. Malditos updates do Vista.

As VMs também rebootaram. Estou fazendo backup delas nesse momento.

1650
Conversando agora o Bruno veio com uma coisa importante que o Rodolfo comentou: divulgação.
Avisar para a Microsoft toda vez que algo aparecer na mídia ou for linkada por algum meio de comunicação. Assim como cada coisa que a gente publicar.
E também é interessante diulgar isso em artigos. Tando internamente (UNICAMP) quanto externamente com blogs ou sei lá.

Ativamdo meu Live Spaces.

1750
Vou escrever algo sobre como submeter jobs no Win2003 e o SUSE e postar no blog eno Codeplex.

Mandando as VMs para o \\HN\data.
A Dani vai criar uns restore points nas máquinas do Cluster.

Vou mandar as máquinas virtuais da Novell para lá também.

Estranhamente (o estranhamente se deve ao fato de eu ter notado isso agora e de nada ter sido planejado) o Scrum vem funcionando exatamente como previsto.
Temos nossas Stand Up Meetings regularmente, trabalhamos em uma espécie de XP autogerenciado e nosso Scrum Master resolve problemas administrativos.
O estranho é que, no final das contas, isso veio como que de uma forma natural, quase instintiva dentro da política que a Microsoft tem com a gente.
Nada foi planejado nem combinado. Simplesmente aconteceu assim e eu notei, agora ha pouco, que trabalhávamos exatamente como o artigo do Brod dizia que era para ser feito (com adaptações mas ainda assim do modo descrito).
Talvez se eu jogasse Rugbi e não conhecesse o Scrum como forma de trabalho estaria comparando nosso método da trabalho com a tal da jogada (ou seja lá como for que os jogadores de rugbi chamam isso).

Comecei a blogar em http://raulkist.spaces.live.com/.

14/02
1605
This is what I´m talking about:
ar-condicionado, tererê, lab arrumado e pernas pro ar. Todo bem que estou trabalhando mas é um ótimo jeito de trabalhar!

1630
Parem de mandar emails!!

1740
Vendo com o pessoal da UFRGS quanto a lista de email que eles deveriam criar.

2056
Bom lembrar.
(Torque)
qsub: submits job to Torque •
qdel: deletes Torque job •
qstat -n: displays current job status and node associations •
pbsnodes -a: displays node status •
pbsdsh: distributed process launcher •
xpbs: X-windows Torque client. Simplifies both user and administrative tasks.

Espero a Dani acabar os relatórios dela para fazer o meu e me referir aos docs dela.

Também isso:
(Maui) /opt/maui/bin root
diagnose: displays information about nodes, jobs and other resources •
checkjob: displays less verbose information about particular jobs •
showstats: shows usage stats for scheduled jobs


2116
/opt/oscar/scripts/oscar_wizard
Ajuda =P

2140
Sempre que o cluster Linux não querer funcionar é só desligar as máquinas virtuais e religá-las, primeiro o HeadNode, depois o resto.
Se isso ainda não ajudar rodar o ./oscar_wizard

2314
Problemas com remover arquivos no NFS. O daemon precisa fazer isso.
Um cara descobriu a solução:
Não tem solução com o NFS. Somente quem cria o arquivo (usuário, ou owner) tem permissão para alterá-lo em um domínio Windows.

Tiramos uma máquina do domínio e criamos um share nela. Montamos em sbmfs e voi-lá. Qualquer um pode mexer em qualquer arquivo.

Uma solução para que o diretório possa ser criado no domínio é instalar o SFU no domain controller (SN, no caso) e autenticar no HeadNode por LDAP no domínio Windows.

0126
Daemon rodando em ambos clusters.

Falta apenas executar os comandos de compilação em cada OS para deixar interoperável. Amanhã.

18/02
1558
Não tem muito o que logar quando se faz documentação.

1750
Vou virar escritor essa semana.

0212
Postado no meu blog o artigo sobre o Pizza Mode, seria bom se eles publicassem o original.

19/02
2140
Documentando. Publicaram o texto do Pizza mode na íntegra!

0513
Wiki sobre submissão de jobs pronta e online.

20/02
1823
Como estamos apenas decumentando, vou mandar o log agora.
Amanhã o Brod vem.






Férias antes do Carnaval. Até o início do projeto da ImagineCup

15/01
1654
Cheguei hj de manha no lab. Lendo emails até agora. Fim de férias para mim =(
Preciso pensar em umas idéias para os projetos desse ano e tentar conciliá-los com a ImagineCup.

Problemas com o MSDN-AA: aparentemente nossa assinatura expirou.

1752
Acho q achei um AP. Falta só reduzir o preço.

Idéia da Dani juntando com a minha para a ICup.
Mas ainda não vou relatar nada aqui: isso é público!

16/01
1205
Reunião acabou. Datas agendadas: vamos pro Imagine Cup ;)
Rede caiu: matar tempo agora.

17/01
1644
Instalando SFU nas máquinas apolo e hades. Não achei versão x64 para o cluster.

Parece que o R2 já tem algo do tipo.

1807
O Win2003 R2 já vem com suporte para NFS. Assim eu posso ter um NFS tanto no HN como no SN sem instalar o SFU (a princípio).
Acho que, embora eu goste dele, o SFU pode ser desnecessário. Vou pensar nisso enquanto janto mas devo usar o HN mesmo pra fazer isso.

2244
Abortando o SFU.
Basta selecionar compartilhar arquivos com sistemas UNIX (não sei se ele fala algo de NFS no box mas é fácil reconhecer) no área de File Server do Manage Your Server.
Feito isso usar o Microsoft Services for NFS (nfsmgmt).

18/01
1607
O NFS requer autenticação cruzada (mas restrita ao acesso a arquivos). Vou configurar a autenticação no SN (que é o DC) e o NFS no HN.

21/01
1410
Vou ter de começar a deixar esse texto um pouco mais poético já que eu ganhei leitores =)
Descobri também que se tu procurar por virtualização ou clustering ou por HPC no Google a minha página é uma das primeiras - na verdade foi o Dexter que descobriu =P

Hoje vai ser NFS e KISS all night long ;)

Ah, sim. Saí daqui na sexta e não achei a chave. Infelizmente ela estava aqui dentro e eu, com toda essa inteligência, não consegui vê-la em cima do armário bem do meu lado. Resultado: final de semana sem entrar no lab. Como se não bastasse a luz ainda caiu e nem remotamente eu entrava mais.

Última forma do que eu disse antes. Como eu instalei o SFU o nfsmgmt não consegue acessar o User Name Mapping server, vou tentar via SFU.
SFU também não acessa.

Reinstalando o SFU, preciso trocar algumas coisas:
.habilitar o behaviour do stuid pra INTERIX
.mandar ele não usar o NIS
(isso é rápido como um P3... talvez pq seja um)

1638
Reinstalando.
Será que desinstalar não era uma boa idéia?

1723
Marcar "Simple Maps" para habilitar a Geladeira.
Lembrar que todo usuário Linux precisa fazer parte de um Grupo.

1816
Vou tentar disponibilizar um NFS primeiro na SN.
Depois passo pra HN.

1832
O nfsmgmt não acha o domínio.
Upz, esqueci fazer o upgrade na File Server Rule.

22/01
1509
Não consigo mais alterar as configurações do File Server. Desinstalando para tentar alterá-las.
Depois reinstalo.

1837
Tentando sem SFU.

Deixei o Dexter fazendo pesquisas sobre RDP 6.0 e a Dani pesquisando sobre aplicativos MPI pro teste/demo.

Não vai rolar sem SFU. Nem aparece mais a opção no nfsmgmt.
Instalando denovo.

2306
Mandei publicar o 'shared' (meu folder) no AD, mas não sei pra que isso serve.

2348
Por algum motivo o linux virtualizado não tem acesso a rede.

0005
Só para lembrar: SN.geladeira.local só é visível internamente no cluster e é traduzido como 10.0.0.1 enquanto hades.lms.ic.unicamp.br é traduzido como 192.168.0.22.

0020
Embora no SN não funcione, no HN está funcionando. E visível na rede.
Detalhe: usando NIS.

OKAY ;)
Linux com pasta do HN montada ;)
pasta //HN/share montada em mnt/share @HeadNode.linux

Ainda vou descobrir porquê não funciona na SN.
(mas não hoje, agora vou pingar meu colírio alucinógeno e testar minha chave nova)

29/01
0258
Estamos aqui o dia todo brincando com o Win2008 e o RDP6 & IIS7. Mais o Bruno e o Dexter. Estou lendo sobre tecnologias pouco conhecidas: http://www.informationweek.com/shared/printableArticle.jhtml?articleID=205917062 e setando o iPaq.

Passei o dia sem logar embora quase não tenha saido daqui pois não estava fazendo coisas diretamente relacionadas ao cluster. De qualquer forma acho que devo logar estas também já que elas vão se tornar parte do projeto (embora estejam em fase incipiente).

Tivemos problemas com persistência de DNS, o IP do pezinho ficou agora como 192.168.0.23 (IP reservado).

Depois com DirectX, mas isso eu não vou logar neste blog porque faz parte do projeto da ImagineCup.

Falando nisso, vou postar esse módulo e começar outro. Reservarei o outro blog para agora que vamos começar com o outro projeto paralelo. Posto ele logo depois que o projeto for para avaliação.

0325
Vamos agora começar com uma bateria de testes no WCCS.
Não tem chororô, esse módulo acabou.


Terça antes da Reunião

18/12
1808
Vim com uma idéia fixa hoje: fazer o RIS funcinar e parar de usar o White Paper da MS.

Tenho feito isso desde então e, ao mesmo tempo, escrevendo meus passos no paper sobre o WCCS.

1848
Problemas com o deployment:
.lembrar de avisar pra bootar com pxe no paper

Tentar atualizar o RIS para ver se ele funciona.

2200
13 páginas. Estou quase acabando.

19/12
0040
Acabei!

Task list:
*Documentação Oscar
.Compilar MPI em Windows
.Compilar MPI em Linux
.Diferenças entre compilar Windows e Linux
.Benchmarks




Ultima Segunda antes de ir pra casa Feira

17/12
1239
Fui pra casa naontem as duas. Escrever documentação é incrivelmente chato!

1417
Temos duas idéias de como entregar estudos da diferença entre compilar MPI em Windows e Linux.

Novo task list (com * devem ser entregues na quarta)
*Documentação WCCS
*Revisar a documentação com minhas anotações
*Documentação Oscar
.RIS
.Compilar MPI em Windows
.Compilar MPI em Linux
.Diferenças entre compilar Windows e Linux
.Benchmarks


2207
O Bruno disse que o Linux pode montar um share de Win 2003. Aguardando.
Ele não conseguiu =P.

18/12
0010
Eu tive uma idéia antes mas esqueci ela.
Estava relendo o paper de instalação do WCCS e descobri uma coisa interessante: não lembro se eu coloquei como administrador um membro do domínio. Vou verificar e tentar me lembrar da idéia anterior.

0042
O Bruno vai formatar o HN com os passos do meu paper e ver se funciona. Um erro estranho está acontecendo no cluster ele não consegue rodar um job.

0116
Assim que ele chegar nos pontos de dúvida (o que citei acima) vou ver se modifico o paper.

0228
OK. Aquilo era um erro do Paper mesmo.

0304
Indo pra casa. Amanha cedo quero acabar isso aqui.



Domingo

16/12
2330
Tasks:
.Documentação!
.Correção do HandBook
.RIS (ou ADS)
.Compilar MPI em Windows
.Compilar MPI em Linux
.Benchmarks

Estou postergando isso há muito já.
Tenho de fazer tudo isso mas preciso da documentação pronta antes: entrega na quarta!




Segunda de F429

10/12
1810
Estou há um tempão com o seguinte problema:
There are Currently No Logon Servers Available

Não loguei porque me parecia algo estúpido (e é) mas eu nunca tinha passado por esse problema (que não acontece no Win2003, só no XP por causa do WINS do servidor de domínio)

O que acontece é que como é um XP do domínio, quem gerencia o Share é o Servidor do domínio e ele não tem registro desse share. Por isso bloqueia.

1921
Para não precisar instalar o WINS Server no Jequitiba, retirei o Apolo do domínio. Deve funcionar.

1934
Estranho: eu não consigo conectar ao Cluster com esse usuário local na Azaza (até por isso que criei uma outra máquina, no domínio, para acessar o cluster) mas com a máquina Apolo, que está fora do domínio, eu consigo acessar o cluster com usuário local da máquina!

Assim, a Azaza não conseguia acessar o cluster com usuário local - o HeadNode rejeita as credenciais! A Apolo não consegue compartilhar pastas estando no domínio mas consegue acessar o cluster estando fora dele (e autenticando como usuário local!).

Vou ver o porquê disso mais tarde.

Temos, no momento, isto:
.Documentação!
.Correção do HandBook
.RIS (ou ADS)
.Montar Share em Linux
.Acessar o Share de Outros PCs (ver últimos detalhes - pq?)
.Compilar MPI em Windows
.Compilar MPI em Linux
.Benchmarks

Terça =)

11/12
1735
Saindo de exame - Reunião - Lab de 429... Agora: let's go!

R2D2 está mexendo no Apolo. I shall wait.

2058
Voltando de leve: instalei o Compute CLuster Tools Pack do CodeProject, vou ver como funciona depois.

Achei também um código para calcular o Pi em MPI - ócio produtivo.

Achei isso aqui também: http://www.winhpc.org/stories.php?story=07/10/11/0380487 sobre Linux e Windows e HPC.

Imprimindo material sobre Debbuging MPI no Visual Studio.

12/12
0616
Comecei há algumas horas a brincar com tentar submeter Jobs...
Estou sendo infeliz nessa empreitada.

Não estou conseguinto montar o share do Apolo, nem submeter qualquer job MPI para o cluster. O pior é que ele não dá um feedback do que pode estar errado.

Deu certo! Montei, é só reiniciar!

Compilando o HPL em Linux.
Mais informações em http://www.netlib.org/benchmark/hpl/software.html

Assim temos: Share montado e acessado de outras máquinas. Deu certo o acesso ao Job Scheduler porque o administrator do computador fora do domínio é considerado um usuário do domínio.

mount -t smbfs //192.168.0.20/share /mnt/share/ (comando para montar, detalhe de não colocar barra depois de 'share' - não funciona)

Assim temos, ainda, que:
.Documentação!
.Correção do HandBook
.RIS (ou ADS)
.Compilar MPI em Windows
.Compilar MPI em Linux
.Benchmarks

Trocando a MPI de LAM para MPICH2 no Suse.

SuSE sem Gcc... instalando.

0713
Coitado desse computador!









Sexta - Feliz =P

07/12
1523
To Do To Day:
Documentação RIS (ou ADS) Samba + Benchmarks

Instalando Win98.
Vou testar em XP e em Win98.
2003 sabemos não ser possível. Vista, bom...vou tentar no Vista depois também mas acho brabo.

1623
Win98 não que instlar!

1811
Travou a instalação! E não é Beta, Bill.

Continuou a instalação de onde parou.
Bom!

1831
Esquece o Win98. A MS não dá mais suporte pra ele. Impossível usar assim. E não tem valor como material de pesquisa.

Vamos de XP.

2030
Hardware problem. Isso sempre é demorado pra achar.
Usando outra máquina.

2205
CD com problema.
Outro!

2219
Instalando Visual Studio no HN.
Vou usar o cluster da maquina Zeus - a mesma que terá o share folder.

Na Zeus deve haver o Share, o VS e o WCCS Tools.
Não posso usar o Cluster desta máquina pois meu usuário é local e eu não posso adicioná-lo à lista de users do Cluster.
Assim que conseguir instalar a máquina (assim que o CD gravar!) já posso matar o Benchmark e o Samba.

Estou adiantando o HPL. O CD acho que o problema era a ISO. Estou Gravando denovo.

2244
Para que não de erro de compilação no VS, é só colocar todos .c e .h em um só diretório. Agora vamos achsr o mpi.h que está faltando.

Instalar o WCC SDK.

08/12
0042
Vendo como compilar um programa MPI Linux em VS.

Instalando o Intel Cluster Tools.
Não era. Era só um demo.

Instalando o MPICH. Passphrase: behappy.

Windows Instalado.

0123
\\zeus\share criado.

Instalando o VS.

0147
As luzes do HUB estão em clima natalino: piscando adoidadamente! A única coisa que não pisca é a vermelha de conflitos.

0248
Não consigo acessar o share do Zeus. Mesmo depois de reiniciar!

Tentando atualização.

57 atualizações. Alguma deve resolver meu problema.

Nada!

0352
Logando como Adm de rede agora.
Tento o share mais tarde.

0410
Tentando reingressar na rede. Zeus é autista!

0453
Vou tentar recomeçar com a Apolo.

O problema é, aparentemente, com WinXP Pt-Br.

0752
To cansado de reiniciar isso aqui.
Mas agora é pra dar certo.

Installing SP2.

0841
Vou ter de fazer o resto amanha, digo, hoje depois de dormir.

Resto:
Documentação! Correção do HandBook RIS (ou ADS) Montar Share em Linux Acessar o Share de Outros PCs Compilar MPI em Windows Compilar MPI em Linux + Benchmarks

1304
Vou pra casa. Deixei atualizando: 1 de 97.








É Quarta-feira e o Lúcio é um carrasco!

05/12
2116
Estive vendo os problemas relativos ao carro: advogado, freios, orçamentos, etc.
Emails lidos: let's work!

2131
Primeiro o Samba!

Não é o caso de eu montar um Samba no Linux por:
1. Perde performance - é uma maquina virtual.
2. Perde generalidade - precisa ser em um computador externo.

Decisão sumária: vou formatar alguma coisa e intalar um Win98 nele. Ambos lêem Share de Win98.

2156
Procurando Win98.

Nada...
Será que instalando o Services for Unix ele funciona?
Tentando.

2238
Comprar comida aqui vou eu.

06/12
0004
Acesso limitado ao SN. Não sei o porquê.
Sem ping.

Pingou!
Acessou!

0039
Agora preciso de uma máquina pra gravar o CD do Win98. Vou esperar e fazer outras coisas, ler um pouco...

Vou ter de baixar outra imagem. Daemon Tools não abre UIF.



Dia do recrutamento

04/12
1902
Estivemos recrutando. Dois escolhidos falta o terceiro.

Recebi hoje, HOJE!, o Windows Compute Cluster Server. HOJE!
HOJE! E hoje faltam duas semanas pra entregar o projeto. Duas semanas!
Adoro burocracia!

Primeiro problema: não consigo tirar o CD da caixa.
Juro!

4 pessoas tentando. O Bruno conseguiu.

Vou testar na máquina A0 (formatá-la) para ver se o que eu instalei era, de fato, o WCCS.

1951
Aparentemente era o WCCS mesmo.

Agora temos: Benchmarks RIS (ou ADS) Documentação

Benchmarks primeiro. O RIS está em andamento.

Vou usar o LINPACK (o mesmo usado no Top500).

2135
RIS acabou de capturar os aquivos do CD do WCCS.
Lendo sobre o LINPACK, na verdade sobre a implementação dele, o HPL.

2216
Estranho. Ontem ele não achava o HN. Hoje ele não acha o SN mas acha o HN.

Funciona agora!

Tentando montar a folder no terminal do linux.

2302
Sem net =(

2340
Voltou.

Achei onde resolver o problema do Sandro =), o do IP do MSDN-AA. É em Application Server.

Pelo que li em fóruns não é possível fazer o mount =( de um Win 2003 Server.

Vou ter de fazer outra coisa.

Tarefas para amanha: Documentação RIS (ou ADS) Samba + Benchmarks

05/12
0051
liberando espaço do computador. Vou deixar desfragmentando essa noite.
Apaguei todos arquivos de usuários, eles são avisados de que não devem usar essa máquina.


Segunda "Bateram no me Carro" Feira

12/03
1734
Ia começar a blogar diretamente no Codeplex hoje mas, infelizmente, o IE não é estável o suficiente pra permitir esse tipo de coisa.
Ele fechou e eu perdi todo o blog do me dia.
Nele eu tinha relatado toda a evolução de idéias que tivemos hoje para contruir o algoritmo do cluster.
Vou falar do estado atual das coisas, então:
Mandei um email pra um MONTE de gente apelando para idéias. Agora estou respondendo a eles e tentando extrair idéias do pessoal.
Nossa abordagem atual é usar o programa do Bruno de Redes Neurais em Matlab e converter ele pra C. Aparentemente há algo chamado de MCC (um comando do Matlab mesmo).

Tenho trabalhado na documentação e tentando fazer o deployment funcionar (sem sucesso: são muitas variáveis pra recorrer e nenhum output pra me dar a pista).

1814
Emails acalmaram. Vou fazer o Samba.

1830
Preciso de mais memória! Bandejão here I come!

1932
Back in black!
Criado no HeadNode do Cluster Linux com senha padrão do laboratório.

2234
Fui dar uma volta. Vou reiniciar as máquinas agora.

04/12
0240
Preciso começar a pensar em ir pra casa dormir. Amanhã tem a seleção dos novos bolsistas.
Nem precisei criar o Samba. O SuSE lê um diretório do SN por Samba. Basta colocar as coisas no \\SN\share\ e pronto. O que está fora do cluster não enxerga o cluster. Ele enxerga pra fora.

Brincando um pouco com o RIS para ver se ele funciona melhor do que o ADS.

Feito isso, amanhã eu começo a produzir as versões finais da documentação para entrega. O Dênis + Bruno estão vendo a parte do algoritmo até que eu acabe aqui. Estou esperando um código da minha lista do Mochileiro, parece interessante.



Instalação do Windows Compute Cluster Server

05/10
1602
Estivemos um tempo sem gerência e, por isso, estou um tempo sem relatar atividades dessa forma. Voltando agora.

Estou trabalhando com a instalação do cluster na nova topologia desde que o Pezinho se deparou com dificuldades, estive logando isso em um arquivo compartilhado, mas em formato diferente e menos detalhados que aqui. Além disso, nesse documento, estão relatados apenas coisas relativas ao cluster e nada além disso.

No momento acabei de ler a documentação que o Brod indicou, criei o projeto do Codeplex para a equipe blogar e estou atrás de um novo membro pro grupo.

Além disso estou lendo documentos técnicos sobre Windows Server (2003 & 2008) para apresentar uma palestra dia 11 em Leme.

Pretendo, esse fim de semana, acabar a instalação do WCCS e instalar um WS2008 em uma máquina do lab. Durante a semana devo acabar os slides para a palestra.

Assim esse fim de semana vou instalar o WCCS WS2008 estudar para a palestra e, se der tempo, começar os slides.

Acho que tive problemas com o download do WS2008 em 99%. Sensação agradável.

Denovo...

Funcionou!


2145
----***** é a Serial dele. Instalado na Pezinho!

Acabando de ler sobre as features do Server 2003. Comecei a ler sobre Server 2008 mas há muitas referências sobre o Vista. Vou ler sobre ele para me interar também.

Acabo de ler isso até amanhã.

Amanhã vejo os Webcasts, brinco um pouco com o Server 2008 e trabalho no cluster

06/10
2014
Estive lendo em casa e acabei a leitura. Agora só falta ver os vídeos e preparar a palestra em si. Hoje vou ver os Webcasts e brincar com o servidor, também vou mexer no cluster.

Baixando o Office 2007 e vendo Webcasts. Depois eu brinco com o Cluster e com o WS2008.

07/10
0056
Muitos dos Webcasts não são bons mas achei alguns legais há pouco =)

Estou aproveitando e testando algumas coisas no jequitiba, aproveitando pra aplicar um pouco do que estou aprendendo no Lab.

Instalando Visual Studio 2008.

0310
Home, here I go.

1440
Acessando Remotamente.

Instalando Office 2007.
Instalando MSDN Library for Orcas.

08/10
0812
Bom dia Cluster!

Estou com um mouse para 10 computadores. Literalmente.

Problemas PROC

Não consegui usar o comando "drvinst.exe", aparentemente ele não é reconhecido pelo Server.
Vou atualizá-lo. Nada. Tentando instalar novos componentes.
Outro problema. Não sei exatamente o que ele quer dizer com WinPE binaries - algo que deve ser copiado para o c:\WinPE.
Depois tenho de pegar os MACs de cada máquina do cluster.

RET
Problemas ENDP

Downloading Utilities e SDK for Unix aplications.

OK. MACs recolhidos pelo jequitiba. Mas estou apenas com A1-4 e B1-2 ativas. O pezinho não conseguiu fazer funcionar as máquinas B3 e B4. A1 está com o nome de HN, assim como o Service Node está com SN.

Continuando: felizmente os dois problemas que eu não resolvi ainda podem ser deixados para depois.

Instalando ADS.

Problemas com o PXE. Mas acho que é só desinstalar o WDS.

Não era só isso. Desinstalando WinPK.

Reiniciando, por via das dúvidas. Acho que vou perder a aula de AM030 de hoje.

Por isso eu só achava o WinPK. Ele é diferente do WinPE (aparentemente). Problemas para achar o software requerido mais uma vez. Isso cansa.

Estou há horas procurando isso. E já não é a primeira vez que o faço.

Mais algumas horas.

Achei. Agora é instalá-lo, copiar os binários pra pasta, instalar o driver da placa de rede (fazer o DO) e continuar com a instalação.

Vou pra minha aula.

Download Demorando.

1748
Still waiting.

09/09
1310
Uma imagem foi baixada. Vou instalar depois do outros softwares para fazer a palestra.

Lembrar de trocar o CD depois de fazer a instalação do WinPE.

ISO corrompida. Adoro! Acordei mais cedo pra isso e não posso fazer nada!

Vou continuar fazendo os Layout dos slides feitos.

10/10
0802
Começando. Respondendo emails e fazendo slides.

1820
Consegui =). WinPE is no more a problem.
O único porém agora é o 'drvinst' que eu não consigo executar.



18/10
1415
Às vezes dá um desespero nesse lab.
Isso acontece quando tu acha que uma coisa está dando certo, e geralmente uma coisa que te ocupou um bom tempo pra realizar, e quando tu volta no dia seguinte (ou na semana seguinte como no caso - provas) e alguém acabou com tudo que tu tinha feito por exemplo esbarrando em uma tomada.

Refazendo. Não vou logar isso. Mas fique dito que eu odeio usuários!

18/10
1715
Ontem foi um dia triste. Hoje há de ser melhor.

Estou procurando informações sobre o comando drvinst.

Instalar o PowerShell não adianta. Tentando Updates.

Apelando para ajuda do Windows. Nada.

Achei! O comando fica no diretório c:\WinPE\WINPE - nada dito sobre isso na documentação.

2 vezes warning uma vez correto mas deprecated (sem certeza minha) e uma vez aparentemente certo!

Tenho de esperar o resto das atualizações acabarem pra instalar.

Deu um pau em um serviço. Vou ter de inicializar ele manualmente depois.

Problemas.

Restarting.

YArrriiibaaa!! Funcionou!

Pau no Server Management! Reiniciando denovo.

Não loga! hahaha...

Entrei localmente. Depois logou.

Aquilo tudo foi pra configurar o ADS. Agora foi o share Certificate.

Criando e importando templates. Tive de trocar <?xml version="1.0" encoding="utf-16"?> por <?xml version="1.0" encoding="utf-8"?> para que o XML funcionasse.

OK. Agora tenho de fazer o CSV funcionar para o ADS instalar nos PCs certos.

2140
Falhando com gosto de Invalid Object path. estou verificando o CSV mas estou desconfiado da topologia (se os PCs da geladeira estão realmente ligados ao SN, vou ver com o pezinho - ele que fez isso).

2305
Auf wiedersehen...

20/10
1704
Há uma hora comecei a investigar como funciona o sistema de ethernet do cluster.

O HN se conecta ao SN mas o resto não.

Acredito que seja o jeito que o Pezinho montou os cabos mas ele não aparece e eu não tenho o manual nem nada desse cluster. Atrás dele é só um monte de saídas sem uma lógica evidente.

HAHA! Acabei de me dar conta de uma coisa: os MACs que eu tenho são da outra placa de rede. Tenho de pegar cada uma manualmente (isso não exclui o erro anterior, são dois).

1914
OK. Topologia resolvida. DHCPs funcionando. Usamos o HUB interno do cluster para ligá-lo ao SN e o HN foi ligado ao jequitiba.

Para resolver o problema de lease de DHCP (o HN estava recebendo dois 10.0.0.XXX) forçamos um IP fixo no HN.

Scheisse! O script não estava funcionando por causa de um nova linha no final do CSV!

1935
OKAY. Agora vamos brincar com o HeadNode.

Para não precisar reformatar ele vamos simplesmente desinstalar tudo dele e fazer as instalações necessárias.

As diferenças vão ficar (teoricamente) nos tamanhos das partições apenas.

Agora temos de baixar o SQL Server 2005 x64 (não tínhamos ele disponível aqui - mais uma vez).




28/10
1955
Cheguei do SBAC. Agora preciso colocar as coisas em dia.
Primeiramente criando um grupo de discussão para a troca de informações entre os participantes, uma vez que vários de nós trabalham em áreas parecidas e, muitas vezes, temos os mesmos problemas.

Lendo emails e respondendo.
Preciso arrumar fotos do evento para a Fabiana com o pessoal.

29/10
1427
Apaguei ontem. Continuando hoje (uns 38ºC) no lab com AC.
Respondendo emails de primeiros contatos com o pessoal.
Estou também distribuíndo tarefas relevantes pro Bruno e pro Pezinho, assim posso me dedicar à documentação do cluster.
O Bruno vai upar o conteúdo sobre OpenXML pro Codeplex e o Pezinho vai publicar o nosso blog + upar as fotos.

30/10
1155
Caiu a luz ontem.
Incrível como eu fico inutilizável sem energia elétrica!

1230
Resolvendo assuntos de Serial Keys pro Sandro.

2010
EU ODEIO QUANDO FECHAM AS COISAS QUE EU ESTAVA FAZENDO!
ODEIO!
AGORA PERDI METADE DELAS PORQUE ALGUEM TEVE A BRILHANTE IDÉIA DE LOGAR NESSE COMPUTADOR E FECHAR MEU BROWSER!

To muito irritado. Mas vou começar a trabalhar de uma vez (assim que meu MSN parar quieto).

Instalando o SQL Server 2005 Standard x64 no HN (A1). Pedi pro Pezinho fazer isso ha quase duas semanas.

OK. ISO baixado e copiado. Daemon Tools instalando.

10/11
0249
Achei um possível erro:

ID: 6103
Source: CcpManagement

We're sorry
There is no additional information about this issue in the Error and Event Log Messages or Knowledge Base databases at this time. You can use the links in the Support area to determine whether any additional information might be available elsewhere.

Bastante motivador isso.

Começo a desconfiar que o WCCS que baixei não era WCCS de verdade.



SQL instalando.

SQL instalado. Formatando partição extra. Copiando CCP sp1 pro diretório de instalação para começar a instalação dele.

31/10
0107
CCP instalado no HN. Partindo para a instalação do NodeImage. Copiando CDs para formatação da máquina.

0140
Instalando!

Formatando A2 (heheheheheh) para criar a imagem de deployment.

CD Key: ----*****
Nome da Imagem: A0

Instalando SP2. Isso vai demorar.

0455
Vamos comer algo na casa do Pezinho.

0602
Últimos detalhes antes de capturar a imagem para o deployment.

0632
Home.


05/11
0127
OK. Iniciando tentativas de captura de imagem.
Tive de Deletar o Device A2 no ADS para colocar o A0 (imagem) porque elas são a mesma máquina e tinham o mesmo MAC (). Depois recoloco ela para fazer deployment (se for possível).

Comando:
/BMONITOR/BmFileXfer.exe -d "c:\hpc-ccs\Sysprep\i386\sysprep.exe" "\device\harddisk0\partition1\sysprep\i386\sysprep.exe"

Retorno:
An error occured while doing a file IO. Ensure that the file exists on the ADS Controller and verify that the file data can be accessed.


Deu certo! O nome do diretório estava errado. Tive de consertar alguns caminhos mas aparentemente está funcionando.

Estranhamente ele me pediu a Serial (----*) e um novo nome pro nome da máquina (?), que estava inválido.

Acho que ele está pegando coisas desse tipo: ^Bla_Bla^ e não substituindo por variáveis como deveria, estranhamente.

Editando sysprep.inf.

OK, mas eu acho que ***** a instalação do A0.

Reinstalando. Depois é só rodar o Job denovo.

0513
Deixei fazendo Update e to indo pra casa.
Amanha eu volto.

1355
Back in black. Descobri que o SN passou a noite toda esperando um next meu.
Esperando.

06/11
0124
Estive refazendo os passos anteriores até agora. Renomeando A1 para HN antes de instalar o CCP.

Agora eu não sei se isso foi uma coisa esperta a ser feita. Anyway, agora foi feita.

Desfragmentando: parte final.

Pronto. Rodando Job.

0340
Segunda vez agora. Estranhamente na parte do sysprep ele não continua! Reiniciei, coloquei ele para bootar em PXE e nada! Vou continuar esperando por um tempo e ver se ele não dá sinal de vida.



10/11
0325
As coisas vão tão bem que até o log eu to perdendo!

Todo log de hj se foi...

Bom, estou desconfiado de que o WCCS que baixei, na verdade, não é o WCCS coisa nenhuma (mesma dúvida de antes) e isso pode estar causando problemas.
De qualquer forma é só uma suposição baseada no fato que (durante a instalação) ele, em momento algum, fala que é um WCCS, nem consigo verificar isso no sistema. Deveria ter aglum sinal, sei lá.
Espero que realmente seja isso.

Descobri mais alguns erros no Event Viewer mas não acredito muito neles não.

Logando novamente a partir daqui.

Fazendo download denovo do WCCS.

18/11
0130
You cannot run Sysprep on a computer that has been configured as a Cluster Service server, a Certificate Services server, or a domain controller. You can run Sysprep on a standalone server.

Estranho.
Baixando WCCS denovo pra tentar reinstalando - assumindo a hipótese de que o WCCS não era mesmo o que eu baixei.

20/11
0043
OK. Vai manualmente, depois eu descubro qual era a do depoyment...

----*****

Parei na A4 hoje.


21/11
2049
Tenho um encontro hoje então só fico até as 23h.

Acabei a B1 e B2.

Nodes, então: A3, A4, B1, B2.
B3 e B4 não funcionam.

Instalando CCP nelas.
Configurando acesso remoto =) luv it!

Atualizando. Não instalando o IE7.


22/11
1451
Disabling firewall.
Creating Domain Trusts.

Adicionando users LMS\ra063998 como usuário simples do Cluster e LMS\Administrator como manager do cluster. Criei também o usuários Geladeira\LMS.

Cluster ready.






Instalação de um Oscar Cluster em SuSE virtualizado por MS Virtual PC em Windows Vista

1818
lets rock.
lendo requerimentos de sistema e possíveis erros de instalação assim como medidas preventivas e grifando partes importantes do manual previamente impresso.

03/07/07
1421
Desisti ontem. Muita dor de cabeça. Fui pra casa e vou, hoje, fazer o setup disso.
A idéia é meis ou menos a seguinte:
.instalar o headnode (SuseHead)
.instalar um node (SuseNode1)
.fazer o setup da LAN virtual
.instalar RPMs necessários
.começar a instalação per se

Estamos produzindo material pro makeof do LMS.

1520
Instalando o SuseNode1 e acabando a instalação da segunda placa de rede no SuseHead.
É necessário desligar a VM pra poder adicionar hardware, assim como em um computador normal.
O help do VPC não é muito instrutivo/organizado.

1600
Estou com pena desse PC.
Ele está com dois Suse Server rodando ao mesmo tempo de um Vista!

2213
Acabando a instalação do SuseNode1 e tentando configurar a rede virtual.
DNS aparentemente ok. O domínio é 'linux'.

2315
As RPMs pra instalação vão ser armazenadas em tftpboot/rpm
As imagens de instalação em var/lib/systemimager
A instalação será realizada em /opt/oscar


04/07/07
1547
OK, possíveis problemas encontrados: o Novell Suse não tem os RPMs de alguns (2) dos aplicativos que o Oscar pede pra serem instalados. Estou usando as informações para a instalação do Suse 10.0 do manual do Oscar.

A rede entá organizada assim: Rede Pública do SuseHead com IP 192.168.0.100 e Rede Privada do cluster com IP 192.168.1.1. O SuseNode1 tem IP 192.168.1.2 apenas (Rede Privada).

RPMs: há dois diretórios e não é deixado muito claro como eles são organizados. Estou seguindo rigorosamente os passos citados no manual.
Os diretórios estão separados em RPMs comuns e RPMs para cada distro, mas, nos comandos citados no manual, os RPMs, quando copiados, aparentemente fogem dessa norma. Vou verificar isso.

1727
São 9h de copia dos RPMs.
Vou dar uma saida. Não posso começar a instalacão sem os RPMs.

Lembrar de fazer um backup do VPC qndo voltar!


05/07/07
1449
Entendi como funcionam os diretorios de RPMs e acho que tive uma ideia pra resolver os problemas de compatibilidade entre o Novell Suse e o Open Suse. Vou baixar o Open Suse e copiar as RPMs dele pro diretório do repositorio de RPMs do Oscar. Deve funcionar!

http://mirrors.uol.com.br/pub/opensuse/distribution/10.2/repo/oss/suse/ => um site com as RPMs caso dê pau.

http://www.clusterresources.com => site com recursos de clusterização para, inclusive, Novell Suse.

http://mirrors.uol.com.br/pub/opensuse/distribution/SL-10.0-OSS/iso/ => ISO do openSUSE

446af780a75e25e0ef3d86519704d61d SUSE-10.0-CD-OSS-i386-GM-CD1.iso
f30f738a57f3bf3b185efa8b7013906a SUSE-10.0-CD-OSS-i386-GM-CD2.iso
49d451efb5844f4f99f7399a3d180094 SUSE-10.0-CD-OSS-i386-GM-CD3.iso
40e7517635abba36a3f506cbbcd823d1 SUSE-10.0-CD-OSS-i386-GM-CD4.iso
d5bc32922ddb75adf7c19d770dfb0337 SUSE-10.0-CD-OSS-i386-GM-CD5.iso
(Sums para os ISOs do openSUSE.)

1543
First Backup

Copying RPMs Again.

Backup.

Vendo se tenho ou não de deixar as pastas.

Vou colocar as RPMs faltantes do openSUSE.

Pode ser tentado, também, os URL repositories caso não dê certo assim.

http://download.opensuse.org/distribution/SL-10.0-OSS/inst-source/suse/i586/ => URL com os RPMs

Acabei de copiar, faltam apenas as RPMs que o suse não tem e elas têm de ser baixadas da net, que não está funcionando no VPC no momento.

Backup Again.

Reconfigurando a rede do SuseHead para internet.

Tudo pronto pra instalação. Último backup antes de iniciar.

2030
Falhou.
Estou recorrendo à ajuda da comunidade. O erro não foi inesperado: SO não suportado. Eu só não esperava que o próprio script de instalação fosse complicar com isso.
Enquanto espero o resultado da comunidade vou tentando com o openSUSE.

Cara como eu tenho pena desse PC!

Instalação do openSUSE: vários erros de instalação de pacotes, principalmente no CD3 e no CD4 (no CD2 aconteceu 1). Verificar isso depois.

Baixando denovo os CDs do openSUSE. Saco!

CD 2 e 3 continuam com problemas.
A instalação falhou O.O!! Travou a instalaçao!

Reiniciando...

Estranho. O checksums dos CDs estão bons. Não é problema do ISO! É da instalação.


11/07/07
1700
Ahh! De casa não estava funcionando por Remote Desktop. Desconfio que seja por que o VPC não captura o mouse quando eu estou em casa ("captura da captura" não funciona). Tentei Arrumar isso por um bom tempo, mas com a rede ruim os resultados, não estavam confiáves.

Agora serão openSUSEHeadNode (30gB HD 300mB RAM) e openSUSENode1 (15gB HD 200mB RAM).

openSUSE_HeadNode
HeadNode.linux
Interna (eth1): 192.168.1.1 (linux)
Externa (eth0): 192.168.0.100 (lms)
root pw: ******
user: ; pw: *****

openSUSE_Node1
Node1.linux
Interna (eth0): 192.168.1.11 (linux)
root pw: ******
user: ; pw: *****

Preparativos de IP e RPMs mais uma vez.

Os CDs 3 e 4 não queriam montar de jeito nenhum. Tive de montar as ISOs no Vista para capturá-las no VPC pois este último não estava conseguindo fazê-lo.

Esse PC está tão lento com isso tudo que até para digitar um txt está difícil!

2351
Fazendo backup antes de trocar as RPMs de lugar a pedido do programa de instalação.

O teto está fazendo barulhos estranhos. E volta e meia cai algo, sujeira eu acho, dele. Acho que está chovendo forte lá fora.

O script está "smartly" (segundo ele) fazendo um monte de coisas.

Lembrar de setar um password pro SQL server!

Backup again! (To sem HD, vou ter de apagar um backup anterior do Novell Suse)

Pulando Step 0 e Step 1. Se precisar fazer alguma alteração posterior por compatibilidade com o WCCS deve-se fazer o download do pacote e selecionar eles pra instalar (por default, todos os pacotes do core são selecionados para serem instalados), ou seja Step 0 e 1.

MPI Environment Switcher: lam 7.1.2

Não lembro para que serve o Ganglia. Pesquisando.

Aparentemente serve pra monitoramento das máquinas. Ver se elas estão trabalhando e como está distribuído o processo. Útil!

Cluster configurado pra rodar batch no HeadNode também (configuração feita no Torque Resource Manager).

Step 3. Parece ser demorado.
Sucefully Installed Oscar Cluster!

Step 4.

Tentando fazer o Node1 bootar por network.
É só entrar na BIOS, mas não achei como fazer o network boot uma vez só.

Esse Step 4 está batendo os recordes por aqui.

Essa barra de progressos não está muito católica! Ela vai e volta!!

Ok! Sucesso!

Salvando e indo pro passo 5.

Step 5. OK!

Step 6. Recolhendo MACs.

Fazendo network boot. Não consigo abrir o Monitor Cluster Deployment.
Consegui... mas não consegui fazer o network boot funcionar propriamente.

Vou gravar uma ISO.
Não consigo. Vou me mandar o ISO por email. Dae gravo ele no CRONOS.

Não vai ser necessário. Posso virtualizar a imagem do CD.

Ok. Mas parece que ele está procurando no 192.168.0.1 e não no 192.168.1.1 o SystemImager.

Tentando outras combinações.

0630
Indo pra casa. De lá eu penso em algo. UltraVNC ligado.

13/07/07
1252
Caiu a luz aqui. Vou ver o que perdi.


14/07/07
1920
Sentando a bunda aqui novamente.

Não instalei 3 pacotes. O SGE, o networking e ?????????.

Mesmo processo. Mesmo problema.
Tentando desabilitar o firewall.

YEAH!

Shit. Isntalation failed.
É o mesmo problema do boot feito por ISO.
Ele procura em 192.168.0.1

Vou ver a ISO.

Salvando aqui. (Próximo: Step 3)

OK. Problema diagnosticado!
Acontece que, quando o sistema faz o boot por PXE, ele não salva nenhuma informação sobre os IPs. Assim, uma solução seria colocar eles na mesma LAN, sob a mesma máscara, outra seria trocar a máscara. Vou tentar trocar a máscara primeiro.

Continuar procurando outras soluções. Deve haver um jeito de fazer isso usando esse IPs.

Apagando o Node1.
Completando a instalação.

Tentando primeiro sem conexão com a LAN do LMS, para ver como o erro se manifesta.
Uma idéia seria instalar na eth0.

Ou desinstalar o eth0 e colocar todos no mesmo domínio.

Deuses! Acho que funcionou só de desplugar a LAN!
Barra de progresso!! Barra de progresso!!!

Kernel Panic. Nice!

o nsync (hahaha...N'Sync! Que merda!) está dando nc: connection timeout. Ver isso.

Tentando agora com o UYOK.

Lembrar de deletar os clients quando for reiniciar a instalação.

Tentando com ISO agora. Incrível como problemas aparecem do nada.

Se isso nao der certo tentar outros tipos de Deploy.

Permition Denied? E eu nao fiz nada de diferente dessa vez.

Ver se pode ser o problema dos IPs do do oscarimage. Se nao der certo com outros deploys tentar mudar a imagem. E ver solucoes na net.

A oscarimage2 foi criada com o static IP. A oscarimage esta com ????????.

Estranho. Deve ser coisa da imagem mesmo, já que tudo ocorre perfeitamente pela LAN ate a aquisição da imagem.

Tentar BT com oscarimage2 depois.

Feito!!! Hahaha!!
Testes com sucesso!

Cluster instalado as 7h51 do dia 15/7/2007 =P

Last edited Oct 22, 2008 at 5:12 AM by azazyel, version 20

Comments

No comments yet.