Informações sobre a manutenção da Titânio

Prezadxs usuárixs,

Agradecemos a compreensão e paciência durante todo este processo de atualização do cluster Titânio, e gostaríamos de esclarecer os atrasos.

O Cluster Titânio estava em estado crítico, com sistemas desatualizados, vulnerabilidades, apresentando falhas de hardware, diversos softwares quebrados e adaptações temporárias, perdendo muitos nós e contando com apenas 13 nós de computação em operação.

Infelizmente, ocorreu uma parada não planejada no HeadNode, não nos dando tempo hábil para alertar à todos os usuários. Decidimos portanto aproveitar a parada para iniciar o processo de atualização e restauração do equipamento.

Toda a configuração é feita por uma empresa terceirizada, a Versatus, e tivemos um prazo inicial de 5 dias para a normalização dos serviços. Entretanto, ao iniciarmos o processo de atualização, identificamos que a Titânio apresentava muitas falhas que não conhecidas anteriormente, apresentando um estado muito pior do que o identificado no plano de trabalho inicial.

A primeira etapa da manutenção envolvia a atualização do sistema, que utilizava um CentOS extremamente desatualizado, para um Oracle Linux, e ocorreu dentro do prazo. Entretanto, com esta mudança começamos a identificar diversas falhas lógicas e físicas no equipamento. Ainda na primeira semana tivemos sérios problemas com o HeadNode, que causaram inclusive a corrupção do arquivo de Kernel do sistema, além de problemas físicos que impediram o acesso remoto por conta da empresa que executou o serviço dificultando muito o trabalho. Contornados estes problemas tivemos de recomeçar o processo do zero, uma vez que perdemos toda a configuração do HeadNode e os compute nodes são configurados à partir de imagens fornecidas e armazenadas no HeadNode. Indicou-se portanto um novo prazo de 5 dias para a reinstalação da máquina.

Ao concluirmos novamente a configuração do HeadNode, passamos à configuração do LoginNode, por onde os usuários realizam o acesso e submissão de trabalhos. Entretanto, este também começou a apresentar falhas lógicas e físicas. Muitos usuários apresentaram problemas de autenticação e indisponibilidade para acesso justamente por estes serviços serem executados no LoginNode. Tentamos de todo modo recuperar o equipamento, entretanto, não foi possível voltar à normalização e optamos pela desativação do nó. Portanto, todo o acesso e submissão de jobs agora é efetuado diretamente pelo HeadNode do equipamento. Passamos então para a etapa de instalação de software e testes no decorrer desta última semana. Mudamos inclusive o apontamento do domínio titanio.ufabc.int.br, anteriormente para o LoginNode, para o HeadNode, normalizando agora o acesso através do domínio.

Embora seja um equipamento antigo, a Titânio presta um serviço importante para a comunidade acadêmica da UFABC, e nos esforçamos para fazer com que sua vida útil seja estendida para prover ainda mais recursos e auxílio para seus usuários. Entretanto, manter a Titânio da forma que se encontrava se tornou impraticável, demandando este trabalho de recuperação que por si só foi um desafio.

Agora anunciamos a normalização do sistema com o isolamento das inúmeras falhas que encontramos durante esta manutenção. Desta forma, temos hoje uma nova Titânio atualizada e que servirá melhor a comunidade. Uma das atualizações é a restauração de 23 nós de computação para as próximas semanas, mais do que dobrando a capacidade atual da máquina. Fato que só é possível devido a este árduo trabalho de restauração do equipamento.
Entendemos que este processo tenha causado transtorno, e gostaríamos de nos desculpar novamente pelo inconveniente, assim como agradecer à toda comunidade pela compreensão e apoio durante este processo.

Com a criação do novo ambiente, gostaríamos de reforçar as políticas de uso do equipamento:
Instalação de pacotes deve ser solicitada através de ticket em: https://central.ufabc.edu.br/load.php/default/index
Embora possamos disponibilizar tutoriais de acesso e utilização básica do sistema, reforçamos que não podemos oferecer suporte ao uso de softwares.

Acesso: https://ccm.propes.ufabc.edu.br/wp-content/uploads/2022/06/Guia-do-Usuario-Titanio-UFABC.pdf
Guia de usuário (em processo de atualização): https://ccm.propes.ufabc.edu.br/wp-content/uploads/2022/06/Tutorial-SSH-Tunnel.pdf

A CCM está se esforçando também junto à comunidade acadêmica para trazer novos recursos computacionais, e teremos equipamentos novos em breve para prover um serviço à altura da comunidade à qual prestamos um importante serviço.

Reforçamos o convite a sempre visitar nosso novo site ccm.propes.ufabc.edu.br para estar sempre atualizado das ações da CCM.

Nos colocamos à disposição da comunidade para dúvidas e sugestões.

Atenciosamente,

Central Computacional Multiusuário