A padronização é uma maneira de reduzir a multicolinearidade entre as variáveis que definem a matriz do seu modelo. Os algoritmos de otimização são ganham performance ou são mais bem sucedidos quando a função objetivo é orotogonal em seus argumentos (os parâmetros no caso). Em outras palavras, ter uma matriz X com colunas ortogonais implica que X'X seja diagonal. X'X, e/ou sua inversa, surge nas derivadas parciais para montar o hessiano usando em métodos Newton Raphson. Os livros mais antigos de estatística experimental inclusive trazem tabelas de polinômios ortogonais que era o que permitia ajustar se polinômios de grau superior a dois na época com pouco recurso computacional disponível. Se você padroniza (média 0 variância 1) uma variável para usá-la num modelo, como trata se de uma transformação linear, as medidas de ajuste do modelo são as mesmas. O que precisa ser feito é na hora da predição, ao criar o grid de valores para predizer subtrair da média e dividir pelo desvio padrão dos dados passador para o modelo. A interpretação dos betas também muda. Se beta_1 = 2 entoa isso é a mudança em y para uma unidade na escala padronizada de x, quantas unidades de x original são necessárias para dar uma unidade padronizada calcula a partir da média e desvio padrão usados ao padronizar.