Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Tip
Experimente o Data Factory em Microsoft Fabric, uma solução de análise tudo-em-um para empresas. Microsoft Fabric cobre tudo, desde movimentação de dados a ciência de dados, análise em tempo real, inteligência de negócios e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Important
O suporte ao Azure Machine Learning Studio (clássico) terminará a 31 de agosto de 2024. Recomendamos que faça a transição para Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não pode criar novos recursos do Machine Learning Studio (clássico) (workspace e plano de serviços web). Até 31 de agosto de 2024, pode continuar a utilizar os experimentos e serviços web existentes do Machine Learning Studio (clássico). Para obter mais informações, consulte:
- Migrar para Azure Machine Learning a partir do Machine Learning Studio (clássico)
- O que é Azure Machine Learning?
A documentação do Machine Learning Studio (classic) está a ser retirada e pode não ser atualizada no futuro.
Este artigo explica diferentes ambientes de computação que você pode usar para processar ou transformar dados. Ele também fornece detalhes sobre diferentes configurações (sob demanda vs. traga sua própria) suportadas ao configurar serviços associados que vinculam esses ambientes de computação.
A tabela a seguir fornece uma lista de ambientes de computação suportados e as atividades que podem ser executadas neles.
Ambiente de computação do HDInsight
Consulte a tabela abaixo para detalhes sobre os tipos de serviços ligados ao storage suportados para configuração em ambientes On-demand e BYOC (Bring your own compute).
| No Serviço Vinculado de Computação | Nome da propriedade | Description | Blob | ADLS Gen2 | Azure SQL DB | Geração 1 da ADLS |
|---|---|---|---|---|---|---|
| On-demand | linkedServiceName | Serviço vinculado do Azure Storage a ser utilizado pelo cluster sob demanda para armazenar e processar dados. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Especifica contas de storage adicionais para o serviço ligado ao HDInsight, de modo a que o serviço possa registá-las em seu nome. | Yes | No | No | No | |
| hcatalogLinkedServiceName | O nome do serviço Azure SQL conectado que aponta para a base de dados HCatalog. O cluster on-demand HDInsight é criado utilizando a base de dados Azure SQL database como metastore. | No | No | Yes | No | |
| BYOC | linkedServiceName | A referência ao serviço vinculado do Azure Storage. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Especifica contas de storage adicionais para o serviço ligado ao HDInsight, de modo a que o serviço possa registá-las em seu nome. | No | No | No | No | |
| hcatalogLinkedServiceName | Uma referência ao serviço vinculado Azure SQL que aponta para a base de dados HCatalog. | No | No | No | No |
Azure HDInsight serviço associado sob demanda
Neste tipo de configuração, o ambiente computacional é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar dados e removido quando o trabalho é concluído. Você pode criar um serviço vinculado para o ambiente de computação sob demanda, configurá-lo e controlar configurações granulares para execução de tarefas, gerenciamento de cluster e ações de inicialização.
Note
A configuração on-demand é atualmente suportada apenas para clusters Azure HDInsight. O Azure Databricks também suporta trabalhos on-demand usando clusters de jobs. Para mais informações, consulte o serviço vinculado do Azure Databricks.
O serviço pode criar automaticamente um cluster HDInsight sob demanda para processar dados. O cluster é criado na mesma região da conta de storage (propriedade linkedServiceName no JSON) associada ao cluster. A conta de armazenamento must deve ser uma conta padrão de Azure Storage de uso geral.
Observe os seguintes pontos importantes sobre o serviço vinculado HDInsight sob demanda:
- O cluster HDInsight sob demanda é criado sob a sua subscrição do Azure. Consegues ver o cluster no teu Azure portal quando o cluster está a funcionar.
- Os registos para trabalhos executados num cluster HDInsight on-demand são copiados para a conta de storage associada ao cluster HDInsight. O clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword definidos em sua definição de serviço vinculado são usados para efetuar login no cluster para solução de problemas detalhada durante o ciclo de vida do cluster.
- Você será cobrado apenas pelo tempo em que o cluster HDInsight estiver ativo e executando trabalhos.
- Pode utilizar um Script Action com o serviço Azure HDInsight on-demand associado.
Important
Normalmente demora 20 minutos ou mais para provisionar um cluster Azure HDInsight sob demanda.
Exemplo de utilização da chave da entidade de serviço
O JSON a seguir define um serviço HDInsight associado e baseado em Linux, a pedido. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "ServicePrincipalKey",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo de utilização da Identidade Gerida Atribuída pelo Sistema
O JSON a seguir define um serviço HDInsight associado e baseado em Linux, a pedido. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo de utilização da Identidade Gerida Atribuída pelo Utilizador
O JSON a seguir define um serviço HDInsight associado e baseado em Linux, a pedido. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
O cluster HDInsight cria um contentor padrão no armazenamento de blobs especificado no JSON (linkedServiceName). Quando o cluster é eliminado, o HDInsight não elimina este contentor. Este comportamento é intencional. Com o serviço vinculado HDInsight on-demand, é criado um cluster HDInsight sempre que uma fatia precisa ser processada, a menos que haja um cluster ativo existente (timeToLive) e seja excluído assim que o processamento é finalizado.
À medida que mais atividade é executada, vês muitos contentores no teu Azure blob storage. Se não precisar destas para a resolução de problemas dos trabalhos, talvez queira eliminá-las para reduzir o custo de armazenamento. Os nomes destes contentores seguem um padrão: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Use ferramentas como Microsoft Azure Storage Explorer para eliminar contentores na sua Azure blob storage.
Properties
| Property | Description | Required |
|---|---|---|
| tipo | A propriedade type deve ser definida como HDInsightOnDemand. | Yes |
| clusterSize | Número de nós de trabalho/dados no cluster. O cluster HDInsight é criado com 2 nós principais, juntamente com o número de nós de trabalho especificados para essa propriedade. Os nós são de tamanho Standard_D3 que tem 4 núcleos, portanto, um cluster de 4 nós de trabalho leva 24 núcleos (4*4 = 16 núcleos para nós de trabalho, mais 2*4 = 8 núcleos para nós principais). Consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e muito mais para obter detalhes. | Yes |
| linkedServiceName | Serviço ligado do Azure Storage a ser utilizado pelo cluster sob demanda para armazenar e processar dados. O cluster HDInsight é criado na mesma região que esta conta do Azure Storage. O Azure HDInsight tem limitações quanto ao número total de núcleos que pode usar em cada região do Azure que suporta. Certifique-se de que tem quotas de núcleo suficientes nessa região do Azure para cumprir o clusterSize exigido. Para obter detalhes, consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e muito mais Atualmente, não pode criar um cluster HDInsight on-demand que utilize um Azure Data Lake Storage (Gen 2) como storage. Se quiser armazenar os dados resultados do processamento HDInsight num Azure Data Lake Storage (Gen 2), use um Copy Activity para copiar os dados do Azure Blob Storage para o Azure Data Lake Storage (Gen 2). |
Yes |
| clusterResourceGroup | O cluster HDInsight é criado neste grupo de recursos. | Yes |
| clusterResourceGroupAuthType | Especifique o tipo de autenticação do grupo de recursos de cluster HDInsight On-demand. Os tipos de autenticação suportados são "ServicePrincipalKey", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". | Necessário para usar a autenticação de Identidade Gerenciada. Se o campo não estiver lá, o padrão será ServicePrincipalKey |
| credencial | Especifique a referência de credencial que contém o objeto de Identidade Gerida, que tem acesso ao grupo de recursos. | Apenas necessário para a autenticação "UserAssignedManagedIdentity". |
| timetolive | O tempo ocioso permitido para o cluster HDInsight sob demanda. Especifica por quanto tempo o cluster HDInsight sob demanda permanece ativo após a conclusão de uma execução de atividade se não houver outros trabalhos ativos no cluster. O valor mínimo permitido é de 5 minutos (00:05:00). Por exemplo, se uma execução de atividade leva 6 minutos e o timetolive é definido como 5 minutos, o cluster permanece ativo por 5 minutos após os 6 minutos de processamento da execução da atividade. Se outra atividade executada for executada com a janela de 6 minutos, ela será processada pelo mesmo cluster. Criar um cluster HDInsight sob demanda é uma operação cara (pode demorar um pouco), portanto, use essa configuração conforme necessário para melhorar o desempenho do serviço reutilizando um cluster HDInsight sob demanda. Se você definir o valor timetolive como 0, o cluster será excluído assim que a execução da atividade for concluída. Considerando que, se definir um valor elevado, o cluster pode permanecer inativo para que você inicie sessão com fins de resolução de problemas, mas isso pode resultar em custos elevados. Portanto, é importante que você defina o valor apropriado com base em suas necessidades. Se o valor da propriedade timetolive estiver devidamente definido, múltiplos pipelines podem partilhar a instância do cluster HDInsight a pedido. |
Yes |
| clusterType | O tipo de cluster HDInsight a ser criado. Os valores permitidos são "hadoop" e "spark". Se não for especificado, o valor padrão será hadoop. Um cluster com o Enterprise Security Package ativado não pode ser criado on-demand. Em vez disso, use um cluster existente ou traga o seu próprio sistema de computação. | No |
| versão | Versão do cluster HDInsight. Se não for especificado, ele está usando a versão padrão atual definida pelo HDInsight. | No |
| hostSubscriptionId | O ID de subscrição do Azure era usado para criar o cluster HDInsight. Se não for especificado, utiliza o ID de subscrição do seu contexto de login no Azure. | No |
| clusterNamePrefix | O prefixo do nome do cluster HDI é seguido por um carimbo de data/hora, automaticamente acrescentado no final do nome do cluster. | No |
| sparkVersion | A versão do Spark se o tipo de cluster for "Spark" | No |
| additionalLinkedServiceNames | Especifica contas de storage adicionais para o serviço ligado ao HDInsight, de modo a que o serviço possa registá-las em seu nome. Estas contas de storage devem estar na mesma região do cluster HDInsight, que é criado na mesma região da conta de storage especificada pelo linkedServiceName. | No |
| osType | Tipo de sistema operacional. Os valores permitidos são: Linux e Windows (apenas para HDInsight 3.3). O padrão é Linux. | No |
| hcatalogLinkedServiceName | O nome do serviço Azure SQL conectado que aponta para a base de dados HCatalog. O cluster on-demand HDInsight é criado utilizando a Azure SQL Database como metastore. | No |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço ligado ao HDInsight. Para o serviço vinculado ao HDInsight on-demand, apenas suporta Azure Integration Runtime. Se não for especificado, usa o Azure Integration Runtime padrão. | No |
| clusterUserName | O nome de utilizador para acesso ao cluster. | No |
| clusterPassword | A palavra-passe do tipo "secure string" para acesso ao cluster. | No |
| clusterSshUserName | O nome de usuário para SSH se conecta remotamente ao nó do cluster (para Linux). | No |
| clusterSshPassword | A senha como uma cadeia de caracteres segura para conectar remotamente, via SSH, ao nó do cluster (para Linux). | No |
| scriptActions | Especifique o script para personalizações de cluster HDInsight durante a criação sob demanda do cluster. Atualmente, a ferramenta de criação da interface do usuário oferece suporte à especificação de apenas 1 ação de script, mas você pode superar essa limitação no JSON (especificar várias ações de script no JSON). |
No |
Important
O HDInsight oferece suporte a várias versões de cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição Hortonworks Data Platform (HDP) e um conjunto de componentes contidos nessa distribuição. A lista de versões suportadas do HDInsight continua sendo atualizada para fornecer os componentes e correções mais recentes do ecossistema Hadoop. Certifique-se de que consulta sempre as informações mais recentes da versão suportada do HDInsight e do tipo de SO para garantir que está a utilizar a versão suportada do HDInsight.
Important
Atualmente, os serviços ligados ao HDInsight não suportam HBase, Interactive Query (Hive LLAP), Storm.
- exemplo JSON de nomes de serviços vinculados adicionais
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Authentication
Autenticação do principal de serviço
O serviço vinculado HDInsight sob demanda requer uma autenticação da entidade de serviço para criar clusters HDInsight em seu nome. Para utilizar a autenticação do principal de serviço, registe uma entidade de aplicação no Microsoft Entra ID e conceda-lhe o papel de Contribuidor da subscrição ou do grupo de recursos onde o cluster do HDInsight é criado. Para passos detalhados, consulte utilize o portal para criar uma aplicação e um principal de serviço do Microsoft Entra que possa aceder a recursos. Anote os seguintes valores, que você usa para definir o serviço vinculado:
- ID da aplicação
- Chave de aplicação
- ID do inquilino
Utilize a autenticação da entidade de serviço especificando as seguintes propriedades:
| Property | Description | Required |
|---|---|---|
| servicePrincipalId | Especifique o ID do cliente do aplicativo. | Yes |
| servicePrincipalKey | Especifique a chave do aplicativo. | Yes |
| tenant | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Pode recuperá-lo deslocando o rato sobre o canto superior direito no portal do Azure. | Yes |
Autenticação de identidade gerenciada
Ao utilizar a autenticação de Identidade Gerida para os serviços ligados sob demanda do Azure HDInsight, certifique-se de que o objeto de Identidade Gerida tem acesso ao grupo de recursos com o papel de Contribuidor.
As contas de storage primário ADLS Gen2 suportam agora autenticação baseada em Identidade Gerida Atribuída pelo Utilizador (UAMI), além da autenticação já existente baseada em chaves. O UAMI deve ter permissões de Storage Blob Data Owner na conta principal de storage.
Limitações:
- A conta principal de storage ADLS Gen2 e o UAMI devem residir no mesmo grupo de recursos que o grupo de recursos usado para criar o cluster HDInsight sob demanda.
- O nome do objeto de credencial para o UAMI no Data Factory deve corresponder exatamente ao nome do UAMI.
Para mais informações, consulte Create Azure HDInsight - Azure Data Lake Storage Gen2 - portal e Identidades geridas no Azure HDInsight
Propriedades avançadas
Você também pode especificar as seguintes propriedades para a configuração granular do cluster HDInsight sob demanda.
| Property | Description | Required |
|---|---|---|
| coreConfiguration | Especifica os principais parâmetros de configuração (como em core-site.xml) para o cluster HDInsight a ser criado. | No |
| hBaseConfiguration | Especifica os parâmetros de configuração do HBase (hbase-site.xml) para o cluster HDInsight. | No |
| hdfsConfiguration | Especifica os parâmetros de configuração (hdfs-site.xml) do HDFS para o cluster HDInsight. | No |
| hiveConfiguration | Especifica os parâmetros de configuração de hive (hive-site.xml) para o cluster HDInsight. | No |
| mapReduceConfiguration | Especifica os parâmetros de configuração (mapred-site.xml) do MapReduce para o cluster HDInsight. | No |
| oozieConfiguration | Especifica os parâmetros de configuração (oozie-site.xml) do Oozie para o cluster HDInsight. | No |
| stormConfiguration | Especifica os parâmetros de configuração do Storm (storm-site.xml) para o cluster HDInsight. | No |
| yarnConfiguration | Especifica os parâmetros de configuração do Yarn (yarn-site.xml) para o cluster HDInsight. | No |
- Exemplo - Configuração de cluster HDInsight sob demanda com propriedades avançadas
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Tamanhos dos nós
Você pode especificar os tamanhos dos nós head, data e zookeeper usando as seguintes propriedades:
| Property | Description | Required |
|---|---|---|
| headNodeSize | Especifica o tamanho do nó principal. O valor padrão é: Standard_D3. Consulte a seção sobre a especificação dos tamanhos de nó para obter detalhes. | No |
| dataNodeSize | Especifica o tamanho do nó de dados. O valor padrão é: Standard_D3. | No |
| zookeeperNodeSize | Especifica o tamanho do nó do ZooKeeper. O valor padrão é: Standard_D3. | No |
- Especificação do tamanho dos nós Consulte o artigo Tamanhos de Máquinas Virtuais para os valores de texto que necessita especificar para as propriedades mencionadas na secção anterior. Os valores precisam estar em conformidade com os CMDLETs & APIS mencionados no artigo. Como você pode ver no artigo, o nó de dados de tamanho grande (padrão) tem 7 GB de memória, o que pode não ser bom o suficiente para o seu cenário.
Se você quiser criar nós principais e nós de trabalho de tamanho D4, especifique Standard_D4 como o valor para as propriedades headNodeSize e dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Se você especificar um valor errado para essas propriedades, poderá receber o seguinte erro: Falha ao criar cluster. Exceção: não foi possível concluir a operação de criação do cluster. A operação falhou com o código "400". Estado deixado pelo cluster: "Erro". Mensagem: 'PreClusterCreationValidationFailure'. Quando receber este erro, certifique-se de que está a usar o nome
Traga seu próprio ambiente de computação
Neste tipo de configuração, os usuários podem registrar um ambiente de computação já existente como um serviço vinculado. O ambiente de computação é gerenciado pelo usuário e o serviço o utiliza para executar as atividades.
Este tipo de configuração é suportado para os seguintes ambientes de computação:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
Azure HDInsight serviço associado
Pode criar um serviço vinculado ao Azure HDInsight para registrar o seu próprio cluster HDInsight com um Azure Data Factory ou um Synapse Workspace.
Exemplo de uso da autenticação básica
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo usando a identidade gerenciada atribuída ao sistema
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "SystemAssignedManagedIdentity",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo usando a identidade gerenciada atribuída ao usuário
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| tipo | A propriedade type deve ser definida como HDInsight. | Yes |
| clusterUri | O URI do cluster HDInsight. | Yes |
| nome de utilizador | Especifique o nome do usuário a ser usado para se conectar a um cluster HDInsight existente. | Yes |
| palavra-passe | Especifique a senha para a conta de usuário. | Yes |
| linkedServiceName | Nome do serviço ligado ao Azure Storage que se refere ao Azure blob storage utilizado pelo cluster HDInsight. Atualmente, não é possível especificar um serviço vinculado do Azure Data Lake Storage (Gen 2) para esta propriedade. Se o cluster HDInsight tiver acesso à Data Lake Store, pode acessar dados no Azure Data Lake Storage (Gen 2) a partir de scripts Hive/Pig. |
Yes |
| isEspEnabled | Especifique 'true' se o cluster HDInsight estiver habilitado para o Pacote de Segurança Empresarial . O padrão é 'false'. | No |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço vinculado. Pode usar Azure Integration Runtime ou Integration Runtime autogerido. Se não for especificado, usa o Azure Integration Runtime padrão. Para o cluster HDInsight ativado pelo Enterprise Security Package (ESP), utilize um tempo de execução de integração auto-hospedado que tenha linha de visão para o cluster ou que seja implementado dentro da mesma Rede Virtual que o cluster ESP HDInsight. |
No |
| tipoDeAutenticaçãoDoCluster | Especifique o tipo de autenticação de cluster HDInsight. Os tipos de autenticação suportados são "BasicAuth", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". | Necessário para usar o Managed Identity auth. Se o campo não estiver lá, o padrão será BasicAuth |
| credencial | Especifique a referência de credencial que contém informações do objeto Identidade Gerenciada para o cluster HDInsight. | Apenas necessário para autenticação "UserAssignedManagedIdentity" |
Authentication
O serviço ligado Azure Storage para ADLS Gen2 suporta agora identidades geridas atribuídas pelo sistema e pelo utilizador, além dos métodos de autenticação existentes. Este suporte está disponível por defeito ao usar Azure Integration Runtime (Azure IR) e é suportado em Self-hosted Integration Runtime (SHIR) a partir da versão 5.55.9306.2 ou posterior. Para Azure Blob Storage, o serviço ligado ao Azure Storage continua a suportar apenas autenticação por chave de conta. A autenticação de identidades gerida por cluster está agora disponível por defeito ao usar o Azure IR e é suportada no SHIR a partir da versão 5.58 ou posterior. Ao criar um cluster, apenas um método de autenticação pode ser usado por cluster. Para detalhes sobre a criação e gestão de clusters com identidade gerida, consulte Criar e gerir Azure cluster HDInsight com autenticação Entra ID
Important
O HDInsight oferece suporte a várias versões de cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição Hortonworks Data Platform (HDP) e um conjunto de componentes contidos nessa distribuição. A lista de versões suportadas do HDInsight continua sendo atualizada para fornecer os componentes e correções mais recentes do ecossistema Hadoop. Certifique-se de que consulta sempre as informações mais recentes da versão suportada do HDInsight e do tipo de SO para garantir que está a utilizar a versão suportada do HDInsight.
Important
Atualmente, os serviços ligados ao HDInsight não suportam HBase, Interactive Query (Hive LLAP), Storm.
Azure Batch serviço associado
Note
Recomendamos que utilize o módulo PowerShell do Azure Az para interagir com o Azure. Para get started, veja Install Azure PowerShell. Para saber como migrar para o módulo Az PowerShell, veja Migrar Azure PowerShell do AzureRM para o Az.
Pode criar um serviço vinculado do Azure Batch para registar um pool de máquinas virtuais (VMs) do Batch num espaço de trabalho de dados ou do Synapse. Podes executar atividade personalizada usando o Azure Batch.
Consulte os seguintes artigos se for novo no serviço Azure Batch:
- Noções básicas do Azure Batch para uma visão geral do serviço Azure Batch.
- New-AzBatchAccount cmdlet para criar uma conta Azure Batch (ou) Azure portal para criar a conta Azure Batch usando Azure portal. Consulte o artigo Using PowerShell to manage Azure Batch Account para instruções detalhadas sobre como usar o cmdlet.
- New-AzBatchPool cmdlet para criar um pool de Azure Batch.
Important
Ao criar um novo pool Azure Batch, deve ser usado 'VirtualMachineConfiguration' e NÃO 'CloudServiceConfiguration'.
Example
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| tipo | A propriedade type deve ser definida como AzureBatch. | Yes |
| accountName | Nome da conta Azure Batch. | Yes |
| accessKey | Chave de acesso para a conta do Azure Batch. | Yes |
| batchUri | URL da sua conta Azure Batch, no formato https://batchaccountname.region.batch.azure. com. | Yes |
| poolName | Nome do pool de máquinas virtuais. | Yes |
| linkedServiceName | Nome do serviço ligado ao Azure Storage associado a este serviço ligado ao Azure Batch. Esse serviço vinculado é usado para preparar arquivos necessários para executar a atividade. | Yes |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço vinculado. Pode usar Azure Integration Runtime ou Integration Runtime autogerido. Se não for especificado, usa o Azure Integration Runtime padrão. | No |
Machine Learning Studio (clássico) serviço associado
Important
O suporte ao Azure Machine Learning Studio (clássico) terminará a 31 de agosto de 2024. Recomendamos que faça a transição para Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não pode criar novos recursos do Machine Learning Studio (clássico) (workspace e plano de serviços web). Até 31 de agosto de 2024, pode continuar a utilizar os experimentos e serviços web existentes do Machine Learning Studio (clássico). Para obter mais informações, consulte:
- Migrar para Azure Machine Learning a partir do Machine Learning Studio (clássico)
- O que é Azure Machine Learning?
A documentação do Machine Learning Studio (classic) está a ser retirada e pode não ser atualizada no futuro.
Cria-se um serviço ligado ao Machine Learning Studio (clássico) para registar um endpoint de pontuação em lote do Machine Learning Studio (clássico) numa fábrica de dados ou num espaço de trabalho Synapse.
Example
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Tipo | A propriedade type deve ser definida como: AzureML. | Yes |
| mlEndpoint | A URL de pontuação em lote. | Yes |
| apiKey | A API do modelo de espaço de trabalho publicado. | Yes |
| updateResourceEndpoint | A URL do recurso de atualização para um ponto de extremidade do Serviço Web ML Studio (clássico) usado para atualizar o serviço Web preditivo com o arquivo de modelo treinado | No |
| servicePrincipalId | Especifique o ID do cliente do aplicativo. | Necessário se updateResourceEndpoint for especificado |
| servicePrincipalKey | Especifique a chave do aplicativo. | Necessário se updateResourceEndpoint for especificado |
| inquilino | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Pode recuperá-lo deslocando o rato sobre o canto superior direito no portal do Azure. | Necessário se updateResourceEndpoint for especificado |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço vinculado. Pode usar Azure Integration Runtime ou Integration Runtime autogerido. Se não for especificado, usa o Azure Integration Runtime padrão. | No |
Azure Machine Learning serviço associado
Cria um serviço ligado ao Azure Machine Learning para ligar um espaço de trabalho Azure Machine Learning a uma fábrica de dados ou a um espaço de trabalho Synapse.
Note
Atualmente, apenas a autenticação do principal de serviço é suportada para o serviço ligado ao Azure Machine Learning.
Example
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Tipo | A propriedade type deve ser definida como: AzureMLService. | Yes |
| subscriptionId | Azure ID de assinatura | Yes |
| resourceGroupName | name | Yes |
| mlWorkspaceName | Azure Machine Learning Nome do Workspace | Yes |
| servicePrincipalId | Especifique o ID do cliente do aplicativo. | Yes |
| servicePrincipalKey | Especifique a chave do aplicativo. | Yes |
| inquilino | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Pode recuperá-lo deslocando o rato sobre o canto superior direito no portal do Azure. | Necessário se updateResourceEndpoint for especificado |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço vinculado. Pode usar Azure Integration Runtime ou Integration Runtime autogerido. Se não for especificado, usa o Azure Integration Runtime padrão. | No |
Serviço ligado do Azure Data Lake Analytics
Cria-se um serviço ligado Azure Data Lake Analytics para ligar um serviço de computação Azure Data Lake Analytics a uma fábrica de dados ou a um espaço de trabalho Synapse. A atividade U-SQL da Data Lake Analytics no pipeline refere-se a este serviço ligado.
Example
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| tipo | A propriedade type deve ser definida como: AzureDataLakeAnalytics. | Yes |
| accountName | Nome da Conta do Azure Data Lake Analytics. | Yes |
| dataLakeAnalyticsUri | Azure Data Lake Analytics URI. | No |
| subscriptionId | Azure ID de assinatura | No |
| resourceGroupName | Nome do grupo de recursos do Azure | No |
| servicePrincipalId | Especifique o ID do cliente do aplicativo. | Yes |
| servicePrincipalKey | Especifique a chave do aplicativo. | Yes |
| inquilino | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Pode recuperá-lo deslocando o rato sobre o canto superior direito no portal do Azure. | Yes |
| connectVia | O Integration Runtime a ser usado para despachar as atividades para este serviço vinculado. Pode usar Azure Integration Runtime ou Integration Runtime autogerido. Se não for especificado, usa o Azure Integration Runtime padrão. | No |
serviço associado Azure Databricks
Podes criar o serviço ligado Azure Databricks para registar o espaço de trabalho Databricks que usas para executar as cargas de trabalho Databricks (notebook, jar, python).
Important
Os serviços vinculados do Databricks suportam pools de instâncias e autenticação de identidade gerenciada atribuída pelo sistema.
Exemplo - Usando novo cluster de trabalho no Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Exemplo - Usando cluster interativo existente no Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Nome do Serviço Vinculado | Yes |
| tipo | A propriedade de tipo deve ser definida para: Azure Databricks. | Yes |
| domínio | Especifique a Região Azure em conformidade, com base na região do workspace Databricks. Exemplo: https://eastus.azuredatabricks.net | Yes |
| accessToken | O token Access é necessário para que o serviço se autentique no Azure Databricks. O Token de Acesso precisa ser gerado a partir do espaço de trabalho Databricks. Passos mais detalhados para encontrar o token access podem ser encontrados aqui | No |
| MSI | Use a identidade gerida do serviço (atribuída pelo sistema) para autenticar no Azure Databricks. Não precisa do Access Token ao usar autenticação 'MSI'. Mais detalhes sobre a autenticação por Identidade Gerida podem ser encontrados aqui | No |
| existingClusterId | ID de cluster de um cluster existente para executar todos os trabalhos nele. Este deve ser um Cluster Interativo já criado. Talvez seja necessário reiniciar manualmente o cluster se ele parar de responder. O Databricks sugere a execução de trabalhos em novos clusters para maior confiabilidade. Você pode encontrar a ID do Cluster Interativo no espaço de trabalho Databricks -> Clusters -> Nome do Cluster Interativo -> Configuração -> Tags. Mais detalhes | No |
| instancePoolId | ID do Pool de Instâncias de um pool existente no espaço de trabalho Databricks. | No |
| newClusterVersion | A versão Spark do cluster. Ele cria um cluster de tarefas no Databricks. | No |
| newClusterNumOfWorker | Número de nós de trabalho que este cluster deve possuir. Um cluster tem um Spark Driver e num_workers Executors para um total de num_workers + 1 nós Spark. Uma cadeia de caracteres Int32 formatada, como "1", significa que numOfWorker é igual a 1 ou "1:10" significa escalonamento automático de 1 como mínimo e 10 como máximo. | No |
| newClusterNodeType | Este campo codifica, através de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de memória ou computação. Este campo é obrigatório para o novo cluster | No |
| newClusterSparkConf | um conjunto de pares opcionais de chave-valor de configuração do Spark especificados pelo usuário. Os usuários também podem passar uma sequência de opções JVM extras para o driver e os executores via spark.driver.extraJavaOptions e spark.executor.extraJavaOptions, respectivamente. | No |
| newClusterInitScripts | Um conjunto de scripts de inicialização opcionais definidos pelo usuário para o novo cluster. Você pode especificar os scripts init em arquivos de espaço de trabalho (recomendado) ou através do caminho DBFS (legado). | No |
Azure SQL Database serviço vinculado
Cria-se um serviço ligado Azure SQL e usa-o com a Stored Procedure Activity para invocar um procedimento armazenado a partir de um pipeline. Consulte o artigo Azure SQL Connector para detalhes sobre este serviço ligado.
Azure Synapse Analytics serviço vinculado
Cria-se um serviço ligado ao Azure Synapse Analytics e usa-o com a Stored Procedure Activity para invocar um procedimento armazenado a partir de um pipeline. Consulte o artigo Azure Synapse Analytics Connector para detalhes sobre este serviço relacionado.
Serviço ligado ao SQL Server
Cria-se um serviço SQL Server ligado e usa-o com a Stored Procedure Activity para invocar um procedimento armazenado a partir de um pipeline. Consulte o artigo SQL Server connector para detalhes sobre este serviço ligado.
Azure Synapse Analytics (Artifacts) serviço associado
Cria-se um serviço ligado ao Azure Synapse Analytics (Artifacts) e utiliza-se juntamente com a Atividade de Notebook Synapse e a Atividade de definição de trabalho Synapse Spark.
Example
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Nome do Serviço Vinculado | Yes |
| description | descrição do Serviço Vinculado | No |
| annotations | anotações do Serviço Vinculado | No |
| tipo | A propriedade type deve ser definida como AzureSynapseArtifacts | Yes |
| ponto final | O URL do Azure Synapse Analytics | Yes |
| autenticação | A configuração padrão é Identidade Gerenciada Atribuída ao Sistema | Yes |
| workspaceResourceId | ID do recurso do espaço de trabalho | Yes |
| connectVia | O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Podes usar Azure Integration Runtime. Se não for especificado, usa o Azure Integration Runtime padrão. O runtime de integração auto-hospedado não é suportado atualmente. | Yes |
Serviço de ligação Azure Function
Cria-se um serviço ligado de Azure Function e utiliza-o com a atividade Azure Function para executar Azure Functions numa pipeline. O tipo de retorno da função Azure tem de ser válido JObject. (Tenha em mente que JArraynão é um JObject.) Qualquer tipo de retorno diferente de JObject irá falhar e gerará o erro do utilizador Conteúdo de resposta não é um JObject válido.
| Property | Description | Required |
|---|---|---|
| tipo | A propriedade type deve ser definida como: AzureFunction | yes |
| URL da aplicação funcional | URL para a aplicação Azure Function. O formato é https://<accountname>.azurewebsites.net. Este URL é o valor na secção URL ao visualizar a sua Aplicação de Funções na Azure portal |
yes |
| tecla de função | Chave Access para a Função Azure. Clique na seção Gerenciar para a respetiva função e copie a tecla de função ou a chave de host. Saiba mais aqui: Trabalhar com teclas de acesso | yes |
Conteúdo relacionado
Para obter uma lista das atividades de transformação suportadas, consulte Transformar dados.