Aprendizado de Máquina (Univesp) - Questões e Respostas

Semana 1 4

Na área de engenharia, árvores de decisão são aplicadas no controle de qualidade, ajudando a identificar falhas em produtos ou processos. Elas classificam variáveis de produção para apontar fatores que levam a defeitos, permitindo intervenções direcionadas para melhorar a eficiência e reduzir desperdícios.

Com relação a este contexto e sobre o conteúdo estudado, examine as asserções a seguir e a relação proposta entre elas:

I. As regras de divisão em modelos de classificação, como as usadas em árvores de decisão, são baseadas em métricas como entropia, Gini e ganho de informação, que avaliam a pureza dos subconjuntos formados após uma divisão.

PORQUE

II. A entropia e o ganho de informação sempre levam a melhores divisões que o índice de Gini, porque a entropia penaliza mais as divisões impuras.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são falsas.

Uma aplicação de árvores de decisão na área industrial é a manutenção preditiva de máquinas. Empresas utilizam esse modelo para prever falhas em equipamentos e otimizar os cronogramas de manutenção. Com base nesses dados, a árvore de decisão pode classificar se a máquina está em bom estado, precisa de manutenção preventiva ou está em risco de falha iminente. Isso reduz custos operacionais, evita paradas inesperadas na produção e melhora a eficiência industrial.

Neste contexto, associe o conceito às descrições corretamente.

Conceito	Descrição
I. Indução de modelos	A. Ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, comprometendo seu desempenho em novos dados.
II. Precisão em aprendizado supervisionado	B. Consiste na extração de padrões gerais a partir de um conjunto de dados de treinamento.
III. Overfitting	C. Garante alta precisão em dados não vistos, desde que o conjunto de treinamento seja grande.

Assinale a alternativa que apresenta a associação correta.

I-A; II-C; II-B

I-B; II-C; III-A

I-A; II-B; III-C

I-C; II-A; III-B

I-B; II-A; III-C

O aprendizado por reforço é um paradigma de aprendizado de máquina no qual um agente interage com um ambiente e aprende a tomar decisões por meio de tentativa e erro, recebendo recompensas ou penalidades como feedback. O objetivo do agente é maximizar a recompensa acumulada ao longo do tempo, desenvolvendo uma política ótima para suas ações com base nas experiências adquiridas.

Nesse sentido, assinale a alternativa que identifica qual processo é fundamental para o funcionamento de um algoritmo de aprendizado de máquina.

Substituir automaticamente a necessidade de supervisão humana em qualquer sistema.

Executar código predefinido para realizar uma tarefa específica sem alterações.

Coletar dados e gerar relatórios estáticos sem aprendizado adicional.

Armazenar todos os dados de entrada para realizar buscas rápidas no futuro.

Identificar padrões em dados e ajustar parâmetros com base em exemplos fornecidos.

Uma aplicação de árvores de decisão na área médica é o diagnóstico de doenças. Um exemplo comum é o uso de árvores de decisão para identificar se um paciente tem diabetes com base em variáveis como idade, índice de massa corporal (IMC), nível de glicose no sangue, pressão arterial e histórico familiar.

Neste sentido, sobre indução de árvores de decisão e regressão em aprendizado de máquina, observe as afirmativas a seguir:

I. As árvores de decisão são usadas tanto para tarefas de classificação quanto de regressão.

II. O critério "Impureza de Gini" é utilizado para medir a qualidade de divisões em árvores de decisão para regressão.

III. As árvores de regressão realizam divisões nos dados com base em uma métrica de erro, como o erro quadrático médio (MSE).

Está correto o que se afirma em:

III, apenas.

I, II e III.

I e III, apenas.

II e III, apenas.

I, apenas.

Semana 2 5

As regras de classificação são especialmente adequadas para tarefas em que os dados apresentam características discretas ou categorias bem definidas. Um dos aspectos mais interessantes desse método é a capacidade de capturar diretamente as interações entre atributos em formas lógicas.

De acordo com o apresentado, assinale a alternativa que recorda o funcionamento do algoritmo de Dijkstra.

O algoritmo de Dijkstra utiliza uma abordagem de busca em profundidade (DFS) para encontrar o caminho mais curto.

O algoritmo de Dijkstra sempre visita todos os vértices do grafo, independente da conectividade.

O algoritmo de Dijkstra encontra o caminho mais curto a partir de um vértice inicial para todos os outros vértices, utilizando uma estrutura de fila de prioridade.

O algoritmo de Dijkstra funciona corretamente mesmo quando há arestas com pesos negativos.

O algoritmo de Dijkstra é um algoritmo guloso que encontra o caminho mais curto, explorando todos os caminhos possíveis antes de escolher a melhor solução.

A geração de regras no aprendizado de máquina pode ser feita tanto de forma supervisionada quanto semi-supervisionada, dependendo da disponibilidade de rótulos nos dados. Regras supervisionadas se baseiam nos exemplos rotulados, enquanto métodos semi-supervisionados podem explorar informações de exemplos não rotulados para melhorar as regras. Essa flexibilidade torna a abordagem útil em diferentes contextos, mas exige cuidado para balancear a precisão com a simplicidade das regras.

Com relação a este contexto e sobre o conteúdo estudado, analise as asserções a seguir e a relação proposta entre elas:

I. O algoritmo de cobertura constrói regras iterativamente até que todos os exemplos positivos sejam cobertos.

PORQUE

II. O algoritmo de cobertura remove exemplos negativos a cada iteração para evitar que as regras aprendidas se tornem excessivamente específicas.

A respeito dessas asserções assinale a alternativa correta.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são falsas.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

Leia o trecho a seguir:

Os métodos de aprendizado de regras de classificação utilizam técnicas baseadas em algoritmos de busca e heurísticas para encontrar padrões nos dados. Esses métodos têm como objetivo criar regras simples que sejam eficazes para prever as classes de exemplos desconhecidos. Um exemplo é o algoritmo RIPPER, que constrói regras otimizadas iterativamente com base em exemplos de treino. Tais abordagens são úteis em cenários onde a interpretabilidade é tão importante quanto a precisão.
Em aprendizado de máquina, as regras de decisão são expressas na forma de declarações condicionais, como "se [preencher 1] então [preencher 2]", que são utilizadas para classificar exemplos em diferentes categorias.

Os termos [preencher 1] e [preencher 2] são corretamente substituídos por:

1 - atributos; 2 - classe

1 - entradas; 2 - pesos

1 - exemplos; 2 - valores

1 - dados; 2 - saída

1 - variáveis; 2 - resultados

Uma aplicação prática de regras de classificação na área financeira, por exemplo, é a detecção de fraudes em transações bancárias. Os bancos utilizam regras de classificação para identificar padrões suspeitos em transações financeiras.

Diante disso, compreenda e associe as descrições aos conceitos correspondentes sobre o classificador One-Rule (OneR) em aprendizado de máquina:

Conceito	Descrição
I. Seleção da regra	A. É um método simples que, em certos casos, pode ter desempenho comparável ao de algoritmos mais complexos.
II. Adequação a problemas complexos	B. Escolhe a regra com menor taxa de erro baseada em um único atributo dos dados.
III. Simplicidade e desempenho	C. Não é a melhor escolha para problemas que envolvem muitas interações entre atributos.

Assinale a alternativa que apresenta a associação correta.

I-B; II-C; III-A.

I-A; II-C; II-B.

I-C; II-A; III-B.

I-A; II-B; III-C.

I-B; II-A; III-C.

O aprendizado de regras de classificação em aprendizado de máquina consiste em identificar padrões explícitos que dividam os dados em categorias distintas. Essas regras são frequentemente representadas por declarações condicionais do tipo "se-então", como "Se a altura for maior que e o peso for menor que , então a classe é A".

Neste sentido, assinale a alternativa que identifica corretamente o que é algoritmo de cobertura em aprendizado de máquina.

Uma abordagem que busca construir regras uma a uma, cobrindo iterativamente exemplos positivos e ignorando os negativos.

Uma técnica que utiliza redes neurais profundas para aprender regras complexas de classificação.

Um método que divide os dados em subconjuntos disjuntos e aplica regras sobre cada um deles.

Um método que aplica uma única regra global para classificar todos os exemplos de um dataset.

Um algoritmo que otimiza diretamente o modelo para minimizar o erro quadrático médio.

Semana 3 8

Uma das aplicações mais conhecidas de algoritmos probabilísticos é o teste de primalidade de números grandes, como o algoritmo Miller-Rabin. Esses métodos baseados em probabilidades tornam verificações rápidas possíveis, mesmo para números com centenas de dígitos. Embora não garantam precisão absoluta, o erro pode ser reduzido ajustando o número de iterações.

Diante do apresentado, sobre os tipos de conhecimento de redes bayesianas, observe as afirmativas a seguir:

I. O conhecimento causal representa como os efeitos dependem de suas causas e é frequentemente usado para prever consequências.

II. O conhecimento diagnóstico se baseia em como as causas explicam os efeitos e é usado para prever causas a partir de evidências observadas.

III. Em uma Rede Bayesiana, os dois tipos de conhecimento (causal e diagnóstico) são mutuamente exclusivos e não podem coexistir no mesmo modelo.

Está correto o que se afirma em:

I, II e III.

II e III, apenas.

I, apenas.

I e II, apenas.

III, apenas.

Na ciência de dados, algoritmos probabilísticos são amplamente usados para modelagem estatística e previsão. Os métodos como amostragem de Monte Carlo ajudam a estimar distribuições complexas e realizar inferências em problemas de alta dimensionalidade. Isso os torna ferramentas indispensáveis em finanças, meteorologia e análise de risco.

Com relação a este contexto e sobre o conteúdo estudado, examine as asserções a seguir e a relação proposta entre elas.

I. Em Redes Bayesianas, a inferência preditiva permite calcular a probabilidade de uma variável alvo com base em valores conhecidos de suas causas ou antecedentes.

PORQUE

II. As Redes Bayesianas representam somente relações causais diretas e não possibilitam inferências diagnósticas ou baseadas em evidências.

A respeito dessas asserções assinale, a alternativa correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

As asserções I e II são falsas.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

Os algoritmos probabilísticos enfrentam desafios relacionados à geração de números verdadeiramente aleatórios. A qualidade da aleatoriedade afeta diretamente a precisão e a robustez dos resultados. Por isso, métodos de geração pseudoaleatória são amplamente estudados para garantir resultados confiáveis em aplicações práticas.

Com relação a este contexto e sobre o conteúdo estudado, avalie as asserções a seguir e a relação proposta entre elas.

I. As redes Bayesianas são altamente interpretáveis e permitem a modelagem explícita de relações de dependência entre variáveis.

PORQUE

II. As redes Bayesianas utilizam o Teorema de Bayes e grafos acíclicos direcionados (DAGs) para representar e calcular distribuições de probabilidade conjunta.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são falsas.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

Leia o trecho a seguir:

Em algoritmos probabilísticos, a aleatoriedade é usada para simplificar soluções ou melhorar o desempenho em comparação aos métodos determinísticos. Eles são especialmente úteis em cenários onde a solução exata é computacionalmente inviável, mas uma solução aproximada é suficiente. Exemplos incluem testes de primalidade e algoritmos para encontrar padrões em grandes conjuntos de dados. O classificador Naive-Bayes assume que as variáveis preditoras são [preencher 1] entre si, dado a classe, e utiliza o [preencher 2] para calcular as probabilidades necessárias para a classificação.

Os termos [preencher 1] e [preencher 2] são corretamente substituídos por:

1 - independentes; 2 - Algoritmo KNN

1 - dependentes; 2 - Algoritmo de máxima verossimilhança

1 - dependentes; 2 - Teorema de Bayes

1 - independentes; 2 - Teorema de Bayes

1 - correlacionadas; 2 - Algoritmo KNN

Algoritmos probabilísticos utilizam números aleatórios ou probabilidades para tomar decisões durante sua execução, permitindo resolver problemas com incertezas. Esses algoritmos podem ser classificados como Las Vegas, que garantem a resposta correta, mas têm tempo de execução variável, ou Monte Carlo, que possuem tempo fixo, mas podem falhar com pequena probabilidade. Seu uso é comum em problemas como simulações, aprendizado de máquina e criptografia.

De acordo com o aprendizado Bayesiano, assinale a alternativa que reconhece a principal ideia ao estimar os parâmetros de um modelo.

Aplicar redes neurais profundas para ajustar os parâmetros do modelo.

Combinar a probabilidade a priori com a verossimilhança dos dados para obter a probabilidade a posteriori.

Maximizar a utilização da verossimilhança dos dados

Utilizar os dados observados, sem considerar informações prévias.

Selecionar a hipótese que minimiza diretamente o erro nos dados de treino.

Uma aplicação prática para um algoritmo probabilístico é o filtro de spam em e-mails, que utiliza o classificador Naïve Bayes para determinar se uma mensagem é spam ou não. Esse algoritmo calcula a probabilidade de um e-mail ser spam com base na frequência de palavras e outros atributos.

Diante do apresentado, assinale a alternativa que identifica a principal característica das redes bayesianas usadas para classificação.

As redes bayesianas representam relações de dependência probabilística entre variáveis por meio de um grafo orientado acíclico.

As redes bayesianas requerem que todas as variáveis sejam discretas para serem utilizadas.

As redes bayesianas só podem ser usadas para problemas de regressão, não de classificação.

As redes bayesianas assumem independência total entre todas as variáveis do modelo.

As redes bayesianas só podem ser usadas para problemas de classificação, não de regressão.

O sucesso de um algoritmo probabilístico depende do design cuidadoso para minimizar erros e otimizar resultados. Muitas vezes, esses algoritmos apresentam um "trade-off" entre precisão e desempenho, permitindo personalizações para diferentes aplicações. Isso os torna populares em inteligência artificial, otimização combinatória e biologia computacional.

Neste sentido, sobre o classificador Naive Bayes, interprete as afirmativas a seguir:

I. O classificador Naive Bayes assume que todos os atributos do conjunto de dados são independentes entre si, dado a classe.

II. O classificador Naive Bayes só pode ser aplicado a problemas de classificação binária, não sendo útil para problemas com múltiplas classes.

III. O desempenho do classificador Naive Bayes é invariável à presença de atributos irrelevantes no conjunto de dados.

Está correto o que se afirma em:

I e II, apenas.

I, II e III.

II e III, apenas.

III, apenas.

I, apenas.

Em computação quântica, algoritmos probabilísticos desempenham um papel fundamental, utilizando propriedades quânticas para gerar soluções probabilísticas rápidas. O algoritmo de Shor, por exemplo, resolve problemas de fatoração de inteiros de forma exponencialmente mais eficiente que os métodos clássicos. Isso demonstra seu potencial revolucionário para criptografia.

Analisando os paradigmas de aprendizado de máquina, assinale a alternativa que contém o paradigma que se destaca por utilizar representações explícitas e manipuláveis de conhecimento, como regras lógicas ou árvores de decisão, e tem como principal característica a interpretação clara de suas inferências.

Paradigma baseado em exemplos, que é uma abordagem em que o modelo aprende sem a necessidade de regras explícitas ou estruturas matemáticas complexas.

Paradigma conexionista, cuja abordagem é baseada em redes neurais artificiais, que imita o funcionamento do cérebro humano.

Paradigma evolutivo, que utiliza conceitos como seleção natural, mutação e reprodução para otimizar soluções de problemas computacionais.

Paradigma simbólico, que se concentra em representação explícita de conhecimento usando, por exemplo, regras lógicas.

Paradigma estatístico, amplamente utilizado para construir modelos que podem fazer previsões ou classificações com base em dados históricos.

Semana 4 8

Aprendizado baseado em maximização de imagens utiliza funções de otimização para ajustar os parâmetros de um modelo, a fim de maximizar a similaridade entre uma imagem reconstruída e a original. Essa técnica é frequentemente aplicada em tarefas como compressão e reconstrução de imagens, envolvendo o uso de gradientes para encontrar valores ótimos.

De acordo com o apresentado, sobre o aprendizado de máquina, assinale a alternativa que reconhece quais são os métodos de maximização de margens que são frequentemente associados a qual conceito principal.

Árvores de decisão, que criam divisões hierárquicas para classificar os dados para melhorar a maximização de margens.

Redes neurais convolucionais, que são uma classe de modelos de aprendizado profundo para a maximização de margens.

Support Vector Machines (SVM), que separa as diferentes classes em um espaço de características, maximizando a margem.

Clustering K-Means, que divide os dados em k clusters baseados na similaridade e maximizando a margem.

Regressão linear, que modela a relação entre variáveis independentes e dependentes em maximização de margens.

O aprendizado por maximização em imagens frequentemente emprega redes generativas para criar novas representações visuais. Essas redes otimizam funções de custo para maximizar a verossimilhança de um conjunto de treinamento.

Considerando este contexto, interprete e associe os conceitos às descrições correspondentes sobre Support Vector Machines (SVMs) com Margens Rígidas:

Conceitos	Descrição
I. Exigência de separabilidade linear	a. Têm como característica exigir que os dados de treinamento sejam linearmente separáveis.
II. Permissão de erros de classificação	b. Não permitem pequenos erros de classificação nos dados de treinamento para evitar overfitting.
III. Maximização da margem entre classes	c. Buscam maximizar a margem entre as classes quando a função de perda é desconsiderada.

Assinale a alternativa que apresenta a associação correta.

I-B; II-A; III-C.

I-A; II-C; II-B.

I-C; II-A; III-B.

I-A; II-B; III-C.

I-B; II-C; III-A.

Leia o trecho a seguir:

A maximização de imagens requer a definição de um espaço de características, onde cada imagem é representada por vetores que capturam suas propriedades essenciais. Modelos computacionais utilizam operações matemáticas, como transformações lineares, para mapear as características iniciais para representações mais úteis.
Dessa forma, a Máquina de Vetores de Suporte (SVM) busca encontrar um(a) [preencher 1] que separa as classes de dados com a maior [preencher 2].

Os termos [preencher 1] e [preencher 2] são corretamente substituídos por:

1 - reta; 2 - distância mínima

1 - hiperplano; 2 - margem

1 - linha; 2 - dispersão

1 - vetor; 2 - precisão

1 - curva; 2 - densidade

No aprendizado baseado em maximização, o objetivo é ajustar os parâmetros de uma rede neural para maximizar a qualidade das imagens reconstruídas. Para isso, utiliza-se o cálculo do gradiente das funções de perda, propagando os erros de reconstrução no sentido inverso. Esse processo depende de técnicas como backpropagation, fundamentadas no cálculo multivariado.

Neste sentido, recordando a teoria de aprendizado estatístico, é correto afirmar o seu principal objetivo principal é:

garantir que o modelo aprenda a generalizar para dados desconhecidos.

selecionar o algoritmo com menor tempo de execução.

ajustar o modelo perfeitamente aos dados de treinamento.

minimizar o número de camadas em redes neurais profundas.

determinar a solução ótima para todos os tipos de problemas.

A análise estatística é fundamental no aprendizado baseado em maximização de imagens, sendo empregada para estimar distribuições de pixels em um conjunto de dados. Os métodos como máxima verossimilhança ou MAP (Máxima a Posteriori) são usados para ajustar parâmetros de modelos probabilísticos.

Com relação a este contexto e sobre o conteúdo estudado, examine as asserções a seguir e a relação proposta entre elas.

I. Os SVMs não lineares podem separar dados que não são linearmente separáveis no espaço original.

PORQUE

II. Os SVMs não lineares utilizam múltiplos hiperplanos no espaço original para criar regiões de decisão complexas.

A respeito dessas asserções, assinale a alternativa correta.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

As asserções I e II são falsas.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A teoria de otimização aplicada à maximização de imagens utiliza algoritmos como Gradiente Descendente Estocástico (SGD) para encontrar mínimos locais ou globais. Esses algoritmos ajustam iterativamente os parâmetros de um modelo para reduzir a diferença entre a saída gerada e a imagem real.

Neste sentido, analisando os diferentes tipos de SVMs utilizados em aprendizado de máquinas, assinale a alternativa correta.

SVMs para classificação utilizam uma função kernel apenas quando os dados não são linearmente separáveis no espaço original.

SVMs com margens suaves são indicadas para dados linearmente separáveis e não utilizam parâmetros de regularização.

SVMs para regressão utilizam o conceito de margem, mas introduzem uma faixa de tolerância chamada

, que define uma região de erro aceitável.

SVMs com margens rígidas e suaves utilizam exclusivamente funções kernel não lineares para encontrar o hiperplano ótimo.

SVMs com margens rígidas permitem erros de classificação para maximizar a margem entre as classes.

O processo de maximização em aprendizado visual frequentemente utiliza transformadas matemáticas, como a Transformada de Fourier, para decompor imagens em frequências. Isso facilita a manipulação de informações específicas da imagem, como bordas e texturas, em diferentes escalas.

Com relação a este contexto e sobre o conteúdo estudado, analise as asserções a seguir e a relação proposta entre elas.

I. Um gráfico de dispersão pode ser utilizado para mostrar a frequência de compras em um conjunto de testes em aprendizado de máquinas.

PORQUE

II. Um gráfico de dispersão é ideal para exibir distribuições unidimensionais de frequência, como um histograma.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são falsas.

Em fundamentos matemáticos, a maximização de imagens depende do uso de convoluções para capturar padrões locais em dados visuais. A aplicação de kernels convolucionais é modelada por operações de multiplicação e soma de matrizes, permitindo a extração de recursos essenciais.

Diante do apresentado sobre separador de margem máxima, compreenda as afirmativas a seguir:

I. O separador de margem máxima é sensível a outliers, pois tenta maximizar a distância entre os pontos de suporte e o hiperplano.

II. O objetivo do separador de margem máxima é minimizar o número de pontos classificados incorretamente no conjunto de dados de treinamento.

III. O separador de margem máxima garante a generalização ideal, mesmo em conjuntos de dados com ruído significativo.

É correto o que se afirma em:

I, II e III.

I e II, apenas.

I, apenas.

II e III, apenas.

III, apenas.

Semana 5 5

A métrica de distância é central no aprendizado por agrupamento, permitindo avaliar a semelhança entre elementos de um conjunto. Distâncias como a de Minkowski generalizam métricas específicas, ajustando o impacto de diferenças em cada dimensão.

Neste sentido, assinale a alternativa que define corretamente o funcionamento de algoritmos hierárquicos de agrupamento em aprendizado de máquina.

Eles dependem de rótulos conhecidos para identificar os grupos nos dados.

Eles agrupam os dados de maneira progressiva, formando uma estrutura em forma de árvore chamada dendrograma.

Eles exigem a definição prévia do número de grupos antes de iniciar o processo de agrupamento.

Eles são baseados no aprendizado supervisionado, ajustando os grupos com base em um conjunto de treinamento.

Eles utilizam um critério de similaridade baseado exclusivamente na média dos dados.

O agrupamento fuzzy permite que pontos pertençam a múltiplos clusters com diferentes graus de pertinência, baseando-se em distâncias. A função objetivo minimiza uma soma ponderada de distâncias, fundamentada em álgebra linear e funções fuzzy.

Considere as tarefas descritivas de aprendizado de máquina: sumarização, associação e agrupamento. Nesse sentido, analise as alternativas e assinale a que apresenta uma característica específica de cada uma dessas tarefas.

A sumarização cria clusters a partir de dados rotulados, a associação identifica as regras mais relevantes em um conjunto de dados, e o agrupamento utiliza supervisionamento parcial para classificar instâncias.

A sumarização consiste em reduzir grandes volumes de dados a representações compactas, enquanto a associação identifica padrões de relacionamento entre atributos, e o agrupamento classifica instâncias com base em classes previamente conhecidas.

A sumarização é utilizada para criar resumos que mantêm informações essenciais, a associação descobre co-ocorrências frequentes entre atributos, e o agrupamento forma clusters sem rótulos prévios.

A sumarização depende de técnicas supervisionadas para criar resumos, a associação forma clusters por meio de distância entre pontos, e o agrupamento usa aprendizado baseado em regras.

A sumarização depende de critérios de similaridade para formar clusters, a associação é usada para prever valores futuros com base em relações, e o agrupamento requer informações rotuladas para treinar o modelo.

O aprendizado baseado em distâncias encontra aplicações na redução de dimensionalidade, como no método ISOMAP, que preserva distâncias geodésicas. Essa abordagem usa grafos e caminhos mínimos, calculados por algoritmos como Dijkstra.

Com relação a este contexto e sobre o conteúdo estudado, avalie as asserções a seguir e a relação proposta entre elas.

I. Os algoritmos particionais baseados em erro quadrático, como o K-means, buscam minimizar a soma dos erros quadráticos entre os pontos de dados e os centróides dos clusters.

PORQUE

II. Os algoritmos particionais baseados em erro quadrático consideram a densidade dos dados como o critério principal para a formação dos clusters.

A respeito dessas asserções, assinale a alternativa correta.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

As asserções I e II são falsas.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A análise de agrupamento espectral transforma dados em um espaço de autovetores calculados de matrizes de afinidade ou similaridade. Essa técnica permite identificar clusters conectados, utilizando álgebra linear e decomposição espectral.

Com relação a este contexto e sobre o conteúdo estudado, examine as asserções a seguir e a relação proposta entre elas.

I. Os algoritmos de agrupamento baseados em grafos, como o algoritmo de corte mínimo (Min-Cut), podem particionar os dados em clusters ao remover as arestas de menor peso em um grafo.

PORQUE

II. Os algoritmos baseados em grafos consideram apenas a conectividade dos nós no grafo, ignorando o peso das arestas.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são falsas.

Uma aplicação prática do agrupamento de dados (clustering) em aprendizado de máquina é a segmentação de clientes em marketing. Nesse contexto, algoritmos de agrupamento, como K-Means ou DBSCAN, são usados para dividir clientes em grupos com características semelhantes com base em dados como histórico de compras, comportamento de navegação, idade e localização.

De acordo com o apresentado, assinale a alternativa que reconhece o conceito de análise de agrupamentos em aprendizado de máquina.

É uma técnica para ajustar hiperparâmetros de redes neurais para melhorar o desempenho em tarefas.

É um método de pré-processamento de dados para remover redundâncias antes de treinar um modelo supervisionado.

É uma técnica de aprendizado reforçado usada para treinar agentes a maximizar recompensas em um ambiente.

É um método de aprendizado supervisionado usado para classificar novos dados com base em rótulos conhecidos.

É um método que consiste identificar padrões ou estruturas em dados sem rótulos, organizando-os em grupos com base em similaridades.

Semana 6 7

A mutação é um operador essencial que introduz variações aleatórias nas soluções existentes. Isso ajuda a evitar que o algoritmo genético fique preso em mínimos locais. Em aprendizado de máquina, a mutação pode ser usada para ajustar pesos ou valores de forma inovadora.

Diante do apresentado sobre os conceitos de seleção, ponto de cruzamento e taxa de mutação, interprete as afirmativas a seguir:

I. A seleção é o processo que escolhe os indivíduos mais aptos com base em sua função de aptidão para gerar a próxima geração.

II. O ponto de cruzamento define onde dois indivíduos trocarão seus genes, mas ele não influencia diretamente a diversidade genética da população.

III. A taxa de mutação deve ser baixa para evitar a perda de indivíduos altamente aptos, mas alta o suficiente para garantir a exploração do espaço de busca.

É correto o que se afirma em:

III, apenas.

I, II e III.

I e III, apenas.

I, apenas.

II e III, apenas.

Uma das aplicações de algoritmos genéticos em aprendizado de máquina é a seleção de características. Eles podem encontrar subconjuntos ótimos de variáveis que melhoram a precisão de modelos. Esse processo reduz a dimensionalidade e melhora o desempenho computacional.

De acordo com uma análise do apresentado, assinale a alternativa que apresenta uma diferença fundamental entre algoritmos genéticos (AG) e outros tipos de algoritmos evolucionários, como estratégias evolutivas (SE) e programação evolutiva (PE), no contexto de aprendizado de máquina.

A seleção nos algoritmos genéticos é baseada predominantemente na função de aptidão, enquanto estratégias evolutivas utilizam mutações determinísticas.

A programação evolutiva depende de maneira predominante de representações baseadas em árvores, enquanto algoritmos genéticos trabalham apenas com representações binárias.

Os algoritmos genéticos utilizam operações explícitas de cruzamento, enquanto estratégias evolutivas focam predominantemente em mutações para a exploração do espaço de busca.

A mutação nos algoritmos genéticos é completamente aleatória, enquanto em estratégias evolutivas, ela é controlada pela função de aptidão.

Nos algoritmos genéticos, a população é totalmente substituída a cada geração, ao contrário das estratégias evolutivas, que mantêm sempre a mesma população inicial.

Uma aplicação prática está no ajuste automático de hiperparâmetros de modelos de aprendizado de máquina. Em vez de depender de busca manual ou grid search, os algoritmos genéticos exploram combinações complexas de parâmetros para maximizar a performance.

Com relação a este contexto e sobre o conteúdo estudado, avalie as asserções a seguir e a relação proposta entre elas.

I. Os algoritmos genéticos são eficazes para encontrar soluções aproximadas para o problema do caixeiro viajante, pois utilizam operadores como cruzamento ordenado e mutação de troca para preservar a viabilidade das rotas geradas.

PORQUE

II. O problema do caixeiro viajante pertence à classe de problemas NP-difíceis, o que torna inviável encontrar soluções exatas em tempo polinomial para instâncias grandes.

A respeito dessas asserções, assinale a alternativa correta.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são falsas.

Os algoritmos genéticos são úteis em problemas onde métodos tradicionais de aprendizado supervisionado ou não supervisionado têm dificuldades. Eles não exigem gradientes ou suposições específicas sobre os dados. Assim, são eficazes em otimizações difíceis ou de múltiplos objetivos.

Diante disso, compreenda e associe os conceitos às descrições correspondentes sobre o operador de cruzamento (crossover).

Conceito	Descrição
I. Definição do cruzamento	a. Combina partes de dois indivíduos para criar novos indivíduos, promovendo a exploração do espaço de busca.
II. Tipos de cruzamento e sua aplicabilidade	b. Métodos como cruzamento de um ponto e de dois pontos são aplicáveis também em problemas de otimização contínua.
III. Eficiência do cruzamento	c. Depende da seleção adequada dos indivíduos, geralmente baseada na função de aptidão.

Assinale a alternativa que apresenta a associação correta.

I-A; II-C; II-B.

I-A; II-B; III-C.

I-B; II-A; III-C.

I-C; II-A; III-B.

I-B; II-C; III-A.

Apesar de seu potencial, algoritmos genéticos podem ser computacionalmente caros devido à necessidade de avaliar múltiplas soluções. Contudo, seu paralelismo inerente os torna adequados para arquiteturas distribuídas. Em aprendizado de máquina, seu uso pode ser decisivo em problemas altamente não lineares.

Com relação a este contexto e sobre o conteúdo estudado, examine as asserções a seguir e a relação proposta entre elas.

I. Tanto os algoritmos genéticos quanto a busca em feixe estocástica utilizam populações de candidatos para explorar o espaço de busca em busca de soluções otimizadas.

PORQUE

II. A semelhança entre os algoritmos genéticos e a busca em feixe estocástica ocorre porque ambos os métodos mantêm apenas os indivíduos com maior diversidade em cada geração, descartando os demais.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são falsas.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

O cruzamento em algoritmos genéticos combina partes de duas soluções para gerar novas possibilidades. Esse operador aumenta a diversidade da população, permitindo a exploração de novas áreas no espaço de soluções. Assim, as gerações evoluem de forma mais robusta e adaptativa.

Diante do apresentado sobre problema do caixeiro viajante (TSP, Traveling Salesman Problem), compreenda as afirmativas a seguir:

I. O objetivo do TSP é encontrar o caminho mais curto que passe por todas as cidades exatamente uma vez e retorne à cidade inicial.

II. No contexto de algoritmos genéticos, as soluções para o TSP são representadas como populações de matrizes de adjacência.

III. O cruzamento e mutação são métodos essenciais nos algoritmos genéticos para explorar diferentes rotas no TSP.

É correto o que se afirma em:

I, II e III

I e III, apenas

III, apenas

I, apenas

II e III, apenas

A seleção no algoritmo genético privilegia as soluções com melhor desempenho na função de fitness. Indivíduos bem avaliados são mais propensos a contribuir geneticamente para a próxima geração. Esse mecanismo promove a melhoria contínua das soluções ao longo do tempo.

De acordo com os assuntos estudados sobre os algoritmos genéticos, assinale a alternativa que contém o método que é usado para buscar novas soluções no espaço de busca e garantir a diversidade da população.

Backtracking, que é aplicado em algumas abordagens de otimização e em certos algoritmos de busca.

Descida do gradiente, cujo objetivo é minimizar a função de perda (ou custo).

Cruzamento e mutação, que combina as características de dois indivíduos da população para criar novos indivíduos.

Busca por força bruta, em que todas as soluções possíveis para um determinado problema são exploradas.

Algoritmo de Dijkstra, que é amplamente utilizado em teoria dos grafos.

Semana 7 4

Uma aplicação prática de validação cruzada em aprendizado de máquinas é na seleção de modelos e ajuste de hiperparâmetros durante o desenvolvimento de um modelo de previsão, como na predição de preços de imóveis. Suponha que você tenha um conjunto de dados contendo informações sobre imóveis (como área, número de quartos, localização, etc.) e deseja criar um modelo para prever os preços de venda dos imóveis com base nessas características. A validação cruzada é uma prática recomendada para este tipo de aplicação comercial.

Nesse sentido, assinale a alternativa que recorda o critério comumente usado para validar o desempenho de modelos preditivos em aprendizado de máquina.

Aplicar o modelo a novos dados sem nenhuma validação prévia, geralmente conhecido como "produção direta".

Garantir que o modelo preveja corretamente todos os dados do conjunto de treinamento, geralmente chamado de "overfitting".

Dividir os dados em conjunto de treinamento e teste, avaliando o modelo nos dados de teste, geralmente conhecido como "validação holdout".

Comparar o tempo de execução do modelo com o tempo de treinamento, geralmente conhecido como "trade-off".

Ajustar os hiperparâmetros do modelo até que a acurácia no conjunto de treinamento seja máxima, geralmente chamado de "tuning de hiperparâmetros".

A escolha do modelo ideal depende não apenas da acurácia, mas também de outros critérios, como complexidade e tempo de execução. Modelos mais simples podem ser preferidos em casos de restrições de recursos. Assim, a comparação deve considerar eficiência, interpretabilidade e escalabilidade.

Com relação a este contexto e sobre o conteúdo estudado, avalie as asserções a seguir e a relação proposta entre elas.

I. Os critérios internos avaliam a qualidade do modelo com base nos próprios dados de treinamento, sem levar em consideração informações externas.

PORQUE

II. O erro de treinamento nos critérios internos é a métrica mais complexa, que mede o erro entre as previsões do modelo e os valores reais no conjunto de treinamento.

A respeito dessas asserções, assinale a alternativa correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

As asserções I e II são falsas.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.

Em problemas de aprendizado de máquina com dados desbalanceados, a acurácia isolada pode ser enganosa. Métricas como precisão, recall e F1-score são mais apropriadas para refletir o desempenho real. Comparar modelos nessas condições exige atenção a esses fatores para evitar escolhas inadequadas.

Considere o conceito de precisão (precision) como uma métrica de desempenho em problemas de classificação binária. A precisão é definida como a proporção de verdadeiros positivos (TP) em relação ao total de instâncias classificadas como positivas (a soma de verdadeiros positivos e falsos positivos, FP).

Dado o seguinte cenário em um problema de classificação, analise as medidas a seguir:

Total de verdadeiros positivos (TP):
Total de falsos positivos (FP):
Total de verdadeiros negativos (TN):
Total de falsos negativos (FN):

Neste sentido, assinale a alternativa que apresenta o valor da precisão (precision).

Comparar modelos requer uma análise além da acurácia, considerando métricas como área sob a curva ROC (AUC-ROC) e matriz de confusão. Essas métricas fornecem uma visão mais detalhada do desempenho em diferentes classes. Modelos com alta acurácia podem ter desempenho desequilibrado em classes minoritárias.

Diante do apresentado sobre o uso do algoritmo K-Nearest Neighbors (KNN), interprete as afirmativas a seguir:

I. O KNN pode ser usado tanto para classificação quanto para regressão.

II. O valor de k (número de vizinhos) sempre deve ser ímpar para que o algoritmo funcione corretamente.

III. O KNN é sensível à escolha da métrica de distância.

É correto o que se afirma em:

I, apenas.

II e III, apenas.

I e III, apenas.

I, II e III.

III, apenas.