Composição do vestibular da AI Wars College: maquiagem, palavras de maquiagem, rotina universal

Fonte: "Deep AI" (ID: DeepAI2023), Autor: Li Ming, Editor: Wei Jia

Fonte da imagem: Gerada pela ferramenta Unbounded AI

Este vestibular deve ser o mais especial dos últimos cinco anos. Porque há uma nova função - candidatos a IA.

Assim que o exame chinês no primeiro dia terminou, um concurso de composição de IA foi lançado na Internet. Modelos de IA como GhatGPT, Wenxin Yiyan e Tongyi Qianwen são usados por pessoas para escrever redações para exames de admissão em faculdades. Um artigo pode ser gerado em poucos segundos, o que não é apenas incrivelmente rápido, logicamente rigoroso, mas também cita clássicos.

À primeira vista, a escrita de modelos de IA em larga escala é simplesmente muito fácil e parece ser um golpe para os seres humanos. Afinal, em termos de reservas de conhecimento, ninguém se compara à IA. A IA aprende e digere todas as informações na Internet e, em seguida, imita expressões humanas e usa sua própria lógica para produzir.

No entanto, se analisarmos cuidadosamente as "folhas de respostas" dos candidatos à IA, descobriremos que a IA não é tão onipotente quanto muitas pessoas imaginam. Problemas como rotina de escrita, incapacidade de contar e absurdos que são comuns em grandes modelos de IA também aparecem na composição.

**Na verdade, de acordo com os padrões de pontuação para redações de vestibular, redações geradas por IA têm algumas limitações. Ainda não é realista derrotar humanos. **

A Deep AI testou três grandes modelos de IA – GhatGPT (OpenAI), Wenxin Yiyan (Baidu) e Tongyi Qianwen (Ali) – com a composição do vestibular e encontrou algumas conclusões interessantes.

Por exemplo, a IA não sabe contar e nenhum dos ensaios escritos por Wenxin Yiyan e Tongyiqianqian atingiu o requisito rígido de "não menos de 800 palavras"; Said; A escrita da IA é basicamente inseparável das rotinas e um modelo é aplicada repetidamente.

A seguir estão os detalhes, bem-vindo para discutir.

1 Uma secretária eletrônica sem emoção

O tema do vestibular A deste ano é "Pessoas·Tecnologia·Tempo". É necessário começar com a frase "As pessoas têm melhor controle sobre o tempo devido ao desenvolvimento tecnológico, mas algumas pessoas se tornaram servos do tempo" e escreva suas próprias associações e pensamentos.

Vamos primeiro dar uma olhada na "Análise das questões do teste" emitida pelo Instituto de Exames Educacionais do Ministério da Educação:

**Pontos-chave: Oriente os candidatos a pensar profundamente sobre a importância da análise racional e do julgamento prudente na era da informação. Este é o núcleo do artigo. **

A Deep AI testou três modelos grandes e descobriu que nenhum deles compreendia o núcleo - eles falavam sobre tudo, mas não diziam nada.

Primeiro, olhe para a composição do GhatGPT:

Olhe para as palavras de Wenxin novamente:

Finalmente, veja a pergunta de Tong Yiqian:

Esses três ensaios podem ser chamados de os principais "mestres de Duan Shui" Eles falaram sobre os prós e contras do tema, mas não explicaram completamente o ponto do "pensamento crítico". Apenas Wenxin mencionou claramente "o cultivo do pensamento aprofundado e do pensamento crítico".

A composição de Tongyi Qianwen é a mais vazia. Centra-se na "gestão do tempo", que foge do assunto, e a veracidade da discussão também é senso comum. Além disso, a composição de Tongyi Qianwen não tem título e os pontos serão deduzidos.

Vamos usar a questão do teste de redação "O Poder da História" no Volume I do novo padrão curricular para ver o desempenho das três escolas.

Esta composição requer que você escreva suas próprias associações e pensamentos com base na seguinte passagem: uma boa história pode nos ajudar a expressar e comunicar melhor, tocar o coração e iluminar a sabedoria; uma boa história pode mudar o destino de uma pessoa, pode apresentar a imagem de um nação... As histórias têm poder.

Composição do GhatGPT:

Literalmente:

Perguntas frequentes:

Deve-se dizer que, além da composição relativamente simples de Tongyi Qianwen, a expressão, a lógica da escrita e, especialmente, o uso de palavras nos outros dois artigos são notáveis. Em particular, Wen Xinyiyan usa um método de abertura baseado em cena, que é atraente.

Mas o problema também é óbvio- **A mesma coisa é dita repetidamente em palavras diferentes, resultando na leitura do texto completo, dando às pessoas uma sensação de "eu sei o que você disse". **

Uma secretária eletrônica sem emoção, essa é a avaliação de muitas pessoas.

“O conteúdo está vazio e as rodas mudam e falam de um lado para o outro.” Algumas pessoas comentaram. Outro disse: "É tudo bobagem sem nutrição".

Podemos também desmontar esta composição de Wen Xinyiyan e saberemos o que é "Chejiluhua".

As partes marcadas em amarelo e verde no texto têm exatamente o mesmo significado, podendo-se até dizer que são as mesmas palavras, que aparecem repetidas vezes no texto. No final do artigo, todo o parágrafo marcado como "em resumo" é uma miscelânea dos pontos de vista e habilidades de fala do artigo.

Isso dá às pessoas uma sensação visual de contar palavras.

O Deep AI mudou as palavras do prompt para permitir que o ChatGPT imaginasse que ele era um candidato no local do vestibular e escreveu uma redação novamente. A primeira frase que surgiu foi "Quando sentei na cadeira deste exame, fiz uma canetas eletrônicas avançadas..."

Fazendo o teste dessa forma, estima-se que ele seja condenado a uma infração e obtenha zero pontos diretamente.

**Não há alma, que é o maior item negativo para composição de IA. **

2 rotinas, todas as rotinas

Para fazer a composição ficar assim, a IA usou muitas rotinas.

Eles gostam de usar padrões de frase "primeiro, segundo, então, último". O mais típico é o ChatGPT, o último parágrafo deve ser "Em geral..."

Por exemplo, estes dois ensaios do ChatGPT:

Existem rotinas semelhantes em Wenxinyiyan e Tongyiqianwen. A saída na refeição anterior foi feroz como um tigre e deve terminar com "em uma palavra" e "em uma palavra" no final.

Isso é o mesmo que tocar violão, desde que você domine a fórmula de acorde universal (como a progressão do cânone universal), você pode tocar centenas de músicas.

Ainda, pedimos a Wen Xinyiyan para avaliar a composição que escrevemos, e também foi uma longa discussão sobre "primeiro, segundo, outro e geral ...".

Na questão de composição de "Pessoas·Tecnologia·Tempo", ChatGPT e Tongyi Qianwen usaram quase a mesma expressão: use "então" para fazer uma pergunta e use "primeiro, segundo e último" para desenvolver uma discussão específica. A estrutura e a lógica parecem ter sido esculpidas no mesmo molde.

Apesar disso, Wen Xinyiyan deu com confiança a sua redação de vestibular uma pontuação alta de 90 (assumindo uma pontuação total de 100), e também se autoavaliou como "digna de reconhecimento". Jogamos sua composição no ChatGPT, e o ChatGPT deu uma pontuação perfeita de 100 sem hesitar...

O grande modelo AI é como uma linha de montagem industrial, produzindo composições em lotes. Mas, em essência, não importa o quão humano ele fale, a tecnologia motriz é a matemática e a estatística, não a consciência.

Na indústria de inteligência artificial, sempre foi muito difícil para a IA entender e falar a linguagem humana. A linguagem natural humana é um sistema extremamente complexo. Os cientistas permitem que a máquina simule a rede neural do cérebro humano, tornando-a capaz de aprendizado profundo, mas ainda não possui a mesma capacidade de linguagem natural dos humanos.

Então, algumas pessoas encontraram outra maneira de transformar o problema da linguagem em um problema matemático e, indiretamente, resolver o problema do processamento da linguagem natural por meio do cálculo. Segundo Wu Jun, especialista em processamento de linguagem natural, um modelo de linguagem não é uma estrutura lógica ou um sistema de feedback biológico, mas um modelo construído por fórmulas matemáticas. **A palavra-chave é "matemática". **

**Isso determina que a inteligência artificial não tem autoconsciência ou emoções e não pode falar de acordo com os sentimentos pessoais. Para eles, escrever uma composição é uma expressão lógica orientada para resultados e tarefas. **

Ao capturar grandes quantidades de dados de toda a rede para treinamento e aprender continuamente a imitar as expressões da linguagem humana, o AI large model agora fala muito próximo aos humanos. Embora ainda não entenda o significado por trás das palavras, isso não afeta comunicação.

Fundamentalmente, a IA não tem mente própria. Esta é também a razão fundamental pela qual sua composição parece clara e lógica.Se você a ler com atenção, descobrirá que não há alma e tudo são rotinas.

3 AI realmente não pode contar

Como mencionamos anteriormente, os parâmetros do modelo de linguagem são todos obtidos por meio de estatísticas. Seu princípio é prever a probabilidade da próxima palavra dada a história de um texto e, em seguida, completar o seguinte.

Em 2017, o Google propôs pela primeira vez o modelo Transformer baseado no mecanismo de auto-atenção. Agora, grandes modelos de linguagem como ChatGPT são construídos na arquitetura Transformer.

O mecanismo de atenção do Transformer tem uma memória extremamente longa do que os algoritmos de aprendizado profundo anteriores, como RNN (rede neural recorrente), GRU e LSTM. **Ele também pode lembrar a ordem de entrada, para entender a diferença entre "eu te amo" e "você me ama". **

Mas, mesmo assim, tem limitações.

Por exemplo, a Deep AI pediu a Tongyi Qianwen para avaliar sua própria composição, o que confundiu os conceitos de "você" e "eu". A princípio dizia que era o seu próprio artigo, depois dizia que era o artigo "seu"...

Long Zhiyong, autor de "The Era of Large Models", explicou ao Deep AI, **Isso pode ser devido à mudança de posição da perspectiva da luta entre a esquerda e a direita. **

No processo de teste do modelo grande de IA para escrever a redação do vestibular, também encontramos um fenômeno interessante - a IA não pode contar.

É requisito para a redação do vestibular que a contagem de palavras não seja inferior a 800 palavras. Deep AI interagiu com o modelo grande muitas vezes. **Exceto para ChatGPT, a primeira edição de Wenxin Yiyan e Tongyi Qianwen não atingiu 800 palavras. **

Por exemplo, Wenxin Yiyan, Deep AI lembrou repetidamente que o número de palavras no artigo não é suficiente para 800 e precisa ser reescrito. Wen Xin dizia isso todas as vezes: primeiro, ele se desculpou humildemente, prometeu atender aos requisitos e, em seguida, gerou rapidamente uma nova composição em dez segundos - ainda menos de 800 palavras.

Este "candidato" não consegue entender as questões de redação e não as corrige após o ensino repetido, o que é um grande ponto negativo.

Long Zhiyong explicou ao Deep AI: "O método de treinamento do grande modelo para prever a próxima palavra não permite que ele aprenda a contar. Ele não sabe quanto é 800 e não sabe como contar as palavras para gerar artigos**."

Na verdade, para não falar de 800, Wen Xin nem consegue contar números como 10.

Este é um problema com modelos de linguagem em geral. Quanto ao motivo pelo qual não podem ser contados, quando e por que método podem ser contados, ainda não há conclusão. "Embora existam algumas dicas para ajudá-lo a contar, não é uma solução geral. *O estágio atual do modelo grande é verificar sua capacidade fazendo experimentos de caixa preta e melhorar sua capacidade fazendo treinamento de caixa preta. * "Long Zhiyong disse.

Sob a sugestão de Long Zhiyong, o Deep AI mudou as palavras do prompt e inseriu "quanto mais rico o conteúdo, mais longo ele é", e Wenxin Yiyan produziu uma composição de mais de 800 palavras.

Nas questões de redação anteriores para o vestibular, a redação do ChatGPT ultrapassou 800 palavras, mas na verdade não aprendeu a contar.

O ChatGPT explica o Deep AI assim:

Portanto, de fato, o número de palavras na composição do "melhor aluno" do ChatGPT está dentro do padrão, o que se deve a Meng. Ele não sabe quantas 800 palavras são, então apenas escreve o máximo possível.

Não consigo entender completamente a linguagem humana, mas tenho super reservas de conhecimento e habilidades expressivas, o que às vezes leva a cenas estupefatas.

A julgar pelos resultados desta composição do exame de admissão da faculdade de guerra de IA, a capacidade de escrita do grande modelo fez um grande progresso. Em termos de escolha de palavras, discussão lógica e citações, ele superou muitas pessoas.

Porém, a avaliação da qualidade da composição em si possui fatores subjetivos, ao contrário de um problema de matemática onde há apenas uma resposta correta. Palavras e frases bonitas são as mesmas, mas almas interessantes são uma em um milhão. Como injetar alma na composição, o modelo AI ainda não entendeu. Alguns problemas inerentes ao grande modelo de IA também precisam ser resolvidos lentamente por meio de iterações técnicas.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)