1 Contexto do estudo

Bases de dados que possuem dados de variáveis de resiliência em fatores humanos são notavelmente difíceis de encontrar na indústria de óleo e gás. A maioria das bases de dados disponíveis tratam da contagem dos acidentes e respectivos elementos subjacentes. Contudo, uma abordagem que investiga os condicionantes de performance que tornam um ambiente resiliênte é algo ainda novo na prevenção de acidentes nas plataformas de óleo e gás, e por esse motivo há escassez de dados estruturados com tal foco, contribuindo assim para que as análises orientadas à resiliência sejam um desafios aos pesquisadores.

1.1 Objetivos desse estudo

Tendo em vista a problemática apontada no contexto acima, este estudo visa o seguinte objetivo geral.

1.1.1 Objetivo geral

Estabelecer um método para criar indicativos de capacidades resiliêntes a partir de dados textuais não estruturados.

Esses dados textuais são provenientes de narrações de colaboradores de plataformas offshore e onshore, da indústria de óleo e gás.

Os objetivos específicos para alcançar o objetivo geral é descrito a seguir

1.1.2 Objetivos específicos

Estabelecer um modelo de dados que permita estruturar os elementos textuais analisados, nomeando as falas dos entrevistados de acordo com o papel assumido por eles dentro da estrutura hierárquica no trabalho (representação por persona);
Avaliar as falas das personas para estimar as estruturas de poder estabelecidas a partir do termo “Comunicação”;
Descrever o perfil de cada persona, com base nos termos mais frequentes que eles relataram nos textos;
Verificar quais os termos mais frequentes utilizados por todas as personas, a fim de identificar os elementos símbólicos comum a todas as personas.

1.2 Questão de pesquisa

Como criar insumos para indicadores de capacidades resiliêntes a partir de dados textuais não estruturados?

1.3 Methods, Materials and Techniques

1.3.1 Métodos

Os métodos utilizados são provenientes do metamodelo descrito em Schneider(2019), na dimensão de avaliação “Senso de Unidade” da coerência da governança em ambientes complexos. Para avaliar o senso de unidade, o seguinte passo a passo foi realizado.

Todas as falas transcritas nos documentos foram separadas em duas categorias, (i) pedidos: falas dos entrevistarores (pesquisadores HF); (ii) resposta: falas dos entrevistados.
As falas dos entrevistados foram também categorizadas por personas. Personas são representações de perfis dos colaboradores da indústria de óleo e gás.

1.3.2 Materials

1.3.3 Técnicas

Para identificar os indicadores, neste estudo utilizou-se o método de mineração de texto “Bag of Words”. Segundo o glossário de Machine learning do Google*, essa técnica consistem em uma representação de palavras em uma frase ou passagem, independentemente da ordem.

Por exemplo, saco de palavras representa as seguintes três frases de forma idêntica:

o cachorro pula
pula o cachorro
cachorro pula o

Cada palavra é mapeada para um índice em um vetor esparso, onde o vetor tem um índice para cada palavra do vocabulário. Por exemplo, a frase “o cachorro pula”" é mapeada em um vetor de característica com valores diferentes de zero nos três índices correspondentes às palavras o, cachorro e pula. O valor diferente de zero pode ser qualquer um dos seguintes:

Um 1 para indicar a presença de uma palavra.
Uma contagem do número de vezes que uma palavra aparece na bolsa.
Algum outro valor, como o logaritmo da contagem do número de vezes que uma palavra aparece na bolsa.

*Disponível em: https://developers.google.com/machine-learning/glossary#b

2 Bibliotecas R

2.1 Lendo os arquivos

## Rows: 682
## Columns: 6
## $ ID_Fragmento        <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ...
## $ Documento_Fragmento <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
## $ Persona             <dbl> 4, 1, 4, 1, 1, 2, 3, 4, 3, 1, 2, 4, 1, 4, 2, 4,...
## $ Tipo_Fragmento      <chr> "Pedido", "Resposta", "Pedido", "Resposta", "Re...
## $ Pessoa              <chr> "Fogaça", "Entrevistado 1", "Fogaça", "Entrevis...
## $ Texto               <chr> "Fogaça: então tá, tá gravando a partir de agor...

2.2 Função de limpeza do texto - (palavras que foram retiradas)

Essas são as palavras que foram retiradas dos textos.

my_stops <- c("entrevistado", "algum", "existe", "entrevistada","fogaça",  "uma", "mas", "cara", "com", "por", "está", "esta", "isso", "vai", "então", "então", "pode", "assim", "acho", "uma", "coisa", "aqui", "ser", "sempre", "faz", "outro", "outra", "porque", "tudo", "ali", "pra", "alguma", "vezes", "sim", "ver", "ser", "estar", "todo", "tipo", "da", "do", "feito", "tal", "vou", "sei", "francisco", "fica", "dois", "dentro", "bom", "coisas", "felipe", "bem", "nesse", "caso", "menos", "questão", "dia", "seis" , "dias", "algumas", "hoje", "falar", "vez", "exemplo", "quantas", "cada", "mundo", "acho", "cara", "entendi", "toda", "meio", "todos", "viu", "deu", "sendo", "podem", "caras", "pois", "vem", "outras", "algo", "desse", "nada", "nenhum", "naquele", "tanto", "vamos", "chegar", "sobre", "certo", "parte", "ainda", "bordo", "anos", "aí", "ai", "é", "e", "né", "ne", "francisco", "Francisco", "Marina", "marina", "ter")

3 Avaliando os Pedidos dos entrevistadores

A avaliação dos perguntas dos entrevistadores em dinâmicas de storytelling é essencial, tendo em vista que o entrevistador provoca reações e repete as palavras dos entrevistados, com o intuito de confirmar o que foi relatado.

Assim, avaliar o conjunto de palavras e termos mais frequentes falados pelos entrevistadores, pode fornecer uma apanhado de conteúdo que foi relatado e confirmado nessas dinâmicas.

## [1] 972 252

3.1 Palavras mais frequentes de Pedidos

Nesses resultados é possível verificar as palavras e agrupamentos mais frequentes nos pedidos dos entrevistadores

##        gente procedimento      pessoal     operação   plataforma          bop 
##           26           24           21           15           15           13 
##        sonda        turno    atividade  eletrecista 
##           12           11           10            9

3.2 Clustering Pedido

O Dendograma abaixo mostra os principais termos dos repetidos pelos entrevistadores aos lideres e liderados.

4 Avaliando as Respostas dos Líderes

Esse corpus agrega todas as falas dos entrevistados categorizados como líderes dos três documentos analisados.

Quantidade de falas e termos existentes ou não em cada fala:

## [1] 342  78

4.1 Palavras mais frequentes das respostas dos líderes

Nesses resultados é possível verificar as palavras e agrupamentos mais frequentes nos pedidos dos líderes

##    gente    fazer      bop operação    chefe    folga    noite    nunca 
##       22        7        5        5        4        4        4        4 
##   quatro quinzena 
##        4        4

5 Avaliando as respostas dos liderados

Abaixo o conjunto de palavras mais frequentes dos liderados.

Quantidade de falas e termos existentes ou não em cada fala:

## [1] 381  77

5.1 Palavras mais frequentes dos liderados

Essas são as palavras mais frequentes faladas pelos liderados.

##       sonda       barco comunicação         dpo    blackout        bota 
##          15           9           7           7           6           6 
## normalmente     capitão       fazer    operação 
##           6           5           5           5

6 Palavras Comum Lideres e Liderados

## <<VCorpus>>
## Metadata:  corpus specific: 0, document level (indexed): 0
## Content:  documents: 2

6.1 Palavras comuns entre as personas

## <<VCorpus>>
## Metadata:  corpus specific: 0, document level (indexed): 0
## Content:  documents: 3

6.2 Núvem de palavras comuns entre Entrevistador, Gerentes e Operadores

Essa núvem agrega as palavras comuns entre entrevistador, gerentes e operadores.

6.3 Comunicação

Abaixo as palavras comuns entre gerentes e operadores que possuem maior correlção com o termos comunicação.

7 Conclusões

Observar cada parte de um corpus como sendo a representação de personas permite compreender os elementos simbólicos que povoam os modelos mentais dos agentes humanos, em contextos sociotécnicos. …

8 Referencias

http://www.stat.columbia.edu/~tzheng/files/Rcolor.pdf

https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/

https://cran.r-project.org/web/packages/corpus/vignettes/corpus.html

https://rpubs.com/malkoves/DS_project

Técnica Bag of words para compreensão de estruturas e papéis de trabalhadores da indústria de óleo e gás

Código fonte, método e modelagem: Viviane Schneider. Método e validação: Aline Pacheco e Rosana Halinski De Oliveira

outubro de 2020 - última versão: 10 de dezembro de 2020