Cuando los clientes ingresan al sitio electrónico de su empresa siempre dejan un rastro, lo quieran o no. Usualmente hay herramientas básicas que permiten reconocer ese recorrido.
Hay información de lo que hicieron los clientes en el website que no está estructurada (sin ordenar ni clasificar), cuyo volumen excede la capacidad de las herramientas básicas, y que puede ser automatizada para descubrir patrones de conducta.
Ahí es donde puede utilizarse la minería de datos ( data mining ) y específicamente la minería de datos en la web ( web mining ). Y no requiere mucho sacrificio para las empresas.
“Para realmente aprovechar las ventajas competitivas que da la minería de datos , y específicamente la minería de la web, no es necesario hacer grandes inversiones en equipo. Ahora todo se puede hacer en la nube rentando equipos por demanda”, advirtió Oldemar Rodríguez Rojas, director de formación de el Programa Iberoamericano de Formación de Minería de Datos (Promidat) .
Esta entidad –que brinda cursos virtuales y presenciales, seminarios y asesorías en este campo– realizará el 30 y 31 de marzo la primera conferencia latinoamericana de big data en Costa Rica, en el Hotel Crowne Plaza Corobici. Entre los temas incluidos está el de web mining .
LEA Realizan primera conferencia regional de big data en Costa Rica
¿Por qué importa conocer qué hace el cliente en el sitio de la empresa? Porque en una tienda en línea el usuario ingresa y sale con un clic , por lo que el foco principal debe estar en lo que él hace y en cómo facilitar la presentación de ofertas y promociones, la estructuración de las páginas y la presentación de los productos y servicios, y especialmente la realización de la transacción en línea.
Tendencias
El 2017 inició con la confirmación de varias tendencias tecnológicas en big data y analítica.
La primera de ellas es tener todos los datos en la nube (conocida como cloud storage ), que se complementa con la realización de los cálculos ( cloud computing ) y procesos en la nube en clusters de computadoras ( hadoop ).
La consolidación de estas tendencias se debe principalmente a la gran reducción de costos que se logran, pues las empresas e instituciones ya no necesitan invertir en caros equipos, los cuales la mayoría de las veces terminan siendo subutilizados.
Uno de los principales cambios que se está viendo, desde el punto de vista tecnológico, es la sustitución de software propietarios muy caros por la plataforma R , “libre, abierta y gratuita”.
R es una plataforma (permite desarrollar “aplicativos”) y uno de los lenguajes más utilizados en investigación por la comunidad estadística en el campo de la minería de datos, la investigación biomédica, la bioinformática y las matemáticas financieras.
Paralelamente, ante esta realidad, los software propietarios (los de desarrollados y comercializados por diversas compañías) están tendiendo a integrarse con esa plataforma.
De tales tendencias no escapa la minería de datos y la minería de web , donde también es posible recurrir a herramientas disponibles a través de la nube.
Con la minería de datos se pueden encontrar, usando medios automatizados, patrones de comportamiento que no están a simple vista. La minería de web hace lo mismo a nivel de los sitios y páginas electrónicas.
También incluye los datos de acceso y navegación de documentos, hipervínculos y otros recursos que utilizan y recorren los usuarios en las páginas electrónicas, resaltan Jaideep Srivastava, director del Social Computing Group en Qatar Computing Research Institute, y Prasanna Desikan y Vipin Kumar, profesores e investigadores de computación de la Universidad de Minessota, en Estados Unidos.
Así la minería de la web es la aplicación de la minería de datos para descubrir los patrones de comportamiento de los usuarios de los sitios electrónicos. De acuerdo con los objetivos de análisis que se tengan se puede enfocar en el uso, del contenido y de la estructura de la Web.
Para realizarla se requieren herramientas y programas especializados que extraen y analizan la información, tales como R y paquetes especiales para obtener datos de distintos formatos como HTML, XML y JSON.
En la actualidad no es necesario comprar estas herramientas , pues están disponibles en servicios a través de Internet. Lo que más se necesita es la capacitación para obtener una comprensión a fondo de la metodologías existentes y que usualmente exigen conocimientos de estadística, computación y ciencia de datos.
Según Oldemar Rodríguez, de Promidat, este tipo de sistemas pueden ser muy útiles para las pequeñas y medianas empresas .
Por ejemplo, para seguir las tendencias de precios, mercados, clientes y competencia.
Incluso se puede obtener información de los rivales en el mercado. “ Se pueden explorar las redes sociales de las grandes empresas para detectar automáticamente y periódicamente cuáles son sus tendencias, clientes, promociones ”, dijo Rodríguez.
Con la minería de la web se obtienen datos de identidad y el origen de los usuarios.
Así los registros de usuario son recopilados por el servidor e incluyen la cantidad de visitas o sesiones y las direcciones IP (el código asignado para el enlace que le provee el operador).
También se obtiene un rastro de las páginas o secciones que el usuario visitó en el sitio web y los tipos de transacciones realizadas, incluyendo las que hizo mediante las aplicaciones.
De esa forma se extraen los patrones de ruta de navegación y uso que tiene el cliente , con lo cual se va conformando su historia de navegación y de las operaciones realizadas.
Estos registros y análisis pueden requerir una o varias técnicas que son aportadas por las herramientas de minería.
Abecé de la minería
¿Qué es data mining? Es la extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos.
¿Qué es web mining? Se refiere a la recuperación de la información tanto del contenido de las páginas web, de su estructura de relaciones (enlaces) y de los registros de navegación de los usuarios de cada sitio.
Herramientas para web mining: Se requiere herramientas y programas especializados para extraer y analizar la información (la mayoría no estructurada) de las páginas web, como la plataforma R y paquetes especiales que puedan extraer datos de formatos como HTML, XML y JSON.
Fuente Promidat